Майкл Тимоти Беннетт и Элайджа Перье, The Conversation
Новая модель искусственного интеллекта (ИИ) только что достигла результатов человеческого уровня в тесте, предназначенном для измерения «общего интеллекта».
20 декабря система o3 от OpenAI набрала 85% на бенчмарке ARC-AGI , что значительно превышает предыдущий лучший результат ИИ в 55% и находится на одном уровне со средним человеческим результатом. Она также показала хорошие результаты на очень сложном математическом тесте.
Создание искусственного интеллекта общего назначения (AGI) является заявленной целью всех основных исследовательских лабораторий ИИ. На первый взгляд, OpenAI, по крайней мере, сделал значительный шаг к этой цели. Хотя скептицизм сохраняется, многие исследователи и разработчики ИИ чувствуют, что что-то просто изменилось. Для многих перспектива ИИ теперь кажется более реальной, срочной и близкой, чем предполагалось. Правы ли они?
Обобщение и интеллект
Чтобы понять, что означает результат o3, вам нужно понять, что такое тест ARC-AGI. С технической точки зрения, это тест «эффективности выборки» системы ИИ при адаптации к чему-то новому — сколько примеров новой ситуации должна увидеть система, чтобы понять, как она работает. Система ИИ, такая как ChatGPT (GPT-4), не очень эффективна по выборке. Она была «обучена» на миллионах примеров человеческого текста, создавая вероятностные «правила» о том, какие комбинации слов наиболее вероятны. Результат довольно хорош для обычных задач. Он плох для необычных задач, потому что у него меньше данных (меньше образцов) об этих задачах. Пока системы искусственного интеллекта не научатся обучаться на небольшом количестве примеров и адаптироваться с большей эффективностью, их будут использовать только для очень повторяющихся задач и тех, где случайные сбои допустимы. Способность точно решать ранее неизвестные или новые проблемы на основе ограниченных выборок данных известна как способность к обобщению. Она широко считается необходимым, даже фундаментальным элементом интеллекта.
Сетки и узоры
Тест ARC-AGI проверяет эффективность адаптации образцов с использованием небольших задач с квадратами сетки, как показано ниже. ИИ должен определить шаблон, который превращает сетку слева в сетку справа.
Каждый вопрос дает три примера для обучения. Затем системе ИИ нужно выяснить правила, которые «обобщают» три примера для четвертого. Они очень похожи на тесты на IQ, которые вы, возможно, помните со школы.
Слабые правила и адаптация
Мы не знаем точно, как OpenAI это сделал, но результаты показывают, что модель o3 очень адаптивна. Всего из нескольких примеров она находит правила, которые можно обобщить. Чтобы выяснить закономерность, мы не должны делать никаких ненужных предположений или быть более конкретными, чем это действительно необходимо. Теоретически , если вы можете определить «самые слабые» правила, которые делают то, что вам нужно, то вы максимизируете свою способность адаптироваться к новым ситуациям. Что мы подразумеваем под самыми слабыми правилами? Техническое определение сложное, но более слабые правила обычно те, которые можно описать более простыми утверждениями. В приведенном выше примере простое выражение правила на английском языке может выглядеть примерно так: «Любая фигура с выступающей линией переместится к концу этой линии и «закроет» все другие фигуры, с которыми она пересекается».
Ищете цепочки мыслей?
Хотя мы пока не знаем, как OpenAI добилась этого результата, кажется маловероятным, что они намеренно оптимизировали систему o3 для поиска слабых правил. Однако, чтобы преуспеть в задачах ARC-AGI, она должна их находить. Мы знаем, что OpenAI начал с универсальной версии модели o3 (которая отличается от большинства других моделей тем, что может тратить больше времени на «размышления» над сложными вопросами), а затем обучил ее специально для теста ARC-AGI.
Французский исследователь ИИ Франсуа Шолле, разработавший этот бенчмарк, считает, что o3 ищет по разным «цепочкам мыслей», описывающим шаги для решения задачи. Затем он выберет «лучшее» в соответствии с каким-то слабо определенным правилом или «эвристикой». Это было бы «не сильно отличается» от того, как система AlphaGo от Google перебирала различные возможные последовательности ходов, чтобы победить чемпиона мира по го. Вы можете думать об этих цепочках мыслей как о программах, которые соответствуют примерам. Конечно, если это похоже на ИИ, играющий в Го, то ему нужно эвристическое или свободное правило, чтобы решить, какая программа лучше. Могут быть сгенерированы тысячи различных, казалось бы, одинаково валидных программ. Эта эвристика может быть «выбрать самое слабое» или «выбрать самое простое». Однако, если это похоже на AlphaGo, то они просто заставили ИИ создать эвристику. Это был процесс для AlphaGo. Google обучил модель оценивать различные последовательности ходов как лучшие или худшие, чем другие.
Чего мы до сих пор не знаем
Тогда возникает вопрос, действительно ли это ближе к AGI? Если o3 работает именно так, то базовая модель может оказаться не намного лучше предыдущих моделей. Концепции, которые модель изучает из языка, могут оказаться не более подходящими для обобщения, чем раньше. Вместо этого мы можем просто наблюдать более обобщаемую «цепочку мыслей», найденную посредством дополнительных шагов обучения эвристики, специализированной для этого теста. Доказательство, как всегда, будет в пудинге. Почти все об o3 остается неизвестным. OpenAI ограничился раскрытием информации несколькими презентациями в СМИ и ранним тестированием среди нескольких исследователей, лабораторий и институтов безопасности ИИ. Для истинного понимания потенциала o3 потребуется обширная работа, включая оценки, понимание распределения его возможностей, того, как часто он терпит неудачу и как часто добивается успеха. Когда o3 наконец будет выпущен, мы будем иметь гораздо лучшее представление о том, сможет ли он адаптироваться так же, как среднестатистический человек. Если это так, то это может иметь огромное, революционное, экономическое влияние , открывая новую эру самосовершенствующегося ускоренного интеллекта. Нам потребуются новые критерии для самого AGI и серьезное рассмотрение того, как им следует управлять. Если нет, то это все равно будет впечатляющий результат. Однако повседневная жизнь останется прежней.
фото: Кредит: Unsplash/CC0 Общественное достояние
Исследуйте дальше — Задача ИИ — проверить уровень интеллекта человека