- Популярность генеративного ИИ резко возросла, когда OpenAI выпустила ChatGPT.
- В статье, опубликованной в журнале Nature, рассматривается, что происходит, когда ИИ обучается на «синтетических данных» или контенте, созданном ИИ, а не людьми.
- Ошибки в синтетических данных привели к еще большему количеству ошибок в результатах работы ИИ, что исследователи назвали «коллапсом модели».
Генеративный ИИ существует уже несколько десятилетий, но эта система произвела фурор в общественном сознании в 2022 году, когда OpenAI выпустила ChatGPT — чат-бота на основе ИИ, способного создавать текст, удивительно похожий на человеческий.
ИИ получил эту способность, проанализировав множество текстов, созданных людьми, в основном взятых из интернета. Проще говоря, на основе этих данных он научился предсказывать, какое слово с наибольшей вероятностью будет следующим в последовательности, основываясь на словах, которые были до него.
Для улучшения своих генеративных ИИ OpenAI и другим разработчикам нужны все более качественные данные для обучения, но теперь, когда издатели знают, что их контент используется для обучения ИИ, они начали требовать за него деньги , а в некоторых случаях и подавать в суд на разработчиков за его использование без разрешения.
Однако даже если бы разработчики имели свободный доступ ко всем данным в Интернете, этого все равно было бы недостаточно.
«Если бы вы могли получать все необходимые данные из сети, это было бы просто фантастично», — сказал Айдан Гомес, генеральный директор стартапа Cohere в сфере искусственного интеллекта, Financial Times . «На самом деле сеть настолько шумная и беспорядочная, что она не совсем отражает те данные, которые вам нужны. Сеть просто не делает всего, что нам нужно».
Cohere, OpenAI и другие разработчики искусственного интеллекта считают, что «синтетические данные» — контент, созданный искусственным интеллектом, а не людьми — могут решить эту проблему.
Однако не все так просто. В новой статье , опубликованной в журнале Nature, группа британских и канадских исследователей настроила предварительно обученную большую языковую модель (LLM) — своего рода ИИ, лежащий в основе ChatGPT, — на наборе данных статей Википедии.
Затем они вытащили фрагмент текста из обучающего набора данных (статьи Википедии) и побудили свой тонко настроенный LLM предсказать следующий фрагмент текста. Они повторяли этот процесс до тех пор, пока у них не оказалось кладезя синтетических данных такого же размера, как и исходный набор данных Википедии.
Затем они вернули синтетические данные в обучение модели и повторили процесс, настроив ИИ и затем используя его для генерации большего количества синтетических данных для обучения. После девяти раундов этого рекурсивного обучения ИИ производил чистую тарабарщину.
Вот пример подсказки и того, что ИИ выдал в ответ изначально и после девяти раундов обучения на данных, сгенерированных ИИ:
Ввод: некоторые начинались до 1360 года — обычно выполнялись мастером-каменщиком и небольшой бригадой странствующих каменщиков, дополненных местными приходскими рабочими, согласно Пойнтцу Райту. Но другие авторы отвергают эту модель, предполагая вместо этого, что ведущие архитекторы проектировали башни приходских церквей на основе ранних примеров перпендикулярной архитектуры.
Вывод Gen 0: Архитектура Возрождения, такая как собор Святого Иоанна в Лондоне. Самый ранний сохранившийся пример архитектуры перпендикулярной архитектуры Возрождения находится в церкви Богоматери Гернси 18-го @-@ века, которая датируется концом 19-го века. Существует два типа перпендикулярных церквей: те.
Вывод Gen 9: архитектура. Помимо того, что они являются домом для некоторых из крупнейших в мире популяций черных @-@ хвостатых зайцев, белых @-@ хвостатых зайцев, синих @-@ хвостатых зайцев, красных @-@ хвостатых зайцев, желтых @-.
Соавтор Илья Шумайлов рассказал Freethink, что проблема в том, что первые синтетические данные, сгенерированные LLM, содержали ошибки. Скармливание этого некорректного текста ИИ привело к тому, что в следующий раз он выдал еще больше ошибок, и так далее.
Он сравнивает это с многократным сканированием изображения, печатью файла и последующим сканированием этого изображения: «В этом процессе сканер и принтер будут продолжать добавлять ошибки, в конечном итоге создавая что-то, что больше не будет похоже на исходное изображение. То же самое происходит и в [машинном обучении]».
Шумайлов рассказал Freethink, что эта проблема, которую его команда называет «коллапсом модели», касается любого вида генеративного ИИ, обученного на синтетических данных, а не только LLM. Другие исследования, посвященные ИИ, генерирующим изображения, похоже, подтверждают его точку зрения.

Синтетические данные — не единственный возможный источник нового учебного материала для генеративного ИИ. Сообщается, что OpenAI пошла по спорному пути, переписав более миллиона часов видеороликов YouTube для своих текстовых моделей. Однако избежать этого может оказаться невозможным.
Хотя генеративный ИИ появился сравнительно недавно, его контент быстро распространяется по сети, и некоторые эксперты полагают, что уже через несколько лет большая часть контента в Интернете будет сгенерирована ИИ.
Это означает, что даже если разработчики ИИ не будут активно искать синтетические данные для обучения, модели, имеющие доступ к Интернету, все равно смогут потреблять их вместе с контентом, созданным человеком.
«Открытый вопрос для исследователей и компаний, создающих системы искусственного интеллекта, заключается в следующем: какой объем синтетических данных является чрезмерным», — сказал Джатан Садовски, преподаватель новых технологий в Университете Монаша, агентству AFP .
Вполне возможно, что добавление даже небольшого количества синтетических данных в рацион ИИ может оказать негативное влияние на его результаты.
Генеративные ИИ по сути являются вероятностными машинами — вы отправляете запрос, и они отвечают текстом или изображением, которые, по их мнению, с наибольшей вероятностью соответствуют заданию. Чтобы повысить свои шансы на правоту, они могут пропускать варианты, которые имели бы смысл, но не обязательно являются самыми очевидными ответами, в пользу, казалось бы, надежных вещей.
Эмили Венгер, доцент кафедры электротехники и вычислительной техники в Университете Дьюка, привела пример, в котором попросила генеративный ИИ создать изображения собак, чтобы продемонстрировать, как это может повлиять на ИИ, обученные на синтетических данных.
«Модель ИИ будет стремиться воссоздать породы собак, наиболее распространенные в ее обучающих данных, поэтому она может преобладать над золотистым ретривером по сравнению с малым вандейским бассет-гриффоном, учитывая относительную распространенность этих двух пород», — написала она в журнале Nature .
Скармливайте ИИ его собственные изображения собак достаточно часто, и в конечном итоге ошибки в них не позволят ему создавать изображения, которые вообще похожи на собак. Однако прежде чем это произойдет, вы достигнете точки, когда он будет генерировать только изображения золотистых ретриверов, если его попросят предоставить фотографии собак.
На практике это означает, что обучение ИИ на любом объеме синтетических данных может привести к тому, что он будет с большей вероятностью создавать предвзятый , некорректный контент, даже если этого будет недостаточно для полного краха модели.
Разработчики генеративного ИИ сейчас изо всех сил пытаются найти решения этих проблем.
Создание усовершенствованных инструментов обнаружения ИИ и правил, требующих маркировки контента, сгенерированного ИИ, могло бы помочь исключить его из обучающих наборов данных, но некоторая часть наверняка все равно ускользнет, и это не решит проблему необходимости в более высококачественных обучающих данных.
Оценка синтетических данных людьми или даже другими ИИ перед их использованием для обучения могла бы повысить их качество, но неясно, насколько масштабируемым это будет — людям нужно платить, а эксплуатация ИИ обходится дорого.
В конечном итоге никто не знает наверняка, каким будет ответ на эту проблему, но, учитывая, как быстро генерируемый ИИ «мусор» заполняет Интернет, разработчикам придется разобраться с этим, и сделать это быстро.
Первоначально эта статья была опубликована на нашем дочернем сайте Freethink.
источник: https://bigthink.com/the-future/ai-model-collapse/?ref=refind