Системы искусственного интеллекта станут бесполезны, если продолжат обучаться у других систем ИИ

Исследователи предупреждают, что если языковые модели, такие как ChatGPT, обучать на основании данных, полученных от других систем ИИ, то будут накапливаться погрешности, которые сделают модели чрезмерно упрощёнными и оторванными от реальности.

Автор: Алекс Уилкинс (Alex Wilkins), перевод для XX2 века: Андрей Прокипчук.

Системы искусственного интеллекта, которые обучаются, используя текст и изображения, полученные от других систем ИИ, которые сами были обучены на данных, полученных от ИИ, могут оказаться функционально бесполезными.

Системы ИИ вроде ChatGPT, известные как большие языковые модели (large language models, LLMs), используют огромные хранилища текстов, созданных людьми и хранящихся в интернете, с целью создания статистической модели человеческого языка, чтобы быть в состоянии прогнозировать, какие слова вероятнее всего будут следующими в предложении.

С момента появления таких систем интернет наводнили тексты, сгенерированные ИИ. Как это скажется на будущих моделях ИИ – неясно.

Илья Шумайлов из Оксфордского университета и его коллеги смоделировали ситуацию развития моделей ИИ, если их тренировать на основании данных, полученных от других систем ИИ. Они обнаружили, что в итоге модели накопят большое количество погрешностей, станут чрезмерно упрощёнными и оторванными от реальности – они назвали эту проблему коллапсом модели.

Результаты исследования предполагают, что такая неудача обусловлена способом статистической репрезентации текста моделями ИИ. Система ИИ, которая видит фразу или предложение много раз, с большой вероятностью повторит эту фразу в выходных данных, и с небольшой вероятностью – то, что она видела редко. Когда новые модели обучаются на текстах от других систем ИИ, они видят лишь малую долю вероятных результатов, на которые были способны более ранние системы ИИ. Таким образом со временем будут потеряны редко встречающиеся данные, новая система ИИ не будет их выдавать.

В ходе исследования было обнаружено, что существующие модели также не в состоянии определить, соотносится ли с реальностью полученный ею текст.

Отсутствие достаточно разнообразных данных для обучения может усугубляться недостатками самих моделей и методов их обучения, которые и так далеко не всегда представляют данные совершенным образом. Шумайлов и его команда показали, что это приводит к коллапсу ряда различных моделей ИИ.

«Поскольку этот процесс повторяется, в итоге мы приходим к состоянию безумия, где у нас только ошибки, ошибки и ошибки, и магнитуда ошибок намного выше всего остального» - говорит Шумайлов.

Скорость этого процесса зависит от количества ИИ-сгенерированного контента в данных для обучения ИИ и от используемой модели. Но похоже, что все модели, контактирующие с данными от ИИ, в итоге коллапсируют.

Единственным способом обойти эту проблему будет маркировать ИИ-сгенерированные данные и исключать их из процесса обучения, говорит Шумайлов. Но невозможно добиться этого с достаточной надёжностью, если вы не владеете системой, где текст вводят люди - типа поиска Google или ChatGPT копании OpenAI – этот фактор способен усилить и без того существенные финансовое и вычислительное превосходство технологических гигантов.

Вину Садасиван из Мерилендского университета говорит, что некоторые ошибки можно сгладить, если приказать системе ИИ отдавать предпочтение обучающим данным, появившимся до того, как сеть заполнилась ИИ-сгенерированным контентом.

Также возможен вариант, где люди не будут публиковать в интернете ИИ-сгенерированный контент, пока сами предварительно его не отредактируют, замечает Флориан Трамер из Швейцарского института технологии в Цюрихе.

«Даже если LLM сама по себе в некотором роде обладает системной ошибкой, подсказки и фильтрация, осуществляемые человеком, могут нивелировать её, делая окончательные выходные данные ближе к человеческим предпочтениям» - говорит Трамер.

Системы искусственного интеллекта станут бесполезны, если продолжат обучаться у других систем ИИ

Уровни подписки

Простая благодарность

Дружеская помощь

Большая дружеская помощь

Спонсорский профиль