RU
XX2 ВЕК (22 век)
XX2 ВЕК (22 век)
25 подписчиков

Системы искусственного интеллекта станут бесполезны, если продолжат обучаться у других систем ИИ

Исследователи предупреждают, что если языковые модели, такие как ChatGPT, обучать на основании данных, полученных от других систем ИИ, то будут накапливаться погрешности, которые сделают модели чрезмерно упрощёнными и оторванными от реальности.
Автор: Алекс Уилкинс (Alex Wilkins), перевод для XX2 века: Андрей Прокипчук.
Системы искусственного интеллекта, которые обучаются, используя текст и изображения, полученные от других систем ИИ, которые сами были обучены на данных, полученных от ИИ, могут оказаться функционально бесполезными.
Системы ИИ вроде ChatGPT, известные как большие языковые модели (large language models, LLMs), используют огромные хранилища текстов, созданных людьми и хранящихся в интернете, с целью создания статистической модели человеческого языка, чтобы быть в состоянии прогнозировать, какие слова вероятнее всего будут следующими в предложении.
С момента появления таких систем интернет наводнили тексты, сгенерированные ИИ. Как это скажется на будущих моделях ИИ – неясно.
Илья Шумайлов из Оксфордского университета и его коллеги смоделировали ситуацию развития моделей ИИ, если их тренировать на основании данных, полученных от других систем ИИ. Они обнаружили, что в итоге модели накопят большое количество погрешностей, станут чрезмерно упрощёнными и оторванными от реальности – они назвали эту проблему коллапсом модели.
Результаты исследования предполагают, что такая неудача обусловлена способом статистической репрезентации текста моделями ИИ. Система ИИ, которая видит фразу или предложение много раз, с большой вероятностью повторит эту фразу в выходных данных, и с небольшой вероятностью – то, что она видела редко. Когда новые модели обучаются на текстах от других систем ИИ, они видят лишь малую долю вероятных результатов, на которые были способны более ранние системы ИИ. Таким образом со временем будут потеряны редко встречающиеся данные, новая система ИИ не будет их выдавать.
В ходе исследования было обнаружено, что существующие модели также не в состоянии определить, соотносится ли с реальностью полученный ею текст.
Отсутствие достаточно разнообразных данных для обучения может усугубляться недостатками самих моделей и методов их обучения, которые и так далеко не всегда представляют данные совершенным образом. Шумайлов и его команда показали, что это приводит к коллапсу ряда различных моделей ИИ.
«Поскольку этот процесс повторяется, в итоге мы приходим к состоянию безумия, где у нас только ошибки, ошибки и ошибки, и магнитуда ошибок намного выше всего остального» - говорит Шумайлов.
Скорость этого процесса зависит от количества ИИ-сгенерированного контента в данных для обучения ИИ и от используемой модели. Но похоже, что все модели, контактирующие с данными от ИИ, в итоге коллапсируют.
Единственным способом обойти эту проблему будет маркировать ИИ-сгенерированные данные и исключать их из процесса обучения, говорит Шумайлов. Но невозможно добиться этого с достаточной надёжностью, если вы не владеете системой, где текст вводят люди - типа поиска Google или ChatGPT копании OpenAI – этот фактор способен усилить и без того существенные финансовое и вычислительное превосходство технологических гигантов.
Вину Садасиван из Мерилендского университета говорит, что некоторые ошибки можно сгладить, если приказать системе ИИ отдавать предпочтение обучающим данным, появившимся до того, как сеть заполнилась ИИ-сгенерированным контентом.
Также возможен вариант, где люди не будут публиковать в интернете ИИ-сгенерированный контент, пока сами предварительно его не отредактируют, замечает Флориан Трамер из Швейцарского института технологии в Цюрихе.
«Даже если LLM сама по себе в некотором роде обладает системной ошибкой, подсказки и фильтрация, осуществляемые человеком, могут нивелировать её, делая окончательные выходные данные ближе к человеческим предпочтениям» - говорит Трамер.

Уровни подписки

Простая благодарность

$ 1,14 в месяц
Ваша подписка — благодарность коллективу "XX2 века".

Дружеская помощь

$ 2,72 в месяц
Вы можете подписаться и помогать нам небольшим платежом каждый месяц, не совершая для этого никаких дополнительных движений. Мы будем вам очень благодарны, а также сможем больше времени и сил уделять созданию интересных материалов для вас. Также, если захотите, по этой подписке вам будет доступен краткий информативный еженедельный дайджест наших материалов / периодические тематические дайджесты по разным научно-техническим тематикам.

Большая дружеская помощь

$ 5,7 в месяц
Вы можете подписаться и помогать проекту регулярно, не делая для этого больше никаких лишних движений. По этой подписке вы получите доступ к еженедельным и ежемесячным дайджестам и ранний доступ к некоторым нашим большим материалам. Также через некоторое время, когда наберётся достаточное число подписчиков, вы сможете участвовать в голосовании за тему ближайшего обзора.

Спонсорский профиль

$ 57 в месяц
Вы можете основательно помочь проекту. По этой подписке вы получите доступ к еженедельным и ежемесячным дайджестам и ранний доступ к нашим большим материалам. Мы прислушаемся к вашему мнению, когда будем искать тему ближайшего обзора. На сайте https://22century.ru/ вы получите спонсорский профиль в разделе "Команда", где мы разместим, по вашему желанию, информацию о вас (со ссылками на соцсети или сайт).
Наверх