Временной горизонт начала ИИ-апокалипсиса достижим через 16 месяцев

Это следует
из отчета экспертов METR «Оценка модели GPT-5 и исследование угроз»

Эксперты METR получили доступ к GPT-5 за месяц до публичного выпуска модели в
соответствии со стандартным соглашением о неразглашении (NDA). А сейчас, после проверки и согласования
информации о результатах исследования с отделом коммуникаций и юридических
вопросов OpenAI, отчет
опубликован.

Среди наиболее
интересных и впечатляющих выводов отчета - расчет времени до появления у ИИ
способностей, потенциально достаточных, чтобы стать источником катастрофических
рисков.

Появление GPT-5 позволило уточнить экстраполяцию тренда
совершенствования способностей ИИ в контексте возникновения катастрофических
рисков.

Уточненные расчеты
показывают, что, согласно текущему тренду, такие способности могут появиться:

·
самое
раннее - в январе 2027

·
самое
позднее – в феврале 2028

Вот и думайте
теперь, - много это или мало.

Теперь подробней.

#ИИ-риски

По многим сложным
и комплексным способностям большие языковые модели (БЯМ) уже достигли высочайшего
для людей уровня (а кое в каких способностях уже и превзошли лучшие показатели
людей). Но поскольку спектр способностей людей во всевозможных видах
деятельности огромен, всех их протестировать у ИИ просто невозможно. Да и не
нужно. Ибо уже понятно, что если хорошо вложиться деньгами в обучение БЯМ, у
них можно развить практически любую способность. И также понятно, что для
появления потенциальных катастрофических рисков, вовсе не нужно, чтобы БЯМ превосходили
всех людей во всём.

Это понимание
заставило искать иной способ практической оценки уровня способностей БЯМ с точки
зрения их потенциальных катастрофических рисков. И такой оценкой, используемой
экспертами METR, стал временной
горизонт — это простой и универсальный термометр для всех способностей.

Если коротко, суть
временного горизонта такова: чем дольше ИИ может самостоятельно и надёжно решать
реальную задачу, тем ближе он к сценариям, где появятся системные риски.

Он меряет автономность модели прямо в рабочих единицах — во времени. Если модель способна самостоятельно довести до конца задачу, которая у человека заняла бы N часов, это лучшее приближение к её реальной полезности/опасности, чем экзамены и баллы. И как показывают эксперименты, показатель временного горизонта (сколько времени задача занимает у человека-профи) хорошо предсказывает успех модели.
Он ловит главное «узкое место» нынешних ИИ — длинные цепочки действий. Моделям обычно хватает знаний на одном шаге; им трудно не развалиться на долгой последовательности шагов. Временной горизонт как раз показывает, насколько длинную последовательность действий модель держит без опеки людей.
Он напрямую завязан на риск-сценарии. Ключевые угрозы из отчёта METR (ускорение AI-R&D, уклонение от выключения, стратегический саботаж) требуют не один день стабильной работы БЯМ.
Он даёт трек-рекорд и прогноз. Длина задач, которые ИИ способны осилить с заданной надёжностью, растёт почти экспоненциально (исторически удвоение примерно каждые 7 месяцев), поэтому данный показатель удобен для экстраполяций «когда приблизимся к опасным порогам».
Он оказался достаточно устойчив к артефактам бенчмарков. В отчёте METR проверяли насыщение задач, «читерство» (reward hacking), токенные лимиты — и вывод остался тем же.

Исследование METR показало следующее.

1.
Сегодня
GPT-5 – это самый мощный
ИИ по показателю временного горизонта.

Эта модель на калиброванном наборе агентных SWE-задач имеет p50 ≈ 2 ч 17 м. Иными словами, у модели примерно 50%
шансы успешно выполнить задачу, которую незнакомый с кодовой базой профессионал
делал бы около 2 ч 17 м.

При повышении шансов до 80%, трудоемкость задачи (в человеческом
исполнении) падает до 25 м.

2.
Пороговое
значение временного горизонта для появления оснований для катастрофических
рисков: при 50% составляет >40 ч, при 80% составляет >
8 ч

3.
Казалось
бы, где 2 ч 17 м и где 40+ч?
Но при текущем тренде (как в 2024,
когда скорость удвоения горизонта составила 4 мес) это может случиться уже в
январе 2027.
При скорости удвоения 7 мес (как в 2022-2023) получим февраль 2028.

иириски

Малоизвестное интересное

Showcase

Временной горизонт начала ИИ-апокалипсиса достижим через 16 месяцев

Бронзовая

Серебряная

Золотая

Алмазная