Малоизвестное интересное

Малоизвестное интересное 

Авторский канал Сергея Карелова

386subscribers

408posts

Showcase

261

Временной горизонт начала ИИ-апокалипсиса достижим через 16 месяцев

Это следует
из отчета экспертов METR
«Оценка модели GPT-5 и исследование угроз»

Эксперты METR получили доступ к GPT-5 за месяц до публичного выпуска модели в
соответствии со стандартным соглашением о неразглашении (NDA
). А сейчас, после проверки и согласования
информации о результатах исследования с отделом коммуникаций и юридических
вопросов OpenAI
, отчет
опубликован.
Среди наиболее
интересных и впечатляющих выводов отчета - расчет времени до появления у ИИ
способностей, потенциально достаточных, чтобы стать источником катастрофических
рисков.
Появление GPT-5 позволило уточнить экстраполяцию тренда
совершенствования способностей ИИ в контексте возникновения катастрофических
рисков.
Уточненные расчеты
показывают, что, согласно текущему тренду, такие способности могут появиться:
·      
самое
раннее - в январе 2027
·      
самое
позднее – в феврале 2028
Вот и думайте
теперь, - много это или мало.
Теперь подробней.
#ИИ-риски
По многим сложным
и комплексным способностям большие языковые модели (БЯМ) уже достигли высочайшего
для людей уровня (а кое в каких способностях уже и превзошли лучшие показатели
людей). Но поскольку спектр способностей людей во всевозможных видах
деятельности огромен, всех их протестировать у ИИ просто невозможно. Да и не
нужно. Ибо уже понятно, что если хорошо вложиться деньгами в обучение БЯМ, у
них можно развить практически любую способность. И также понятно, что для
появления потенциальных катастрофических рисков, вовсе не нужно, чтобы БЯМ превосходили
всех людей во всём.  
Это понимание
заставило искать иной способ практической оценки уровня способностей БЯМ с точки
зрения их потенциальных катастрофических рисков. И такой оценкой, используемой
экспертами METR, стал временной
горизонт
— это простой и универсальный термометр для всех способностей.
Если коротко, суть
временного горизонта такова: чем дольше ИИ может самостоятельно и надёжно решать
реальную задачу, тем ближе он к сценариям, где появятся системные риски.
  • Он меряет автономность модели прямо в рабочих единицах — во времени. Если модель способна самостоятельно довести до конца задачу, которая у человека заняла бы N часов, это лучшее приближение к её реальной полезности/опасности, чем экзамены и баллы. И как показывают эксперименты, показатель временного горизонта (сколько времени задача занимает у человека-профи) хорошо предсказывает успех модели.
  • Он ловит главное «узкое место» нынешних ИИ — длинные цепочки действий. Моделям обычно хватает знаний на одном шаге; им трудно не развалиться на долгой последовательности шагов. Временной горизонт как раз показывает, насколько длинную последовательность действий модель держит без опеки людей.
  • Он напрямую завязан на риск-сценарии. Ключевые угрозы из отчёта METR (ускорение AI-R&D, уклонение от выключения, стратегический саботаж) требуют не один день стабильной работы БЯМ.
  • Он даёт трек-рекорд и прогноз. Длина задач, которые ИИ способны осилить с заданной надёжностью, растёт почти экспоненциально (исторически удвоение примерно каждые 7 месяцев), поэтому данный показатель удобен для экстраполяций «когда приблизимся к опасным порогам».
  • Он оказался достаточно устойчив к артефактам бенчмарков. В отчёте METR проверяли насыщение задач, «читерство» (reward hacking), токенные лимиты — и вывод остался тем же.
Исследование  METR показало следующее.
1.     
Сегодня
GPT
-5 – это самый мощный
ИИ по показателю временного горизонта.


Эта модель на калиброванном наборе агентных SWE-задач имеет p50 ≈ 2 ч 17 м. Иными словами, у модели примерно 50%
шансы успешно выполнить задачу, которую незнакомый с кодовой базой профессионал
делал бы около 2 ч 17 м.

При повышении шансов до 80%, трудоемкость задачи (в человеческом
исполнении) падает до 25 м.
2.     
Пороговое
значение временного горизонта для появления оснований для катастрофических
рисков: при 50% составляет >40 ч, при 80% составляет >
8 ч
3.     
Казалось
бы, где 2 ч 17 м и где 40+ч?
Но при текущем тренде (как в 2024,
когда скорость удвоения горизонта составила 4 мес) это может случиться уже в
январе 2027.
При скорости удвоения 7 мес (как в 2022-2023) получим февраль 2028.
Subscription levels4

Бронзовая

$2.72 per month
Все посты в
текстовом и аудио форматах, плюс в начале каждого месяца обзор публикаций прошлого
месяца в форматах текстового ревью, аудио-пересказа и видео-презентации.

Серебряная

$5.6 per month
Всё как в
Бронзовой плюс лонгриды и эссе в двух форматах: текстовом и в аудио.

Золотая

$9.9 per month
Всё как в Серебряной
плюс чат обсуждений плюс доступ к участию в проводимых мною Zoom-лекциях и
Q&A семинарах (после подписки присылайте мне на @karelovs Ваш Username)

Алмазная

$14.2 per month
Всё как в Золотой
плюс эксклюзивный доступ к информарию канала - уникальные возможности в диалоге
с ИИ-мнемозиной канала получать в 8 форматах ответы по любой интересующей
теме/вопросу, плюс возможность проведения индивидуальных Q&A по материалам и темам публикаций (после подписки присылайте мне на @karelovs Ваш Username)
Go up