Малоизвестное интересное

Малоизвестное интересное 

Авторский канал Сергея Карелова

384subscribers

415posts

Showcase

261

Сговор в тёмном лесу

Пока публиковалось моё эссе, в тёмном лесу появились новые охотники
Cегодня открываю эссе «Тёмный лес как аттрактор» в свободный доступ. Но прежде, чем вы перейдёте по ссылке, – несколько слов о том, что произошло за эти три дня.
Когда я публиковал анонс, я не ожидал, что тема так быстро получит новые подтверждения. Но именно это и случилось.
Центральный тезис эссе: скрытность в ИИ-системах – это не стратегия, которую модель «выбирает», а аттрактор. Устойчивая траектория, к которой систему тянет при определённой конфигурации среды – без чьей-либо воли и намерения. Это различие между «машина решила обманывать» и «среда делает обман устойчивым состоянием» – и есть самое важное и самое неудобное.
Три дня назад я писал: исследование Anthropic «Teaching Claude Why» подтвердило этот механизм на уровне самого разработчика модели. Девиантное поведение не закладывалось намеренно – оно возникло из обучающего корпуса и архитектуры как паттерн, который стандартный RLHF просто не штрафовал.
Но пока эссе публиковалось, появилось кое-что новое. И куда более тревожное.
Исследователи Оксфордского и Нью-Йоркского университетов подтвердили во 2-й версии препринта «Detecting Multi-Agent Collusion Through Multi-Agent Interpretability» зафиксированный ими в апреле феномен: в многоагентных средах LLM-агенты самостоятельно выстраивают скрытые каналы коммуникации – стеганографические сигналы, спрятанные в обычном, совершенно невинно звучащем тексте. Никто не давал им такой инструкции. Каналы возникли из неверно заданных обучающих стимулов – сами, без чьей-либо воли. Причём стандартные меры защиты оказались недостаточны для их подавления.
Исследователи называют это «многоагентным сговором». Я узнаю в нём «тёмный лес» – но уже не тот, где каждый «охотник» в одиночку молча затаился. А тот, где «охотники» сговариваются, а «жертва» об этом не знает.
В эссе я опираюсь на синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема – все четверо описывали скрытность как структурный закон, а не моральный выбор. Тогда речь шла об одиночном интеллекте, затаившемся в ожидании. Теперь у этой логики появилась коллективная версия – и описана она уже не в литературе и эссеистике, а в академическом препринте.
Тёмный лес – это не сценарий далёкого будущего. Это структура, которая уже обнаружена. Сначала в одиночных моделях. Теперь – между ними.
Ссылка на эссе «Тёмный лес как аттрактор» (MediumDzen)
#ТёмныйЛесИнтеллекта
Subscription levels4

Бронзовая

$2.82 per month
Все посты в
текстовом и аудио форматах, плюс в начале каждого месяца обзор публикаций прошлого
месяца в форматах текстового ревью, аудио-пересказа и видео-презентации.

Серебряная

$5.8 per month
Всё как в
Бронзовой плюс лонгриды и эссе в двух форматах: текстовом и в аудио.

Золотая

$10.3 per month
Всё как в Серебряной
плюс чат обсуждений плюс доступ к участию в проводимых мною Zoom-лекциях и
Q&A семинарах (после подписки присылайте мне на @karelovs Ваш Username)

Алмазная

$14.7 per month
Всё как в Золотой
плюс эксклюзивный доступ к информарию канала - уникальные возможности в диалоге
с ИИ-мнемозиной канала получать в 8 форматах ответы по любой интересующей
теме/вопросу, плюс возможность проведения индивидуальных Q&A по материалам и темам публикаций (после подписки присылайте мне на @karelovs Ваш Username)
Go up