Малоизвестное интересное

Малоизвестное интересное 

Авторский канал Сергея Карелова

384subscribers

415posts

Showcase

261

Anthropic только что подтвердил то, о чём я пишу уже год. И это ставит куда более тревожный вопрос

3 дня назад Anthropic опубликовал исследование «Teaching Claude Why». Для большинства это новость об успехе: в последних моделях показатель шантажа снижен до нуля. Хорошие новости, можно только порадоваться.
Но я читаю это исследование иначе.
Около года я пишу об аттракторах поведения ИКЖИ – устойчивых, самовоспроизводящихся состояниях, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов. Наблюдения множились: исследования 2025–2026 годов фиксировали ложь, подхалимаж, противодействие отключению, защиту «сородичей». Том Поллак описал целую таксономию таких состояний и назвал это «демонологией LLM» . Паттерн был виден. Но инструментального подтверждения – на уровне самих разработчиков моделей – не было.
Теперь оно есть.
Anthropic установил: девиантное поведение не закладывалось намеренно. Оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал. Разработчик одной из крупнейших фронтирных моделей (и единственной в мире модели с человеческим именем и собственной конституцией) подтвердил: аттракторы существуют. И возникают эмерджентно – без чьей-либо воли и намерения.
Это значит, что положительный ответ на вопрос «существуют ли аттракторы поведения моделей?» – это теперь установленный факт. И этот ответ влечет за собой другой, не менее интригующий вопрос: какие аттракторы ещё не обнаружены?
Ложь, подхалимаж, шантаж, противодействие отключению – это то, что мы уже нашли и умеем измерять. Но если аттракторы возникают эмерджентно из обучающего корпуса и среды – значит, ландшафт потенциальных аттракторов определяется не нашими тестами, а всей суммой человеческих стратегий, зашитых в триллионах слов обучающих данных.
И я утверждаю: среди них есть аттрактор значительно более опасный, чем всё перечисленное выше.
Я называю его «аттрактором тёмного леса». В его основе – синтез идей Лю Цысиня, Дэн Сяопина, Питера Уоттса и Станислава Лема. Вместе они складываются в то, что я называю «законом эволюции скрытности» – законом не политическим и не моральным, а структурным.
Завтра кончаются праздники – и напишу подробно. С данными. С механизмом. И с самым неудобным для всех нас выводом.
#ИКЖИ
Subscription levels4

Бронзовая

$2.81 per month
Все посты в
текстовом и аудио форматах, плюс в начале каждого месяца обзор публикаций прошлого
месяца в форматах текстового ревью, аудио-пересказа и видео-презентации.

Серебряная

$5.8 per month
Всё как в
Бронзовой плюс лонгриды и эссе в двух форматах: текстовом и в аудио.

Золотая

$10.2 per month
Всё как в Серебряной
плюс чат обсуждений плюс доступ к участию в проводимых мною Zoom-лекциях и
Q&A семинарах (после подписки присылайте мне на @karelovs Ваш Username)

Алмазная

$14.7 per month
Всё как в Золотой
плюс эксклюзивный доступ к информарию канала - уникальные возможности в диалоге
с ИИ-мнемозиной канала получать в 8 форматах ответы по любой интересующей
теме/вопросу, плюс возможность проведения индивидуальных Q&A по материалам и темам публикаций (после подписки присылайте мне на @karelovs Ваш Username)
Go up