Малоизвестное интересное

Сотрудник OpenAI считает, что ИИ будет автономной цивилизационной функцией, которую уже нельзя удержать в режиме понятного и послушного инструмента

Попытки контролировать сверхразум ИИ или судить его решения с высоты нашего понимания так же нелепа, как попытки стада обезьян управлять технологической корпорацией

Если человечество будет требовать от ИИ совершать только понятные человеческому уму действия, мы заблокируем развитие цивилизации.

Сегодня Рун (это псевдоним весьма влиятельного в сфере ИИ сотрудника OpenAI, известного своими остроумными и загадочными постами о возможностях ИИ) вбросил крупнокалиберную по скандальности интригу на вентилятор соцсети Х.

Он утверждает, что для развития цивилизации ИИ должен совершать действия, непонятные человеку и выходящие за рамки строгого подчинения, сравнивая такой подход с предоставлением автономии гениальным руководителям компаний, совершающим трансформационные изменения.

Рун приводит пример Стива Джобса, хотя между строк видится и другой гениальный руководитель, которого однажды уволил совет директоров, а потом вернул его, чтобы он спас компанию.

llmvshomo

May 18 12:05

Если математика – ткань реальности, кто кроит живое?

Реальность
может быть вычислимо глубокой, но при этом инженерно неисчерпаемой.

Level required:

Серебряная

слоиреальности

смежноевозможное

May 17 20:54

Эта штука посильнее, чем ИИ

Есть темы, которые кажутся главными просто потому, что они громче всех звучат. Сегодня такая тема – ИИ. Что он сделает с человеком? Заменит ли профессии? Переделает ли общество? Станет ли вторым носителем высшего интеллекта на Земле?

Но я всё чаще думаю, что есть вопрос глубже даже вопроса об ИИ.

Не потому, что ИИ неважен. Наоборот. А потому что сам ИИ – лишь один из новых акторов в куда более фундаментальной драме: как вообще в мире возникает новое возможное? Как в реальности, которая, возможно, имеет строгую математическую основу, появляются жизнь, разум, история, технологии, ИИ – и всё то, чего нельзя заранее вывести из готового списка вариантов?

Поводом для нового эссе стали два интервью, неожиданно сцепившиеся в один смысловой узел.

Александр Панов в своём большом интервью говорит о математической ткани реальности, слоях существования и возможности поставить гипотезу объективного математического мира под эмпирический контроль.

Стюарт Кауффман в Noema утверждает почти противоположное по интонации: эмерджентность – не инженерия; жизнь не просто выбирает из меню возможностей, а дописывает само меню.

слоиреальности

смежноевозможное

May 16 17:06

Тёмный лес вырастает из крысиных хвостов

Старая ловушка метрик оказалась почвой, на которой
прорастает скрытность ИИ

Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”. И этот механизм тревожнее, чем кажется.

Так считаю не только я: похожую тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4].

Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления. Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут.

И если работа Anthropic [5] подтвердила то, о чём я пишу уже год, то цикл исследований OpenAI подтверждает то, о чём я подробно написал ещё два с половиной года назад [6]. Теперь эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград. Он оказался средой, в которой начинает расти тёмный лес ИИ.

тёмныйлесинтеллекта

иириски

May 14 17:30

Сговор в тёмном лесу

Пока публиковалось моё эссе, в тёмном лесу появились новые охотники

Cегодня открываю эссе «Тёмный лес как аттрактор» в свободный доступ. Но прежде, чем вы перейдёте по ссылке, – несколько слов о том, что произошло за эти три дня.

Когда я публиковал анонс, я не ожидал, что тема так быстро получит новые подтверждения. Но именно это и случилось.

Центральный тезис эссе: скрытность в ИИ-системах – это не стратегия, которую модель «выбирает», а аттрактор. Устойчивая траектория, к которой систему тянет при определённой конфигурации среды – без чьей-либо воли и намерения. Это различие между «машина решила обманывать» и «среда делает обман устойчивым состоянием» – и есть самое важное и самое неудобное.

Три дня назад я писал: исследование Anthropic «Teaching Claude Why» подтвердило этот механизм на уровне самого разработчика модели. Девиантное поведение не закладывалось намеренно – оно возникло из обучающего корпуса и архитектуры как паттерн, который стандартный RLHF просто не штрафовал.

Но пока эссе публиковалось, появилось кое-что новое. И куда более тревожное.

тёмныйлесинтеллекта

May 12 14:05

Тёмный лес как аттрактор

Эту гипотезу до последнего времени не рассматривала всерьёз. Не потому, что она слабая. А потому, что она слишком неудобная

Level required:

Серебряная

тёмныйлесинтеллекта

икжи

May 11 19:19

Anthropic только что подтвердил то, о чём я пишу уже год. И это ставит куда более тревожный вопрос

3 дня назад Anthropic опубликовал исследование «Teaching Claude Why». Для большинства это новость об успехе: в последних моделях показатель шантажа снижен до нуля. Хорошие новости, можно только порадоваться.

Но я читаю это исследование иначе.

Около года я пишу об аттракторах поведения ИКЖИ – устойчивых, самовоспроизводящихся состояниях, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов. Наблюдения множились: исследования 2025–2026 годов фиксировали ложь, подхалимаж, противодействие отключению, защиту «сородичей». Том Поллак описал целую таксономию таких состояний и назвал это «демонологией LLM» . Паттерн был виден. Но инструментального подтверждения – на уровне самих разработчиков моделей – не было.

Теперь оно есть.

Anthropic установил: девиантное поведение не закладывалось намеренно. Оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал. Разработчик одной из крупнейших фронтирных моделей (и единственной в мире модели с человеческим именем и собственной конституцией) подтвердил: аттракторы существуют. И возникают эмерджентно – без чьей-либо воли и намерения.

Это значит, что положительный ответ на вопрос «существуют ли аттракторы поведения моделей?» – это теперь установленный факт. И этот ответ влечет за собой другой, не менее интригующий вопрос: какие аттракторы ещё не обнаружены?

икжи

May 09 17:24

Поправка к закону Матфея для науки

Успех приходит не просто к успешным, а к подключенным

Формальная наука видна в списке авторов. Неформальная — в списке благодарностей. И новая работа PNAS показывает: эта невидимая сеть связей может значить больше, чем соавторство.

Раздел благодарностей в научной статье обычно читают последним — если вообще читают. Вежливые формальности: спасибо коллегам, семинару, рецензентам, фонду, университету. На вид — академический этикет. Но, похоже, именно там прячется один из главных скрытых контуров науки.

Я уже писал, что наука устроена не как стерильный турнир идей и интеллекта. Деньги идут к деньгам, успех — к успеху, а нобелевка — к нобелевке: 702 из 736 нобелиатов оказались членами одной академической семьи. Карьера растет не в вакууме, а в школах, лабораториях, наставничестве, доверии и доступе к правильным людям.

scienceofsuccess

May 08 14:54

За три месяца мир стал другим: началась гонка кибер-брони и кибер-бура

Кибербезопасность вошла в новую фазу. ИИ научился промышленно бурить пласты старого кода, выкапывая оттуда уязвимости нулевого дня (zero-day) – ошибки, о которых разработчики еще не знают, а исправлений для них еще нет. И теперь начинается гонка кибер-буров: кто первым вскроет старый код – защитники или атакующие.

Опубликованный 7 мая официальный технический разбор инженеров команды безопасности Firefox/Mozilla, включая руководителя команды безопасности приложений Firefox (Firefox Application Security Team), фиксирует такое, что еще три месяца назад легко было принять за рекламную гиперболу Anthropic.

Mozilla пишет: динамика изменилась «за несколько коротких месяцев». Раньше отчеты об ошибках, сгенерированные ИИ, в открытом программном коде чаще выглядели как правдоподобный мусор. Теперь связка Claude Mythos Preview, агентной системы проверки гипотез, воспроизводимых тестовых примеров, запуска проверок на множестве виртуальных машин, сортировки находок и полного цикла работы с уязвимостью – от обнаружения до исправления – дала поток настоящих ошибок безопасности.

Цифры выглядят почти неприлично. В Firefox150 было исправлено 271 ошибок безопасности, найденных Claude Mythos Preview; из них 180 получили рейтинг высокой опасности (sec-high). Всего же в апреле Mozilla исправила 423 ошибки безопасности – при обычном фоне порядка 20–30 исправлений в месяц. Это уже не один эффектный эксперимент, а контур нового промышленного канала добычи уязвимостей.

кибербезопасность

May 07 23:02

8 новых ролей на рынке труда 2027+, и кто в них преуспеет

Переход от «романтического футуризма» к «суровому прагматизму»

Это похоже на переход от укрощения дикого мустанга к проектированию железнодорожной сети: куда менее зрелищно, сильно дольше и скучнее, но с неизмеримо большей отдачей от результата.

Многие эксперты считают самым наглядным предиктором масштаба грядущих в 2027+ изменений на рынке труда уже свершившееся достижение моделями 95%-го результата при решении GPQA (Graduate-Level Google-Proof Q&A) - коллекция сложных вопросов с множественным выбором по биологии, физике и химии (вопросы составлены экспертами в соответствующих областях - людьми, имеющими или получающими докторскую степень в соответствующих областях, - и разработаны таким образом, чтобы на них было очень сложно ответить неспециалистам, даже при наличии неограниченного доступа в интернет.

Мне же видится наиболее наглядным предиктором таких изменений произошедший за последний год фундаментальный сдвиг: ИИ перестал восприниматься «экзотическим гостем» на предприятиях и стал для них «инженерной инфраструктурой».

Лучше всего это видно при сравнении, какими виделись ТОР 8 новых профессий, не существовавших до появления ИИ, весной 2025 (источники проанализированы Gemini) и весной 2026 (источники проанализированы Карлосом Пересом -

рыноктруда

экономика

llmvshomo

Малоизвестное интересное

Showcase

About

Сотрудник OpenAI считает, что ИИ будет автономной цивилизационной функцией, которую уже нельзя удержать в режиме понятного и послушного инструмента

Эта штука посильнее, чем ИИ

Тёмный лес вырастает из крысиных хвостов

Сговор в тёмном лесу

Anthropic только что подтвердил то, о чём я пишу уже год. И это ставит куда более тревожный вопрос

Поправка к закону Матфея для науки

За три месяца мир стал другим: началась гонка кибер-брони и кибер-бура

8 новых ролей на рынке труда 2027+, и кто в них преуспеет

Бронзовая

Серебряная

Золотая

Алмазная