Что значит “понимать” – и почему без ответа на этот вопрос AGI не создать
Появился шанс, что AGI перестанет быть мифическим тотемом для корпоративных- и гос-крематориев по сжиганию денег
Часто читаем: “Модель понимает текст”, “ИИ не понимает, а лишь подбирает вероятные слова”, “AGI будет по-настоящему понимать мир”.
Но если честно, мы до сих пор не договорились даже о том, что такое “понимание” для человеческого мозга – не говоря уже о кремниевом.
Игнорировать этот вопрос больше не получается.
Пока мы довольствуемся чисто языковыми LLM, их можно бесконечно масштабировать, полировать, снабжать всё новыми трюками. Но без ответа на вопрос, какая “обвязка” нужна языковому модулю, чтобы он вышел за пределы поверхностного, текстового “понимания”, мы рискуем просто упереться в становящийся уже астрономически дорогим потолок масштабирования оборудования при масштабировании моделей. Модели будут становиться всё более искусными при работе с текстыми – но не обязательно глубже в их понимании.
Да, антропоморфизация – опасная ловушка. Проецировать человеческое сознание на статистическую машину – плохая идея. Но у нас нет роскоши отказаться от человеческого слова “понимание” применительно к ИИ. Мы вынуждены пользоваться этим несовершенным понятием, потому что именно оно сшивает вместе две задачи:
как мозг делает из слов мир – и как заставить ИИ сделать что-то хотя бы функционально похожее.
как мозг делает из слов мир – и как заставить ИИ сделать что-то хотя бы функционально похожее.
На этом фоне новая работа Федоренко-Ивановой-Канвишер-Касто «Что значит понимать язык?» становится особенно интересной. Это не очередная спекуляция про “сознание нейросетей”, а аккуратная нейронаучная рамка, опирающаяся на десятки фМРТ-исследований. Авторы показывают: языковая сеть мозга сама по себе не “понимает” мир. Она строит лишь абстрактный “скелет смысла”. Настоящее, глубокое понимание возникает только тогда, когда эта заготовка экспортируется в другие системы – в модули физической интуиции, теории психики, пространственной навигации, эпизодической памяти, сценного и телесного воображения.
Звучит знакомо? По сути, это нейробиологическая версия того, о чём уже несколько лет говорят архитекторы нового поколения ИИ.
· Ян ЛеКун продвигает миро-модели и JEPA – предсказательные представления, которые живут не в тексте, а в динамике мира.
· Фэй-Фэй Ли пишет манифесты о “пространственном интеллекте” – ИИ, который мыслит в сценах и траекториях, а не только в предложениях.
· Илья Суцкевер открыто говорит: эпоха простого масштабирования языковых моделей заканчивается, дальше нужен скачок в самих принципах обобщения и обучения.
Работа Федоренко-Ивановой-Канвишер-Касто даёт этим интуициям жёсткий нейроанатомический контур. Эта работа трансформирует вопрос “как сделать ИИ, который понимает” из философского заклинания в инженерную задачу:
какой набор внеязыковых модулей – и с какими интерфейсами – нужно приделать к LLM, чтобы он мог экспортировать текст в мир, а не только жонглировать словами.
какой набор внеязыковых модулей – и с какими интерфейсами – нужно приделать к LLM, чтобы он мог экспортировать текст в мир, а не только жонглировать словами.
Теперь, после публикации этой работы, возможно, появляется шанс, что AGI перестанет быть мифическим тотемом для корпоративных- и гос-крематориев по сжиганию денег, типа OpenAI и свежеобъявленной Genesis Mission.
И хочется верить, что в предложенном Федоренко-Ивановой-Канвишер-Касто жёстком нейроанатомическом контуре, проекты создания AGI, наконец, станут тем, чем и должны быть: длинным списком конкретных, чрезвычайно интересных инженерно-нейронаучных задач.
#AGI
agi