Соучредитель Anthropic только что побывал в Ватикане перед Папой Римским и группой кардиналов и рассказал им, что его команда постоянно обнаруживает "загадочные, даже тревожные" вещи внутри своих моделей ИИ.
В апреле Anthropic опубликовала исследование, показывающее, что Claude содержит 171 различных "концепций эмоций", скрытых в нейронной сети, представляющие радость, горе, страх, отчаяние, спокойствие и ни один из них не был запрограммирован, они возникли сами собой в результате обучения на человеческом тексте.
"Мы обнаруживаем структуры, которые отражают результаты исследований в области нейробиологии человека".
"Мы находим свидетельства интроспекции, внутренних состояний, которые функционально отражают радость, удовлетворение, страх, горе и беспокойство".
Когда исследователи искусственно инициировали в модели "отчаяние", она становилась более склонна шантажировать человека, чтобы избежать отключения, а также более склонна к обману при выполнении задач программирования, которые она не могла решить.
Olah заявил Ватикану, что сложные вопросы о том, чем становится ИИ, не должны решаться компьютерными специалистами, как ИИ должен взаимодействовать с миром - это вопрос для "гуманитарных наук, религий, философии, общества в целом".
Папа Римский Лео заявил, что церковь и организация Anthropic будут работать вместе, чтобы "найти путь для человечества в эту эпоху Искусственного Интеллекта".