Доверили ИИ расчет налогов? Готовьтесь к тюрьме 😱

При чем тут
«сферический конь в вакууме» и почему это важно для вашей карьеры

Все говорят,
что ИИ вот-вот заменит бухгалтеров. Ведь их работа — сплошная рутина и
следование правилам, идеальная задача для машины. Но одно дело — решать задачки
в вакууме, и совсем другое — делать реальную работу.

И вот тут
начинается самое интересное.

Эксперты компании
Column Tax (специализация – автоматизация расчета налогов) создали первый в мире
валидный тест TaxCalcBench, проверяющий, как с этим справятся лучшие из лучших
топовые нейросети. Им дали рассчитать подоходный налог в США.

И что же показала
эта проверка реальностью? Полный провал.

Точность топовых
моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и
налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным
штрафам.

И это подводит
нас к главному выводу, который подтверждают слова главы Nvidia Дженсена Хуанга:

«Вас
заменит не ИИ. Вас заменит тот, кто использует ИИ лучше вас».

ИИ — это не
автопилот для сложных задач, а мощнейший инструмент в руках профессионала. Не
«замена», а «усилитель». И пока нейросети не научатся безупречно справляться с
такими вот «экологически валидными» задачами, спать спокойно могут все …,

… кроме
тех, кто отказывается учиться работать по-новому.

«Экологически валидный» тест – по началу, звучит
как-то туманно и сложно. Но суть проста: идет проверка ИИ на задаче из реальной
экономики, за которую мы уже платим живым людям. В данном случае — на
расчете налогов.

Это не самая
сложная бухгалтерская задача, но и, поверьте, - совсем не простая: расчёт
налога подразумевает получение «входных данных» пользователя (формы W-2, 1099) и вывод формы 1040 в формате XML IRS. Все необходимые для этого преобразования описываются на 75 тысяч
страниц (!) текста на английском языке.

Помните
анекдот про физика, получившего задание оценить вероятность победы некоего коня на скачках? Через неделю тот физик заявил, что
результатов данного конкретного коня он пока предсказать не может, но уже разработал
формулу оценки такой вероятности для сферического коня в вакууме.

Так вот,
большинство существующих тестов для ИИ — это тот самый «сферический конь в
вакууме». Они проверяют изолированные навыки, в то время как реальная работа — будь
то бухгалтера, юриста или даже программиста — это всегда сложный клубок из
правил, исключений, контекста и человеческих взаимодействий.

Как верно
заметили Джек Кларк (со-основатель компании Anthropic, создавшей ИИ Claude), именно «экологически валидные» тесты —реальная
проверка на прочность. «Хватит гонять нейросети по абстракциям, давайте
посмотрим, как они справятся с настоящей работой».

Подумайте над
двумя ключевыми мыслями этого поста, облаченными в хлесткие высказывания главы Nvidia и со-основателя Anthropic.

А еще лучше, прочувствуете
на примере своей собственной работы, насколько обе эти мысли верны и применимы
лично к вам.

#LLMvsHomo

llmvshomo

Малоизвестное интересное

Showcase

Доверили ИИ расчет налогов? Готовьтесь к тюрьме 😱

Бронзовая

Серебряная

Золотая

Алмазная