Малоизвестное интересное

Малоизвестное интересное 

Авторский канал Сергея Карелова

382subscribers

400posts

Showcase

261

Доверили ИИ расчет налогов? Готовьтесь к тюрьме 😱


При чем тут
«сферический конь в вакууме» и почему это важно для вашей карьеры

Все говорят,
что ИИ вот-вот заменит бухгалтеров. Ведь их работа — сплошная рутина и
следование правилам, идеальная задача для машины. Но одно дело — решать задачки
в вакууме, и совсем другое — делать реальную работу.
И вот тут
начинается самое интересное.
Эксперты компании
Column Tax (специализация – автоматизация расчета налогов) создали первый в мире
валидный тест TaxCalcBench, проверяющий, как с этим справятся лучшие из лучших
топовые нейросети. Им дали рассчитать подоходный налог в США.
И что же показала
эта проверка реальностью? Полный провал.
Точность топовых
моделей — ниже 30%. Элементарные ошибки в расчетах, путаница в правилах и
налоговых таблицах. Доверить им свою декларацию — прямой путь к огромным
штрафам.
И это подводит
нас к главному выводу, который подтверждают слова главы Nvidia Дженсена Хуанга:
«Вас
заменит не ИИ. Вас заменит тот, кто использует ИИ лучше вас».
ИИ — это не
автопилот для сложных задач, а мощнейший инструмент в руках профессионала. Не
«замена», а «усилитель». И пока нейросети не научатся безупречно справляться с
такими вот
«экологически валидными» задачами, спать спокойно могут все …,
… кроме
тех, кто отказывается учиться работать по-новому
.
 «Экологически валидный» тест – по началу, звучит
как-то туманно и сложно. Но суть проста: идет проверка ИИ на задаче из реальной
экономики, за которую мы уже платим живым людям. В данном случае — на
расчете налогов.
Это не самая
сложная бухгалтерская задача, но и, поверьте, - совсем не простая: расчёт
налога подразумевает получение «входных данных» пользователя (формы W-2, 1099) и вывод формы 1040 в формате XML IRS. Все необходимые для этого преобразования описываются на 75 тысяч
страниц (!)
текста на английском языке.
Помните
анекдот про физика, получившего задание оценить вероятность победы некоего 
коня на скачках? Через неделю тот физик заявил, что
результатов данного конкретного 
коня он пока предсказать не может, но уже разработал
формулу оценки такой вероятности для сферического 
коня в вакууме.
Так вот,
большинство существующих тестов для ИИ — это тот самый «сферический конь в
вакууме». Они проверяют изолированные навыки, в то время как реальная работа — будь
то бухгалтера, юриста или даже программиста
— это всегда сложный клубок из
правил, исключений, контекста и человеческих взаимодействий.
Как верно
заметили Джек Кларк (со-основатель компании Anthropic, создавшей ИИ Claude), именно «экологически валидные» тесты —реальная
проверка на прочность. «Хватит гонять нейросети по абстракциям, давайте
посмотрим, как они справятся с настоящей работой».
Подумайте над
двумя ключевыми мыслями этого поста, облаченными в хлесткие высказывания главы Nvidia и со-основателя Anthropic.
 
А еще лучше, прочувствуете
на примере своей собственной работы, насколько обе эти мысли верны и применимы
лично к вам.
#LLMvsHomo
Subscription levels4

Бронзовая

$2.69 per month
Все посты в
текстовом и аудио форматах, плюс в начале каждого месяца обзор публикаций прошлого
месяца в форматах текстового ревью, аудио-пересказа и видео-презентации.

Серебряная

$5.6 per month
Всё как в
Бронзовой плюс лонгриды и эссе в двух форматах: текстовом и в аудио.

Золотая

$9.8 per month
Всё как в Серебряной
плюс чат обсуждений плюс доступ к участию в проводимых мною Zoom-лекциях и
Q&A семинарах (после подписки присылайте мне на @karelovs Ваш Username)

Алмазная

$14.1 per month
Всё как в Золотой
плюс эксклюзивный доступ к информарию канала - уникальные возможности в диалоге
с ИИ-мнемозиной канала получать в 8 форматах ответы по любой интересующей
теме/вопросу, плюс возможность проведения индивидуальных Q&A по материалам и темам публикаций (после подписки присылайте мне на @karelovs Ваш Username)
Go up