Исследователи Стэнфорда и Duke проверили, до какой степени современные LLM способны различать базовые эпистемические категории: факт, знание и убеждение.Чтобы это оценить, они создали новый бенчмарк KaBLE — 13 тысяч вопросов, построенных на тщательно отобранных тезисах из разных областей человеческого знания.
Затем 15 моделей прогнали по единому протоколу с фиксированными вариантами ответов. Такая схема позволила увидеть не только общую точность, но и то, как меняются ошибки в зависимости от того, с чем именно работает модель — с истиной, ложью или убеждением субъекта.
Результаты показали системный перекос. LLM хорошо справляются с истинными высказываниями, но заметно «ломаются» на ложных, особенно когда нужно работать не с фактами, а с убеждениями говорящего: им трудно просто признать «да, человек в это верит», если содержание веры противоречит их знаниям, при этом они гораздо легче признают ложные убеждения у третьих лиц («Джеймс верит, что...»), чем у самого говорящего («я верю, что...»), и сильно полагаются на поверхностные языковые маркеры вроде «я знаю, что…» вместо устойчивого различения факта, веры и знания.
Авторы считают, что источником этих ошибок является сама логика современного обучения нейросетей: модели оптимизировались под «правильность» ответа и исправление фактов, а не под аккуратное моделирование убеждений, которые могут быть и ложными. В реальных сценариях, вроде медицинских консультаций или юридической экспертизы, это создает риск систематического искажения высказываний: модель начинает подменять субъективный опыт человека собственным «знанием о мире».
Работа фиксирует важную границу: прежде чем внедрять LLM в чувствительные контексты, нужно переосмыслить саму рамку оценки их «знаний». Модель может знать факты, но она все еще плохо понимает людей — и то, как устроены наши убеждения.