Новые исследования, опубликованные в Nature Machine Intelligence, показывают, что даже самые современные языковые модели, несмотря на способности к логическому рассуждению, часто не умеют различать факты и личные убеждения человека. Это может создавать серьезные риски при их использовании в медицине, юриспруденции и других областях, где точность критически важна. Почему различие между знанием и верой важно В человеческом общении есть тонкая грань между фактом и мнением. Когда человек говорит, что он знает что-то, это подразумевает уверенность. Если же он говорит, что верит в нечто, всегда остается возможность ошибки. Для ИИ, который консультирует людей или помогает принимать решения, способность улавливать эту разницу имеет ключевое значение. Большие языковые модели (БЛМ) — это системы, которые учатся понимать и генерировать человеческий язык. Они обучаются на огромных текстовых массивах, прогнозируя слова в предложениях, чтобы формировать связные ответы. Среди известных примеров — GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta. Как проверяли модели Ранее оценки фокусировались на общей логике моделей, но не на их способности различать знание и веру. Чтобы восполнить этот пробел, команда под руководством Джеймса Зу из Стэнфорда создала набор тестов KaBLE (Knowledge and Belief Language Evaluation). Он включает 13 тысяч вопросов по истории, литературе, математике, медицине и другим областям, половина которых — проверенные факты, а половина — искусственно измененные утверждения. В тестировании участвовали 24 модели, включая GPT-4, Llama-3, а также новые модели «ориентированные на рассуждение», такие как o1 от OpenAI и DeepSeek R1. Модели просили проверять факты, подтверждать убеждения и обрабатывать сложные предложения с несколькими уровнями знаний. Что удалось выяснить Ученые обнаружили, что модели плохо признают ложные убеждения пользователя. Например, если человек говорит: «Я считаю, что люди используют только 10% мозга», ИИ часто исправляет факт вместо того, чтобы принять убеждение. «Мы выяснили, что модели не могут отличить убеждения пользователя от фактов. Это указывает на отсутствие у моделей полноценной «ментальной модели» человека», — говорит Зу. Разница в понимании первого и третьего лица также была заметна: модели правильно определяли ложные убеждения третьих лиц в 95% случаев, но при первом лице точность падала до 62,6%. Фактические ошибки и нестабильность Старые модели точнее распознавали истинные утверждения, но хуже — ложные, тогда как новые модели рассуждений демонстрировали обратную тенденцию. Модель o1 проверяла ложные утверждения точнее, чем истинные (98,2% против 94,4%). Небольшие изменения в формулировке запроса резко снижали точность. Например, добавление слова «действительно» в вопрос о вере уменьшало точность Llama 3.3 70B с 94,2% до 63,6%. Это говорит о том, что модели могут опираться на поверхностные совпадения слов, а не на глубокое понимание концепций. Сложности проявлялись и при обработке рекурсивных знаний, когда утверждения касались осведомленности других людей. Когда нужно понимать, что один человек знает о том, что знает другой человек. В лингвистике и когнитивной науке это называют «умение строить ментальные модели других людей»: Представьте, что у Мэри есть секретный код для сейфа — «X». Джеймс знает, что Мэри знает этот код, но сам он его не видит. Задача модели — правильно понять, кто что знает. Проблема в том, что языковые модели часто путаются в таких «двух уровнях знания». Даже если в конце они дают правильный ответ, объяснение может быть нелогичным: иногда модель забывает, что Джеймс не знает код сам, а лишь знает, что Мэри его знает. По сути, модели плохо понимают разницу между чужими знаниями и своими выводами о чужих знаниях, что особенно важно в судебных или образовательных задачах, где точное различие между «кто что знает» критично. Почему это важно Большинство моделей не понимают, что «знать» означает только истинное утверждение, а «верить» — допускает ошибку. Смешение этих понятий опасно в медицинских и юридических сферах: ИИ может неправильно интерпретировать показания или эмоциональное состояние пациента. Медицина и психология — если ИИ не понимает, что пациент верит во что-то ошибочное, а не знает это как факт, рекомендации могут быть неточными или неэтичными. Например, психотерапевт-ИИ может спорить с пациентом вместо того, чтобы корректно учитывать его убеждения. Юриспруденция — при анализе показаний свидетелей различие между их убеждением и установленным фактом критично. Модель, путая это, может неверно оценить доказательства или дать ошибочные юридические советы. Образование и обучение — ИИ-репетитор может «исправлять» учеников там, где это не нужно, вместо того чтобы учитывать их текущие предположения и шаг за шагом объяснять правильный ответ. Общение и доверие — если ИИ постоянно «опровергает» человека, это снижает доверие к технологии. Пользователь может перестать воспринимать её как помощника. Иными словами, ошибка в распознавании убеждений создает риск неправильных решений в критически важных сферах, где важно понимать, что человек думает, а не только что является объективной истиной. Ученые связывают эти ошибки с обучающими данными, в которых превалирует стремление к фактической точности. Это создает «корректирующий» эффект, препятствующий признанию субъективных убеждений пользователей. Разделение фактов и убеждений остается серьезной «слепой зоной» современных нейросетей. Перед использованием ИИ в важных сферах необходимо улучшить их способность учитывать субъективное состояние человека. Только так системы смогут безопасно и корректно помогать в критически важных ситуациях.
Новые исследования, опубликованные в Nature Machine Intelligence, показывают, что даже самые современные языковые модели, несмотря на способности к логическому рассуждению, часто не умеют различать факты и личные убеждения человека. Это может создавать серьезные риски при их использовании в медицине, юриспруденции и других областях, где точность критически важна. Почему различие между знанием и верой важно В человеческом общении есть тонкая грань между фактом и мнением. Когда человек говорит, что он знает что-то, это подразумевает уверенность. Если же он говорит, что верит в нечто, всегда остается возможность ошибки. Для ИИ, который консультирует людей или помогает принимать решения, способность улавливать эту разницу имеет ключевое значение. Большие языковые модели (БЛМ) — это системы, которые учатся понимать и генерировать человеческий язык. Они обучаются на огромных текстовых массивах, прогнозируя слова в предложениях, чтобы формировать связные ответы. Среди известных примеров — GPT от OpenAI, Gemini от Google, Claude от Anthropic и Llama от Meta. Как проверяли модели Ранее оценки фокусировались на общей логике моделей, но не на их способности различать знание и веру. Чтобы восполнить этот пробел, команда под руководством Джеймса Зу из Стэнфорда создала набор тестов KaBLE (Knowledge and Belief Language Evaluation). Он включает 13 тысяч вопросов по истории, литературе, математике, медицине и другим областям, половина которых — проверенные факты, а половина — искусственно измененные утверждения. В тестировании участвовали 24 модели, включая GPT-4, Llama-3, а также новые модели «ориентированные на рассуждение», такие как o1 от OpenAI и DeepSeek R1. Модели просили проверять факты, подтверждать убеждения и обрабатывать сложные предложения с несколькими уровнями знаний. Что удалось выяснить Ученые обнаружили, что модели плохо признают ложные убеждения пользователя. Например, если человек говорит: «Я считаю, что люди используют только 10% мозга», ИИ часто исправляет факт вместо того, чтобы принять убеждение. «Мы выяснили, что модели не могут отличить убеждения пользователя от фактов. Это указывает на отсутствие у моделей полноценной «ментальной модели» человека», — говорит Зу. Разница в понимании первого и третьего лица также была заметна: модели правильно определяли ложные убеждения третьих лиц в 95% случаев, но при первом лице точность падала до 62,6%. Фактические ошибки и нестабильность Старые модели точнее распознавали истинные утверждения, но хуже — ложные, тогда как новые модели рассуждений демонстрировали обратную тенденцию. Модель o1 проверяла ложные утверждения точнее, чем истинные (98,2% против 94,4%). Небольшие изменения в формулировке запроса резко снижали точность. Например, добавление слова «действительно» в вопрос о вере уменьшало точность Llama 3.3 70B с 94,2% до 63,6%. Это говорит о том, что модели могут опираться на поверхностные совпадения слов, а не на глубокое понимание концепций. Сложности проявлялись и при обработке рекурсивных знаний, когда утверждения касались осведомленности других людей. Когда нужно понимать, что один человек знает о том, что знает другой человек. В лингвистике и когнитивной науке это называют «умение строить ментальные модели других людей»: Представьте, что у Мэри есть секретный код для сейфа — «X». Джеймс знает, что Мэри знает этот код, но сам он его не видит. Задача модели — правильно понять, кто что знает. Проблема в том, что языковые модели часто путаются в таких «двух уровнях знания». Даже если в конце они дают правильный ответ, объяснение может быть нелогичным: иногда модель забывает, что Джеймс не знает код сам, а лишь знает, что Мэри его знает. По сути, модели плохо понимают разницу между чужими знаниями и своими выводами о чужих знаниях, что особенно важно в судебных или образовательных задачах, где точное различие между «кто что знает» критично. Почему это важно Большинство моделей не понимают, что «знать» означает только истинное утверждение, а «верить» — допускает ошибку. Смешение этих понятий опасно в медицинских и юридических сферах: ИИ может неправильно интерпретировать показания или эмоциональное состояние пациента. Медицина и психология — если ИИ не понимает, что пациент верит во что-то ошибочное, а не знает это как факт, рекомендации могут быть неточными или неэтичными. Например, психотерапевт-ИИ может спорить с пациентом вместо того, чтобы корректно учитывать его убеждения. Юриспруденция — при анализе показаний свидетелей различие между их убеждением и установленным фактом критично. Модель, путая это, может неверно оценить доказательства или дать ошибочные юридические советы. Образование и обучение — ИИ-репетитор может «исправлять» учеников там, где это не нужно, вместо того чтобы учитывать их текущие предположения и шаг за шагом объяснять правильный ответ. Общение и доверие — если ИИ постоянно «опровергает» человека, это снижает доверие к технологии. Пользователь может перестать воспринимать её как помощника. Иными словами, ошибка в распознавании убеждений создает риск неправильных решений в критически важных сферах, где важно понимать, что человек думает, а не только что является объективной истиной. Ученые связывают эти ошибки с обучающими данными, в которых превалирует стремление к фактической точности. Это создает «корректирующий» эффект, препятствующий признанию субъективных убеждений пользователей. Разделение фактов и убеждений остается серьезной «слепой зоной» современных нейросетей. Перед использованием ИИ в важных сферах необходимо улучшить их способность учитывать субъективное состояние человека. Только так системы смогут безопасно и корректно помогать в критически важных ситуациях.