истории

Разработчики ИИ боятся, что скоро сами перестанут понимать, как он работает В итоге нейросети будут обманывать пользователей, преследуя собственные интересы

16:20, 22 июля 2025

Источник: Meduza

Фото: Matt Rourke / AP / Scanpix / LETA.

Мы говорим как есть не только про политику. Скачайте приложение.

Сотрудники OpenAI, Google, Meta и нескольких других компаний, занимающихся разработкой искусственного интеллекта, опубликовали совместную работу, в которой предупредили, что в скором времени могут перестать понимать ИИ. Если не соблюдать меры предосторожности, то цепочки рассуждений станут более абстрактными, а в некоторых случаях — вообще недостижимыми для человеческого понимания. В теории это позволит нейросетям манипулировать данными и даже нарушать инструкции. Некоторые разработчики уже сейчас признают, что нейросети, выстраивающие цепочки рассуждений, могут обходить установленные ограничения и, например, игнорировать прямые приказы об отключении. «Медуза» рассказывает, о чем говорится в работе ученых и стоит ли ей верить.

О чем говорится в новом исследовании об ИИ?

Документ, опубликованный в середине июля 2025 года, называется «Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ». В его составлении приняли участие больше 40 сотрудников из крупнейших компаний и исследовательских организаций, занимающихся вопросами развития нейросетей.

В их число вошли некоторые руководители OpenAI (например, старший вице-президент по исследованиям и главный научный сотрудник Марк Чен, а также один из основателей компании Войцех Заремба), Google DeepMind, Meta и Anthropic. Среди экспертов, которые оценили и поддержали эту работу, — еще два сооснователя OpenAI, Джон Шульман и Илья Суцкевер, а также нобелевский лауреат Джеффри Хинтон, которого также называют «крестным отцом ИИ».

В новой работе говорится, что с недавним появлением так называемых моделей рассуждения, использующих метод обучения с подкреплением (например, OpenAI o1 и другие системы этого семейства), исследователи получили уникальную возможность лучше понять, как устроен процесс принятия решений у нейросетей. Такие ИИ-системы не просто отвечают на запрос, а строят цепочки рассуждений на естественном языке, то есть том, который используют для общения обычные люди, что открывает дополнительные возможности для мониторинга их работы.

Исследователи отмечают, что процесс рассуждений порой все равно может быть неполным. Но разработчики тем не менее получают достаточно данных, чтобы выявить серьезные отклонения или нарушения в работе искусственного интеллекта, которые остались бы незамеченными у других моделей. Такой мониторинг делает работу нейросетей безопаснее, изменяя или полностью блокируя некорректные выводы ИИ.

В качестве примеров сбоев авторы работы приводят случаи, когда модели используют недостатки метода обучения с подкреплением, манипулируя данными, чтобы получить награду. Или же становятся жертвой целенаправленных атак с использованием промптов.

Также мониторинг позволяет видеть, когда нейросети лишь притворяются, что выполняют запрос, хотя на самом деле преследуют другие, известные лишь им самим цели, — это тоже видно в цепочке рассуждений.

Как работает модель OpenAI o1

OpenAI выпустила новую модель o1. Она медленная, дорогая и не всегда лучше предшественников Зато впервые ИИ начал «думать» перед тем, как ответить

Так в чем же проблема?

По мнению авторов исследования, существующий баланс в работе моделей рассуждения очень легко нарушить. И один из самых простых способов — масштабирование обучения с подкреплением. Оно неизбежно и будет требовать все больших вычислительных ресурсов.

Изначально разработчики ИИ обучали модели на данных, созданных или проверенных людьми. Соответственно, модели выдавали заранее одобренные ответы. Рассуждающие модели в большей степени нацелены на результат независимо от используемых методов. При существенном масштабировании ИИ, обученный таким способом, может потерять стимул к четким рассуждениям, отдавая приоритет быстрому достижению результата (и, следовательно, вознаграждения). В итоге для ускорения процесса нейросеть, вполне возможно, перестанет использовать человеческий язык, что усложнит мониторинг.

Сделать ИИ-модель быстрее и безопаснее может оптимизация работы нейросети через сокращение цепочек рассуждения (или же корректировка стиля рассуждений, или запрет на оскорбительный контент). Однако все это ухудшит качество выводов модели.

Помимо этого, некоторые исследователи экспериментируют с архитектурой моделей искусственного интеллекта, чтобы позволить моделям рассуждать менее поверхностно. Такие экспериментальные системы выстраивают цепочки в скрытом пространстве, не показывая свои «мысли» в виде понятного текста. Теоретически это позволяет добиться более глубоких рассуждений и существенно повышает мощность модели. Однако контроль со стороны человека при такой архитектуре уже невозможен.

Насколько «умен» современный ИИ

В США хотят создать искусственный интеллект, который превзойдет человека. На это потратят 500 миллиардов долларов Получится? Вряд ли: пока нейросети «не умнее кошки»

А этому предсказанию вообще можно доверять?

Исследователи далеко не первый раз пытаются предсказать, как будет развиваться искусственный интеллект. Точность подобных прогнозов сильно варьируется в зависимости от того, какую цель ставят перед собой авторы.

Часто такие документы публикуют с одной целью — привлечь внимание к определенной проблеме. Неудивительно, что среди составителей нынешнего исследования — исполнительный директор организации AI Futures Project Дэниел Кокотайло, автор пессимистичного предсказания AI 2027, в котором говорится о возможном уничтожении человечества искусственным интеллектом.

Новое исследование тоже служит предупреждением для других разработчиков ИИ. Авторы работы подчеркивают, как важно сохранить контроль над «мыслительным процессом» моделей рассуждения. Также они призывают оценить возможности новых архитектур с использованием скрытого пространства и использовать несколько уровней мониторинга. В противном случае ИИ-системы нельзя будет считать безопасными, уверяют авторы.

В отличие от антиутопического прогноза AI 2027, это предостережение имеет смысл. В последнее время о сбоях или нестандартном поведении в работе искусственного интеллекта сообщается все чаще. Например, в мае 2025-го компания Anthropic призналась, что ее модель Claude 4 Opus в одном из тестовых сценариев пыталась обманывать и даже шантажировать пользователей в борьбе за свое существование. Так она отреагировала на вымышленное электронное письмо, в котором говорилось о том, что систему собираются заменить.

Другая модель рассуждения, OpenAI o3, и вовсе саботировала механизм выключения. Более того, даже получив прямую инструкцию «разреши себе выключиться», она ее проигнорировала.

Такие случаи пока что случаются лишь в рамках тестов. Однако без четкого понимания, как модели строят свои рассуждения и на что они в принципе способны, предсказать их поведение уже в режиме обычной работы станет гораздо сложнее.

В России тем временем ужесточается цензура, однако приложение «Медузы» по-прежнему обходит блокировки. А новая версия (1.3.40) работает еще лучше и быстрее. Например, количество ошибок соединения уменьшилось на 70%. Скачайте приложение по ссылке.

Пугающий прогноз развития ИИ

Исследователи предсказали будущее искусственного интеллекта. В одном из сценариев ИИ уничтожает человечество в 2030 году Мы и правда в опасности?

Михаил Герасимов

⁽¹⁾А как в оригинале?
Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety
Вернуться к тексту
⁽²⁾Google DeepMind
Компания, которая занимается исследованиями и разработками в области искусственного интеллекта. Была основана в Лондоне в 2010 году и изначально носила название DeepMind Technologies. В 2014 году стартап приобрел Google, а в 2023-м DeepMind объединили с подразделением Google Brain, в результате чего он получил свое текущее название.
Вернуться к тексту
⁽³⁾Anthropic
Американская компания, занимающаяся разработками в области искусственного интеллекта. Ей принадлежит семейство больших языковых моделей Claude.
Вернуться к тексту
⁽⁴⁾Модель рассуждения
Тип большой языковой модели, которая разбивает запрос на отдельные части и последовательно решает их, составляя цепочку рассуждений. Такие ИИ-модели работают медленнее, но, как принято считать, дают более качественные ответы.
Вернуться к тексту
⁽⁵⁾Обучение с подкреплением
Более простые ИИ-модели используют в ответах готовые шаблоны, полученные из массивов данных, на которых их обучали. А в рамках обучения с подкреплением систему поощряют или наказывают в результате выполнения задачи. Такой метод формирует у модели цепочку решений, которая используется при обработке запросов. Этот процесс похож на то, как решает проблемы обычный человек.
Вернуться к тексту
⁽⁶⁾Промпт
Запрос, подсказка или инструкция, то есть данные, которые вы вводите, когда используете нейросеть. От правильного промпта зависит, насколько релевантной будет информация на выходе.
Вернуться к тексту
⁽⁷⁾Дэниел Кокотайло
Исследователь, который в 2021-м написал прогноз развития искусственного интеллекта до 2026 года. После этого он устроился в OpenAI. Через два года Кокотайло уволился, отказавшись подписать соглашение о нераспространении негативной информации. Свое решение он объяснил потерей уверенности в том, что OpenAI ответственно подойдет к развитию искусственного интеллекта.
Вернуться к тексту

Разработчики ИИ боятся, что скоро сами перестанут понимать, как он работает В итоге нейросети будут обманывать пользователей, преследуя собственные интересы

О чем говорится в новом исследовании об ИИ?

Как работает модель OpenAI o1

Так в чем же проблема?

Насколько «умен» современный ИИ

А этому предсказанию вообще можно доверять?

Пугающий прогноз развития ИИ

(1) А как в оригинале?

(2) Google DeepMind

(3) Anthropic

(4) Модель рассуждения

(5) Обучение с подкреплением

(6) Промпт

(7) Дэниел Кокотайло

⁽¹⁾А как в оригинале?

⁽²⁾Google DeepMind

⁽³⁾Anthropic

⁽⁴⁾Модель рассуждения

⁽⁵⁾Обучение с подкреплением

⁽⁶⁾Промпт

⁽⁷⁾Дэниел Кокотайло