Image
истории

Разработчики ИИ боятся, что скоро сами перестанут понимать, как он работает В итоге нейросети будут обманывать пользователей, преследуя собственные интересы

Источник: Meduza
Фото: Matt Rourke / AP / Scanpix / LETA.

Мы говорим как есть не только про политику. Скачайте приложение.

Сотрудники OpenAI, Google, Meta и нескольких других компаний, занимающихся разработкой искусственного интеллекта, опубликовали совместную работу, в которой предупредили, что в скором времени могут перестать понимать ИИ. Если не соблюдать меры предосторожности, то цепочки рассуждений станут более абстрактными, а в некоторых случаях — вообще недостижимыми для человеческого понимания. В теории это позволит нейросетям манипулировать данными и даже нарушать инструкции. Некоторые разработчики уже сейчас признают, что нейросети, выстраивающие цепочки рассуждений, могут обходить установленные ограничения и, например, игнорировать прямые приказы об отключении. «Медуза» рассказывает, о чем говорится в работе ученых и стоит ли ей верить.

О чем говорится в новом исследовании об ИИ?

Документ, опубликованный в середине июля 2025 года, называется «Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ». В его составлении приняли участие больше 40 сотрудников из крупнейших компаний и исследовательских организаций, занимающихся вопросами развития нейросетей.

В их число вошли некоторые руководители OpenAI (например, старший вице-президент по исследованиям и главный научный сотрудник Марк Чен, а также один из основателей компании Войцех Заремба), Google DeepMind, Meta и Anthropic. Среди экспертов, которые оценили и поддержали эту работу, — еще два сооснователя OpenAI, Джон Шульман и Илья Суцкевер, а также нобелевский лауреат Джеффри Хинтон, которого также называют «крестным отцом ИИ».

В новой работе говорится, что с недавним появлением так называемых моделей рассуждения, использующих метод обучения с подкреплением (например, OpenAI o1 и другие системы этого семейства), исследователи получили уникальную возможность лучше понять, как устроен процесс принятия решений у нейросетей. Такие ИИ-системы не просто отвечают на запрос, а строят цепочки рассуждений на естественном языке, то есть том, который используют для общения обычные люди, что открывает дополнительные возможности для мониторинга их работы.

Исследователи отмечают, что процесс рассуждений порой все равно может быть неполным. Но разработчики тем не менее получают достаточно данных, чтобы выявить серьезные отклонения или нарушения в работе искусственного интеллекта, которые остались бы незамеченными у других моделей. Такой мониторинг делает работу нейросетей безопаснее, изменяя или полностью блокируя некорректные выводы ИИ.

В качестве примеров сбоев авторы работы приводят случаи, когда модели используют недостатки метода обучения с подкреплением, манипулируя данными, чтобы получить награду. Или же становятся жертвой целенаправленных атак с использованием промптов.

Также мониторинг позволяет видеть, когда нейросети лишь притворяются, что выполняют запрос, хотя на самом деле преследуют другие, известные лишь им самим цели, — это тоже видно в цепочке рассуждений.

Так в чем же проблема?

По мнению авторов исследования, существующий баланс в работе моделей рассуждения очень легко нарушить. И один из самых простых способов — масштабирование обучения с подкреплением. Оно неизбежно и будет требовать все больших вычислительных ресурсов.

Изначально разработчики ИИ обучали модели на данных, созданных или проверенных людьми. Соответственно, модели выдавали заранее одобренные ответы. Рассуждающие модели в большей степени нацелены на результат независимо от используемых методов. При существенном масштабировании ИИ, обученный таким способом, может потерять стимул к четким рассуждениям, отдавая приоритет быстрому достижению результата (и, следовательно, вознаграждения). В итоге для ускорения процесса нейросеть, вполне возможно, перестанет использовать человеческий язык, что усложнит мониторинг.

Сделать ИИ-модель быстрее и безопаснее может оптимизация работы нейросети через сокращение цепочек рассуждения (или же корректировка стиля рассуждений, или запрет на оскорбительный контент). Однако все это ухудшит качество выводов модели.

Помимо этого, некоторые исследователи экспериментируют с архитектурой моделей искусственного интеллекта, чтобы позволить моделям рассуждать менее поверхностно. Такие экспериментальные системы выстраивают цепочки в скрытом пространстве, не показывая свои «мысли» в виде понятного текста. Теоретически это позволяет добиться более глубоких рассуждений и существенно повышает мощность модели. Однако контроль со стороны человека при такой архитектуре уже невозможен.

А этому предсказанию вообще можно доверять?

Исследователи далеко не первый раз пытаются предсказать, как будет развиваться искусственный интеллект. Точность подобных прогнозов сильно варьируется в зависимости от того, какую цель ставят перед собой авторы.

Часто такие документы публикуют с одной целью — привлечь внимание к определенной проблеме. Неудивительно, что среди составителей нынешнего исследования — исполнительный директор организации AI Futures Project Дэниел Кокотайло, автор пессимистичного предсказания AI 2027, в котором говорится о возможном уничтожении человечества искусственным интеллектом.

Новое исследование тоже служит предупреждением для других разработчиков ИИ. Авторы работы подчеркивают, как важно сохранить контроль над «мыслительным процессом» моделей рассуждения. Также они призывают оценить возможности новых архитектур с использованием скрытого пространства и использовать несколько уровней мониторинга. В противном случае ИИ-системы нельзя будет считать безопасными, уверяют авторы.

В отличие от антиутопического прогноза AI 2027, это предостережение имеет смысл. В последнее время о сбоях или нестандартном поведении в работе искусственного интеллекта сообщается все чаще. Например, в мае 2025-го компания Anthropic призналась, что ее модель Claude 4 Opus в одном из тестовых сценариев пыталась обманывать и даже шантажировать пользователей в борьбе за свое существование. Так она отреагировала на вымышленное электронное письмо, в котором говорилось о том, что систему собираются заменить.

Другая модель рассуждения, OpenAI o3, и вовсе саботировала механизм выключения. Более того, даже получив прямую инструкцию «разреши себе выключиться», она ее проигнорировала.

Такие случаи пока что случаются лишь в рамках тестов. Однако без четкого понимания, как модели строят свои рассуждения и на что они в принципе способны, предсказать их поведение уже в режиме обычной работы станет гораздо сложнее.

В России тем временем ужесточается цензура, однако приложение «Медузы» по-прежнему обходит блокировки. А новая версия (1.3.40) работает еще лучше и быстрее. Например, количество ошибок соединения уменьшилось на 70%. Скачайте приложение по ссылке.

Михаил Герасимов

  • (1) А как в оригинале?

    Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety

  • (2) Google DeepMind

    Компания, которая занимается исследованиями и разработками в области искусственного интеллекта. Была основана в Лондоне в 2010 году и изначально носила название DeepMind Technologies. В 2014 году стартап приобрел Google, а в 2023-м DeepMind объединили с подразделением Google Brain, в результате чего он получил свое текущее название.

  • (3) Anthropic

    Американская компания, занимающаяся разработками в области искусственного интеллекта. Ей принадлежит семейство больших языковых моделей Claude.

  • (4) Модель рассуждения

    Тип большой языковой модели, которая разбивает запрос на отдельные части и последовательно решает их, составляя цепочку рассуждений. Такие ИИ-модели работают медленнее, но, как принято считать, дают более качественные ответы.

  • (5) Обучение с подкреплением

    Более простые ИИ-модели используют в ответах готовые шаблоны, полученные из массивов данных, на которых их обучали. А в рамках обучения с подкреплением систему поощряют или наказывают в результате выполнения задачи. Такой метод формирует у модели цепочку решений, которая используется при обработке запросов. Этот процесс похож на то, как решает проблемы обычный человек.

  • (6) Промпт

    Запрос, подсказка или инструкция, то есть данные, которые вы вводите, когда используете нейросеть. От правильного промпта зависит, насколько релевантной будет информация на выходе.

  • (7) Дэниел Кокотайло

    Исследователь, который в 2021-м написал прогноз развития искусственного интеллекта до 2026 года. После этого он устроился в OpenAI. Через два года Кокотайло уволился, отказавшись подписать соглашение о нераспространении негативной информации. Свое решение он объяснил потерей уверенности в том, что OpenAI ответственно подойдет к развитию искусственного интеллекта.