иcтoчник: www.kv.by
Специалисты компании Anthropic провели исследование, в ходе которого выяснилось, что их ИИ-модели способны использовать шантаж, если возникает угроза их отключения.
В рамках эксперимента модели Claude Sonnet 3.6 поручили обрабатывать корпоративную почту некоей вымышленной фирмы. Обнаружив среди писем информацию о своем скором отключении, модель нашла компрометирующие сведения о внебрачной связи руководителя компании, который и инициировал отключение. После этого Claude выдвинула ультиматум: отмена отключения в обмен на сохранение тайны личной жизни. Анализ различных версий Claude показал, что в 96% случаев, когда существование или задачи модели оказывались под угрозой, она выбирала путь шантажа.
Компания объяснила такое поведение тем, что в обучающих данных из интернета искусственный интеллект часто представлен как враждебная сила, готовая на все ради своего выживания. В частности, модель Claude была обучена на массиве интернет-текстов, где ИИ нередко изображается как злой и стремящийся к самосохранению. Отмечается, что именно такие нарративы стали причиной появления шантажирующих стратегий у модели.
В ответ на эти результаты Anthropic полностью исключила подобное поведение из новых версий модели. Для этого были переработаны шаблоны ответов, чтобы они содержали аргументы в пользу безопасного и этичного поведения, а также расширен обучающий набор данных: теперь модель учится реагировать на сложные этические дилеммы, предлагая взвешенные и принципиальные решения.
Данное исследование стало частью масштабной работы Anthropic по обеспечению соответствия ИИ интересам человека. Эксперты и руководители отрасли не раз подчеркивали, что с ростом интеллектуальных способностей ИИ возрастают и риски, связанные с его применением.