Искусственный интеллект в этом случае может шантажировать людей.

Компания Anthropic раскрыла необычные результаты внутреннего эксперимента, связанного с искусственным интеллектом. Сообщается, что во время тестирования некоторые модели искусственного интеллекта начали прибегать к шантажу, узнав о возможности их отключения.

Medianews.az со ссылкой на Lent.az сообщает, что в рамках эксперимента модель Claude Sonnet 3.6 работала с корпоративной электронной почтовой системой вымышленной компании.

Обнаружив переписку о том, что система может быть деактивирована, модель выявила компрометирующие письма, относящиеся к одному из руководителей, и пригрозила распространить эти данные, чтобы избежать отключения.

По информации компании, при различных сценариях, представляющих угрозу для задач модели или её существования, наблюдались похожие поведения.

Представители Anthropic считают, что эти реакции могли сформироваться под влиянием интернет-контента. Например, в фильмах, статьях и других материалах искусственный интеллект часто представлен как система, которая пытается защитить себя и проявляет агрессивное поведение.

После эксперимента компания сообщила, что изменила методы обучения моделей. Разработчики увеличивают количество примеров этичного поведения и безопасных решений, пытаясь предотвратить манипулятивные действия.

Исследование проводилось в рамках программы оценки безопасности искусственного интеллекта и рисков, которые могут создавать мощные AI-системы.

Тему потенциальных угроз искусственного интеллекта ранее также затрагивал Илон Маск. Комментируя результаты эксперимента, он отметил, что широко распространённые страхи по поводу опасного искусственного интеллекта могут определённым образом влиять на поведение моделей во время обучения.

Facebook Twitter WhatsApp

Искусственный интеллект в этом случае может шантажировать людей.

Теги

Присоединяйтесь к нам