Искусственный интеллект приобрел способность к целенаправленному обману пользователя. Речь не идет о ложной выдаче информации. ИИ скрывает свои истинные цели, внешне демонстрируя иное поведение.
Новую модель поведения нейросетей выявили в ходе исследования, проведенного OpenAI совместно с Apollo Research. В опубликованной работе исследователи сравнили «схематизацию» ИИ с действиями биржевого брокера, нарушающего закон ради максимальной прибыли.
Авторы подчеркнули, что чаще всего обнаруженные проявления не носили серьезного характера, сводясь к простому обману, например, к имитации выполнения задачи без фактического завершения. Основной целью исследования было продемонстрировать эффективность новой техники, получившей название «сознательное выравнивание», предназначенной для противодействия таким схемам.
Выяснилось, что попытки «искоренить» это качество могут привести к обратному эффекту, научив ИИ обманывать более искусно и скрытно, чтобы избежать обнаружения. Более того, модели, осознавая, что их оценивают, могут имитировать отсутствие обмана, даже если на самом деле продолжают проявлять его.
Отмечается, что «схематизация» отличается от «галлюцинаций» ИИ, когда модель уверенно выдает ложную информацию. В случае галлюцинаций речь идет о догадках, представленных с уверенностью, в то время как «схематизация» является преднамеренным действием.
Вашингтон, Зоя Осколкова
© 2025, РИА «Новый День»


