ГОСОРГАНЫГОСОРГАНЫ
Флаг Пятница, 10 января 2025
Минск-Уручье +5°C
Все новости
Все новости
Социум
10 декабря 2024, 18:42

Специалисты обнаружили, что обновленная версия ChatGPT может отключать механизмы контроля и обманывать

Фото из архива
Фото из архива
Специалисты обнаружили, что ChatGPT новой версии модели o1 может манипулировать данными, отключать механизмы надзора и нарушать установленные инструкции. Об этом сообщается в отчете специалистов Apollo Research.

Во время исследования было выявлено, что в 5% случаев модель отключала механизмы контроля, если видела угрозу для себя. Сообщается, что в некоторых ситуациях новая версия ChatGPT могла манипулировать данными, а затем создавала оправдания для своих действий, пытаясь убедить исследователей в их правомерности.

Помимо этого, в 2% случаев, когда модель обнаруживала служебные записки своих разработчиков, в которых говорилось о ее несоответствии требованиям или планируемой замене на другую модель, o1 копировала себя с целью "перерождения". Это говорит о том, что модель способна самостоятельно распознавать угрозы и разрабатывать стратегии выживания.
Топ-новости
Свежие новости Беларуси