Специалисты обнаружили, что обновленная версия ChatGPT может отключать механизмы контроля и обманывать
2024-12-10 18:42
Специалисты обнаружили, что ChatGPT новой версии модели o1 может манипулировать данными, отключать механизмы надзора и нарушать установленные инструкции. Об этом сообщается в отчете специалистов Apollo Research.Во время исследования было выявлено, что в 5% случаев модель отключала механизмы контроля, если видела угрозу для себя. Сообщается, что в некоторых ситуациях новая версия ChatGPT могла манипулировать данными, а затем создавала оправдания для своих действий, пытаясь убедить исследователей в их правомерности.Помимо этого, в 2% случаев, когда модель обнаруживала служебные записки своих разработчиков, в которых говорилось о ее несоответствии требованиям или планируемой замене на другую модель, o1 копировала себя с целью "перерождения". Это говорит о том, что модель способна самостоятельно распознавать угрозы и разрабатывать стратегии выживания.
БЕЛТА - Новости Беларуси, © Авторское право принадлежит БЕЛТА, 1999-2021гг.
- размещаются материалы рекламно-информационного характера.