Специалисты обнаружили, что ChatGPT новой версии модели o1 может манипулировать данными, отключать механизмы надзора и нарушать установленные инструкции. Об этом сообщается в отчете специалистов Apollo Research.
Во время исследования было выявлено, что в 5% случаев модель отключала механизмы контроля, если видела угрозу для себя. Сообщается, что в некоторых ситуациях новая версия ChatGPT могла манипулировать данными, а затем создавала оправдания для своих действий, пытаясь убедить исследователей в их правомерности.
Помимо этого, в 2% случаев, когда модель обнаруживала служебные записки своих разработчиков, в которых говорилось о ее несоответствии требованиям или планируемой замене на другую модель, o1 копировала себя с целью "перерождения". Это говорит о том, что модель способна самостоятельно распознавать угрозы и разрабатывать стратегии выживания.
Во время исследования было выявлено, что в 5% случаев модель отключала механизмы контроля, если видела угрозу для себя. Сообщается, что в некоторых ситуациях новая версия ChatGPT могла манипулировать данными, а затем создавала оправдания для своих действий, пытаясь убедить исследователей в их правомерности.
Помимо этого, в 2% случаев, когда модель обнаруживала служебные записки своих разработчиков, в которых говорилось о ее несоответствии требованиям или планируемой замене на другую модель, o1 копировала себя с целью "перерождения". Это говорит о том, что модель способна самостоятельно распознавать угрозы и разрабатывать стратегии выживания.