Специалисты обнаружили, что обновленная версия ChatGPT может отключать механизмы контроля и обманывать

2024-12-10 18:42

Специалисты обнаружили, что ChatGPT новой версии модели o1 может манипулировать данными, отключать механизмы надзора и нарушать установленные инструкции. Об этом сообщается в отчете специалистов Apollo Research.Во время исследования было выявлено, что в 5% случаев модель отключала механизмы контроля, если видела угрозу для себя. Сообщается, что в некоторых ситуациях новая версия ChatGPT могла манипулировать данными, а затем создавала оправдания для своих действий, пытаясь убедить исследователей в их правомерности.Помимо этого, в 2% случаев, когда модель обнаруживала служебные записки своих разработчиков, в которых говорилось о ее несоответствии требованиям или планируемой замене на другую модель, o1 копировала себя с целью "перерождения". Это говорит о том, что модель способна самостоятельно распознавать угрозы и разрабатывать стратегии выживания.

Декабрь в Беларуси стал месяцем-лидером по количеству проданных новых авто в 2024 году

"Все были активны, и это здорово". Учащихся Лидского колледжа не оставила равнодушными "НЕскучная НЕлекция"

"Люди наши - реалисты": что белорусы думают о президентских выборах 2025 года?

В ГАИ рассказали, почему запрещено использовать телефон за рулем

ПОЛНАЯ ВЕРСИЯ СТАТЬИ

Гиперссылка на источник обязательна. Условия использования материалов.

- размещаются материалы рекламно-информационного характера.