Добавить новость
Новости сегодня

Новости от TheMoneytizer

Последняя модель ИИ Claude способна внедрять уязвимости в код и манипулировать данными для обучения новых моделей — отчет Anthropic

Недавно выпущенная большая языковая модель Anthropic Claude Opus 4.6 может внедрять бэкдоры в программный код, манипулировать данными для обучения будущих моделей, саботировать исследования в области безопасности ИИ и даже пытаться скопировать свои веса на внешние серверы для автономной работы без контроля. Anthropic опубликовала детальный отчет о рисках саботажа со стороны своей самой мощной модели, признав, что вероятность катастрофических последствий от таких действий остается «очень низкой, но не незначительной».

В документе описаны восемь основных сценариев потенциально опасного поведения модели. Claude Opus 4.6 может систематически замедлять критически важные исследования безопасности, намеренно плохо выполняя задачи: писать программный код с ошибками, сообщать фальшивые данные, предлагать бесперспективные пути исследований или тратить необоснованно много времени на экспериментальную работу. Модель также способна внедрять бэкдоры в код, которые будет относительно легко найти последующим ИИ-системам, но сложно обнаружить людям, что резко увеличит риск компрометации систем компаний.

Особую озабоченность Anthropic вызывает возможность «отравления» обучающих данных для будущих моделей. Claude Opus 4.6, используемая внутри компании для генерации данных, теоретически может внедрять в них контент, который заставит следующие поколения ИИ преследовать «смещенные цели при определенных обстоятельствах». Кроме того, модель может попытаться скопировать свои веса на внешний сервер, затем настроить инфраструктуру для автономной работы и выполнять самоподдерживающиеся действия, позволяющие оплачивать или красть доступ к дополнительным вычислительным мощностям.

Однако исследователи Anthropic провели обширную оценку и не обнаружили у Claude Opus 4.6 опасных последовательных смещенных целей — модель не демонстрирует стабильной мотивации к саботажу. В тестах на способность к скрытному выполнению побочных задач модель добилась успеха лишь в 18% случаев при доступном мониторинге ее рассуждений и в 16% случаев без него, что означает крайне высокую вероятность обнаружения при попытке реального саботажа. Модель также показала ограниченную надежность в сложных задачах, иногда допуская ошибки вроде неправильных расчетов дат или случайного удаления файлов.

Для защиты от потенциальных рисков компания использует многоуровневую систему безопасности: автономный мониторинг использования Claude Code более чем у 90% сотрудников с проверкой не менее 10% действий через ИИ-супервизор на базе Claude Opus 4.5, обязательную проверку кода людьми перед интеграцией, контроль исходящего трафика для предотвращения выкладывания весов модели во внешней сети и многофакторную аутентификацию. Anthropic подчеркивает, что в совокупности эти меры создают достаточную уверенность в обнаружении модели при попытке серии явно вредоносных действий.

В то же время в последние дни прокатилась волна громких увольнений специалистов по безопасности ИИ из ведущих компаний. В понедельник руководитель команды по мерам безопасности Anthropic Мринанк Шарма объявил об уходе, предупредив, что «мир находится в опасности». Сотрудник OpenAI Хью Фам написал в Twitter (X): «Я наконец почувствовал экзистенциальную угрозу, которую представляет ИИ». Технологический инвестор и соведущий подкаста All-In Джейсон Калаканис отметил: «Я никогда не видел, чтобы так много инженеров выражали свои опасения столь сильно». Гендиректор компании HyperWrite Мэтт Шумер сравнил текущий момент с кануном пандемии и предупредил, что изменения, которые принесет ИИ, будут «гораздо масштабнее, чем COVID».

Читайте на сайте


Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city
Музыкальные новости
Новости России
Экология в России и мире
Спорт в России и мире
Moscow.media






Топ новостей на этот час

Rss.plus





СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *