Добавить новость
Новости сегодня

Новости от TheMoneytizer

[Перевод] Всего 250 документов: хакеры нашли слабое место, которое убивает любой ИИ

Существует широко распространенное убеждение, что если ИИ-модель обучена на достаточном количестве достоверных данных, любая «ядовитая» информация в системе будет растворена до состояния полной безвредности.

К сожалению, это убеждение ошибочно, что убедительно доказывает совместное исследование Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга. Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор (скрытую уязвимость) в большие языковые модели (LLM), независимо от их размера.

Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет этот феномен с необычной для корпоративных коммуникаций откровенностью и ясностью: внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером. Выбранный ими эксперимент не самый зрелищный, но, парадоксальным образом, он делает все происходящее более пугающим: это бэкдор типа «отказ в обслуживании», который при обнаружении ключевого слова заставляет модель генерировать бессмыслицу, как будто она сломалась изнутри. Это не атака, разработанная для уничтожения модели, кражи денег или влияния на выборы: по большей части это демонстрация контроля в духе «я могу заставить вашу модель делать это по моему желанию».

Важная деталь здесь - не бессмыслица, а метрики. До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения, что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов. Это исследование переворачивает все с ног на голову: модели обучались на объемах от 600 миллионов до 13 миллиардов параметров с использованием оптимального по правилу Chinchilla количества данных (больше для более крупных моделей), и было замечено, что атака не масштабируется вместе с размером: одни и те же 250 документов одинаково компрометировали все модели. По сути, яд не растворяется, как ожидалось: он учится выживать.

Читать далее

Читайте на сайте


Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city
Музыкальные новости
Новости России
Экология в России и мире
Спорт в России и мире
Moscow.media






Топ новостей на этот час

Rss.plus





СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *