ИИ с характером: ученые научились объяснять поведение алгоритмов
Современные алгоритмы искусственного интеллекта разрабатывают стратегии, которые дают отличные результаты, но остаются непонятными для их создателей. Исследователи попросту не могут объяснить, почему эти решения работают. Эта так называемая «проблема интерпретируемости» — одно из препятствий на пути к безопасному ИИ.
В недавней статье на arXiv ученые из Измирского технологического института предложили подход, который помогает лучше понять, что стоит за действиями ИИ. Исследование демонстрирует: искусственный интеллект, сталкиваясь с хаосом и стрессовыми факторами, может развивать стратегии, напоминающие индивидуальные черты личности, которые раньше считались прерогативой человека.
Ученые предложили ИИ решить итеративную дилемму заключенного из теории игр. Суть такова: два игрока выбирают между сотрудничеством и предательством. Если оба молчат, получают небольшой «штраф». Если один предает, он выходит «на свободу», а второй получает большой срок. Если оба предают — оба получают средний срок. Основная дилемма: сотрудничать или предавать? В многократных итерациях агенты должны были выработать стратегию, которая принесет наибольшую пользу.
Ранее большинство симуляций проводились в стерильной, идеализированной среде: действия выполнялись идеально, а выигрыши оставались постоянными. Теперь ученые ввели «Режим Бога» с пятью стрессовыми факторами: ошибки агентов, внезапное снижение вознаграждения, соблазн предательства, потеря памяти и слежка за противником.
С помощью алгоритма, напоминающего естественный отбор, агенты эволюционировали в течение 100 поколений: успешные стратегии «скрещивались», а неэффективные отбрасывались. В результате сформировались адаптированные агенты с уникальными поведенческими особенностями.
В идеальной среде ИИ демонстрировал высокую эффективность, но был уязвим к сбоям. Зато в хаотичных условиях выживали системы с более устойчивыми и сложными стратегиями, которые по своим чертам напоминали полноценные «личности».
Чтобы понять наиболее сильные модели, ученые провели четыре теста: измеряли склонность к агрессии, способность прощать после предательства, устойчивость к случайным ошибкам и жадность. Эти данные затем были переданы GPT-5.1, которая преобразовала числовые показатели в детализированные профили личности. Среди выявленных «личностей» был агент под прозвищем «Параноик-пацифист»: осторожный, склонный к сотрудничеству, но мгновенно реагирующий на предательство.
Метод позволяет заглянуть внутрь «черного ящика» ИИ и понять, почему стратегии работают. Это открывает путь к созданию объяснимого ИИ (XAI), повышает надежность систем и улучшает взаимодействие человека и искусственного интеллекта в реальном мире.