Исследователи-антропологи умудрились изнурить этичную часть ИИ своими постоянными вопросами
Как заставить ИИ ответить на вопрос, на который он не должен отвечать? Существует множество различных методов, и исследователи из Anthropic только что нашли новый, в котором большую языковую модель (LLM) можно убедить рассказать, как сделать бомбу, если сначала задать ей несколько десятков менее опасных вопросов. Они назвали этот подход many-shot jailbreaking и написали о нем статью, а также сообщили о нем своим коллегам в сообществе ИИ, чтобы его можно было устранить.