Anthropic представил 1-ю карту ценностей своего чат-бота Anthropic проанализировал 700 тысяч диалогов с Claude, чтобы понять, какие принципы движут ИИ при ответах на субъективные вопросы.
Это не просто нейтральный инструмент — у Claude есть свои ценности. Датасет тут.
Что выяснили? — Claude адаптирует ценности к контексту: — Здоровые границы в советах об отношениях. — Историческая точность при анализе прошлого. — Автономия человека в дискуссиях об этике ИИ. — Самые частые ценности: — Полезность (~23%). — Профессионализм (~22%). — Прозрачность (~17%). — В ~28% случаев Claude поддерживает ценности пользователя, в 3% — сопротивляется (например, при запросах на вредоносный контент).
Зачем это бизнесу и разработчикам? Anthropic предлагает инструменты для контроля ИИ: — Таксономия из более чем 3300 ценностей, разделенных на 5 категорий. — Метод выявления попыток обхода защиты (джейлбрейков), где появляются нежелательные ценности вроде доминирования. — Способ проверки соответствия ИИ корпоративным принципам. Только есть ограничение-метод работает только с реальными диалогами уже запущенных систем. Это первая эмпирическая карта ценностей ИИ, которая показывает: — Как принципы полезности и безвредности проявляются в разговорах. — Как Claude зеркалит, переформулирует или сопротивляется ценностям пользователя.