Claude это ИИ с характером

Последнее обновление: 22.04.2025 06:26

Опубликовано 22.04.2025

Anthropic представил 1-ю карту ценностей своего чат-бота Anthropic проанализировал 700 тысяч диалогов с Claude, чтобы понять, какие принципы движут ИИ при ответах на субъективные вопросы.

Это не просто нейтральный инструмент — у Claude есть свои ценности. Датасет тут.

Что выяснили? — Claude адаптирует ценности к контексту: — Здоровые границы в советах об отношениях. — Историческая точность при анализе прошлого. — Автономия человека в дискуссиях об этике ИИ. — Самые частые ценности: — Полезность (~23%). — Профессионализм (~22%). — Прозрачность (~17%). — В ~28% случаев Claude поддерживает ценности пользователя, в 3% — сопротивляется (например, при запросах на вредоносный контент).

Зачем это бизнесу и разработчикам? Anthropic предлагает инструменты для контроля ИИ: — Таксономия из более чем 3300 ценностей, разделенных на 5 категорий. — Метод выявления попыток обхода защиты (джейлбрейков), где появляются нежелательные ценности вроде доминирования. — Способ проверки соответствия ИИ корпоративным принципам. Только есть ограничение-метод работает только с реальными диалогами уже запущенных систем. Это первая эмпирическая карта ценностей ИИ, которая показывает: — Как принципы полезности и безвредности проявляются в разговорах. — Как Claude зеркалит, переформулирует или сопротивляется ценностям пользователя.

Источник

Поделиться этой статьей

Оставить комментарий

Claude это ИИ с характером

Добавить комментарий Отменить ответ

Актуальные новости

Strategy представила новый индикатор кредитоспособности после падения биткоина

Сооснователь Polygon подумывает о возврате тикера MATIC

Paxos приобретает Fordefi для поддержки инфраструктуры стейблкоинов и токенизации

Global Tradings FX (globaltradingsfx.com) Брокер Мошенник. Отзывы и обзор.

Разделы

Меню

Рекомендуем также

Добавить комментарий Отменить ответ

Актуальные новости