додому Останні новини та статті Anthropic и безопасность ИИ: Навигация в условиях стремительного технологического роста

Anthropic и безопасность ИИ: Навигация в условиях стремительного технологического роста

Anthropic и безопасность ИИ: Навигация в условиях стремительного технологического роста

В мае 2020 года, когда глобальные локдауны достигли пика, Дип Гангули, работавший в то время в Стэнфордском центре ИИ, почувствовал растущее беспокойство. Представление OpenAI GPT-3 — модели ИИ, экспоненциально превосходящей все предыдущие разработки, — было не просто шагом вперед; это был признак неумолимого ускорения. Гангули обдумывал общественные последствия, осознавая, что темпы перемен опережают подготовку. Он хотел направлять эту эволюцию, а не просто наблюдать за ней.

Это привело его в Anthropic, стартап, основанный бывшими сотрудниками OpenAI, которые разделяли его опасения. Основатели Anthropic считали, что безопасности ИИ уделяется недостаточно внимания, и они хотели создать компанию, которая ставит человечество на первое место. Джек Кларк, бывший директор по политике OpenAI, нанял Гангули, чтобы возглавить небольшую, но критически важную команду: группу по оценке влияния на общество. Их миссия? Обеспечить, чтобы ИИ «позитивно взаимодействовал с людьми», от повседневных взаимодействий до мировой политики.

Суть оценки рисков ИИ

За четыре года Гангули собрал команду всего из девяти человек в штате Anthropic, насчитывающем 2000 сотрудников. Эта группа решает самые сложные вопросы, которые ставит ИИ: его экономические последствия, убедительную силу, потенциал вмешательства в выборы и присущие ему предубеждения. Они опубликовали исследования по этим темам, формируя имидж Anthropic как «безопасного» гиганта ИИ.

Однако их влияние зависит от шаткого баланса. В отрасли, где скорость и прибыль доминируют, небольшой коллектив, посвященный долгосрочному влиянию на человечество, не может иметь неограниченной свободы. Вопрос в том, будут ли руководители, в конечном итоге руководствующиеся финансовыми целями, прислушиваться к предупреждениям, которые могут замедлить рост или выявить уязвимости.

Прозрачность как стратегия

Подход группы по оценке влияния на общество прост: «Мы собираемся говорить правду». В отличие от других компаний, занимающихся ИИ и сосредоточенных на предотвращении очевидного вреда, такого как мошенничество или разработка оружия, команда Гангули ищет «неудобные истины», которые корпорациям невыгодно обнародовать. Они делятся своими выводами внутри компании и за ее пределами, полагая, что прозрачность укрепляет доверие со стороны общественности и политиков.

Это включает в себя честное признание недостатков. Команда открыто обсуждала, как системы Anthropic были использованы для создания откровенного контента и спама, опубликовав исследование, чтобы помочь другим компаниям решить аналогичные проблемы. Эта готовность выявлять неудачи, а не скрывать их, редко встречается в отрасли, часто характеризующейся секретностью.

Создание культуры сотрудничества

Команда развивает культуру сотрудничества, тесно взаимодействуя с другими отделами. Их работа основана на данных, но они также подчеркивают открытое общение. У них даже есть Slack-канал под названием Clio Alerts, где автоматические оповещения о злоупотреблениях ИИ передаются, а члены команды неформально сотрудничают в тренажерном зале или во время поездок на пляж.

Эта сплоченность намеренна. Создавая глубокие личные связи, команда создает пространство, где приветствуются несогласные мнения, а неудобные выводы открыто обсуждаются. Команда также использует шутливую метафору «конуса неопределенности», — подкрепленную настоящим дорожным конусом с нарисованными глазами, — чтобы признать пределы своего понимания.

Отслеживание реального использования ИИ: Система Clio

Одним из главных достижений команды является Clio, система отслеживания использования ИИ в Anthropic. Предназначенная для мониторинга того, как люди взаимодействуют с Claude, чат-ботом Anthropic, Clio напоминает карту слов в режиме реального времени, показывающую популярные темы, от написания сценариев до решения математических задач. Система помогает выявлять как намеренное, так и непреднамеренное использование, в том числе вредоносное.

Прозрачность Clio преднамеренна. Anthropic делится данными с внутренними командами и публикует результаты, даже если они выставляют компанию в негативном свете. Такой подход привел к улучшению мониторинга безопасности, включая более точное выявление скоординированных злоупотреблений и упреждающую идентификацию возникающих рисков.

Проблема долгосрочного влияния

Несмотря на свою приверженность прозрачности, команда работает в корпоративной структуре Anthropic. Доступ к рабочим местам ограничен, а для публикации результатов исследований требуется одобрение. Это создает напряжение между стремлением команды к открытости и необходимостью компании контролировать ситуацию.

Однако члены команды остаются оптимистичными. Они верят, что руководство Anthropic искренне ценит их работу, даже если прямое общение с руководителями нечастое. Успех команды зависит от сохранения этого доверия и продолжения предоставления данных, которые формируют долгосрочную стратегию Anthropic.

В конечном итоге, группа по оценке влияния на общество представляет собой уникальный эксперимент: небольшая группа, которой поручено справляться с человеческими последствиями одной из самых разрушительных технологий в мире. Их будущее зависит от того, сможет ли Anthropic сбалансировать свои амбиции роста со своей приверженностью ответственному развитию ИИ.

Exit mobile version