додому Últimas notícias e artigos Equipe de segurança de IA da Anthropic: navegando pelo impacto humano do...

Últimas notícias e artigos

Equipe de segurança de IA da Anthropic: navegando pelo impacto humano do rápido crescimento tecnológico

03.12.2025

14

<br>

Em maio de 2020, à medida que os confinamentos globais atingiam o pico, Deep Ganguli, então no centro de IA de Stanford, sentiu um desconforto crescente. A revelação do GPT-3 pela OpenAI – um modelo de IA exponencialmente mais avançado do que qualquer coisa anterior – não foi apenas um salto em frente; era um sinal de aceleração implacável. Ganguli considerou as implicações sociais, reconhecendo que o ritmo da mudança estava a ultrapassar a preparação. Ele queria dirigir esta evolução e não simplesmente observá-la.

Isso o levou à Anthropic, uma startup fundada por ex-funcionários da OpenAI que compartilharam suas preocupações. Os fundadores da Anthropic acreditavam que a segurança da IA não estava sendo priorizada o suficiente e queriam construir uma empresa que colocasse a humanidade em primeiro lugar. Jack Clark, ex-diretor de políticas da OpenAI, contratou Ganguli para liderar uma equipe pequena e crítica: o grupo de impactos sociais. Sua missão? Garanta que a IA “interaja positivamente com as pessoas”, desde as interações cotidianas até a política global.

O Núcleo da Avaliação de Risco de IA

Ao longo de quatro anos, Ganguli construiu uma equipe de apenas nove pessoas dentro da força de trabalho de 2.000 funcionários da Anthropic. Este grupo aborda as questões mais espinhosas que a IA coloca: as suas consequências económicas, o poder de persuasão, o potencial de interferência eleitoral e os preconceitos inerentes. Eles publicaram pesquisas sobre esses tópicos, moldando a imagem da Anthropic como o gigante “seguro” da IA.

Contudo, a sua influência depende de um equilíbrio precário. Numa indústria onde a velocidade e o lucro dominam, uma pequena equipa dedicada ao impacto humano a longo prazo pode não ter liberdade indefinida. A questão é se os executivos, em última análise motivados por objectivos financeiros, darão ouvidos aos avisos que poderão abrandar o crescimento ou revelar vulnerabilidades.

Transparência como estratégia

A abordagem da equipe de impactos sociais é simples: “Vamos dizer a verdade”. Ao contrário de outras empresas de IA que se concentram na prevenção de danos óbvios, como fraudes ou armas, a equipa de Ganguli procura “verdades inconvenientes” que as empresas têm pouco incentivo para divulgar. Partilham as suas conclusões interna e externamente, acreditando que a transparência gera confiança junto do público e dos decisores políticos.

Isto inclui admitir abertamente as deficiências. A equipe discutiu abertamente como os sistemas da Anthropic foram explorados para criar conteúdo explícito e spam, publicando a pesquisa para ajudar outras empresas a resolver pontos fracos semelhantes. Esta vontade de expor falhas, em vez de ocultá-las, é rara numa indústria muitas vezes definida pelo sigilo.

Construindo uma Cultura Colaborativa

A equipe promove um ambiente colaborativo, trabalhando em estreita colaboração com outros departamentos. Seu trabalho é orientado por dados, mas eles também enfatizam a comunicação aberta. Eles ainda têm um canal no Slack chamado Clio Alerts, onde sinalizadores automatizados sobre uso indevido de IA são compartilhados e os membros colaboram casualmente na academia do escritório ou em passeios de um dia à praia.

Essa camaradagem é intencional. Ao construir conexões pessoais profundas, a equipe cria um espaço onde opiniões divergentes são bem-vindas e descobertas desconfortáveis são discutidas abertamente. A equipe também usa uma metáfora alegre do “cone de incerteza” – reforçada por um cone de trânsito real com olhos arregalados – para reconhecer os limites de sua compreensão.

Rastreando o uso da IA no mundo real: o sistema Clio

Uma das maiores conquistas da equipe é o Clio, sistema de rastreamento de uso de IA da Anthropic. Projetado para monitorar como as pessoas interagem com Claude, o chatbot da Anthropic, o Clio se assemelha a uma nuvem de palavras em tempo real mostrando tópicos de tendência, desde escrever scripts até resolver problemas matemáticos. O sistema ajuda a identificar usos intencionais e não intencionais, inclusive os prejudiciais.

A transparência do Clio é deliberada. A Anthropic compartilha os dados com equipes internas e publica descobertas, mesmo que elas pintem a empresa de uma forma negativa. Esta abordagem levou a melhorias no monitoramento da segurança, incluindo uma melhor detecção de uso indevido coordenado e uma identificação proativa de riscos emergentes.

O desafio da influência de longo prazo

Apesar do compromisso com a transparência, a equipe atua dentro da estrutura corporativa da Anthropic. O acesso aos espaços de trabalho é restrito e os resultados da pesquisa exigem aprovação. Isso cria uma tensão entre o desejo de abertura da equipe e a necessidade de controle da empresa.

No entanto, os membros da equipe permanecem otimistas. Eles acreditam que a liderança da Anthropic valoriza genuinamente o seu trabalho, mesmo que a comunicação direta com os executivos seja pouco frequente. O sucesso da equipe depende da manutenção dessa confiança e da continuação do fornecimento de insights baseados em dados que moldam a estratégia de longo prazo da Anthropic.

Em última análise, a equipa de impactos sociais representa uma experiência única: um pequeno grupo encarregado de navegar pelas consequências humanas de uma das tecnologias mais disruptivas do mundo. O seu futuro depende de a Anthropic conseguir equilibrar as suas ambições de crescimento com o seu compromisso com o desenvolvimento responsável da IA.