Anthropic afirma que seu modelo mais recente é de ‘nível mito’, mas com salvaguardas estritas

Em abril, Anthropic apresentou seu modelo “Mythos” ao mundo. O Mythos Preview, supostamente, é tal um modelo poderoso que pode encontrar falhas de segurança em todos os tipos de software. Nas mãos erradas, os malfeitores poderiam abusar do modelo para encontrar vulnerabilidades em programas, serviços e sites dos quais a maioria de nós depende para a vida digital moderna. Na verdade, o Mythos poderia abrir a maior oportunidade de hacking da história. Que lance.

Como tal, a Anthropic pisou no freio do Mythos. Embora afirmasse que acabaria por divulgar o modelo ao público, primeiro precisava teste-o com um grupo limitado de testadores confiáveisno que chama de “Projeto Glasswing”. Para começar, isso significou abrir o modelo aos EUA e a outros governos. Embora Mythos ainda não esteja disponível para pessoas como você ou eu, Anthropic é lançando um novo modelo que promete muitos dos recursos do Mythos, sem os riscos de segurança cibernética que os acompanham.

O que são Fable 5 e Mythos 5 da Anthropic?

Na terça-feira, a Anthropic anunciou seu mais recente modelo, Claude Fábula 5que chama de “modelo da classe Mythos” que é “seguro para uso geral”. A empresa diz que o Fable 5 é supostamente melhor e mais capaz do que qualquer um dos seus outros modelos públicos. A Anthropic afirma que o Fable 5 está no topo da maioria dos benchmarks, incluindo engenharia de software, trabalho de conhecimento, tarefas de visão e pesquisa. A empresa chega a dizer que “quanto mais longa e complexa a tarefa, maior será a vantagem do Fable 5 sobre nossos outros modelos”. Há também o Mythos 5, que parece ser o Fable 5 sem certas limitações, mas não está disponível para o público em geral.

De acordo com o benchmarking da Anthropic, Fable 5 e Mythos 5 superam Mythos Preview, Opus 4.8, OpenAI’s GPT-5.5 e Google’s Gemini 3.1 Pro, nas seguintes categorias: codificação de agente, trabalho de conhecimento, raciocínio espacial, uso de ferramentas, jurídico, raciocínio multidisciplinar (sem ferramentas), biologia, segurança cibernética e saúde. O Mythos Preview consegue uma vitória no uso do computador e no raciocínio multidisciplinar (com ferramentas), mas é uma vitória sobre todos os outros modelos.

gráfico de desempenho do fable 5 em comparação com outros modelos

Crédito: Antrópico

A Anthropic diz que o Fable 5 foi capaz de concluir um projeto de codificação que uma equipe levaria mais de dois meses para terminar em apenas um dia. Ele pode reconstruir o código-fonte de um aplicativo da web apenas a partir de capturas de tela. Ele pode vencer Pokémon FireRed com um “arnês mínimo, apenas para visão”, enquanto outros modelos de Claude tinham dificuldade para jogar. Foi capaz de jogar Mate o Pináculo e alcançou o ato final três vezes mais vezes do que o Opus 4.8 Mythos 5 se baseia em suas habilidades de pesquisa, com estatísticas aprimoradas no design de medicamentos, bem como novas hipóteses sobre questões de biologia molecular e a capacidade de produzir novas pesquisas em genômica.

Como a Anthropic está mantendo o Fable 5 seguro?

Essa é a grande questão: se Fable 5 é da classe Mythos, como você pode garantir que seja seguro lançá-lo ao público em geral? Um malfeitor não poderia aproveitar as capacidades do Fable 5 e forçá-lo a descobrir e divulgar vulnerabilidades de segurança?

A Antrópico diz que já descobriu isso. Embora Fable 5 possa ser do nível Mythos em muitos aspectos, a empresa diz que os testes do Projeto Glasswing produziram um modelo com as salvaguardas adequadas para um lançamento público. O Fable 5 procura “classificadores”, ou tópicos altamente delicados, que sabe que não deveria responder. O que isso significa é o seguinte: quando o Fable 5 recebe uma solicitação que acredita ter a ver com segurança cibernética, biologia, química ou destilação, ele não responde à pergunta em si. Em vez disso, ele passa a consulta para o Opus 4.8, o modelo “próximo com maior capacidade” da Anthropic. O modelo ainda deve ser poderoso o suficiente para fornecer respostas precisas, mas não capaz de fornecer a usuários mal-intencionados as ferramentas necessárias para explorar outras pessoas.

O que você acha até agora?

A Anthropic diz que suas novas proteções são cautelosas e conservadoras e podem ser um exagero. Solicitações benignas podem disparar acidentalmente os alarmes de segurança do Fable 5, mas isso supostamente acontece cerca de 5% das vezes. Como tal, a Anthropic diz que o Fable 5 é capaz de lidar com solicitações sozinho cerca de 95% do tempo. Além disso, a empresa descobriu que, após um programa de recompensas por bugs, nenhum hacker de chapéu branco poderia encontrar um jailbreak universal (ou uma exploração para contornar os protocolos de segurança) após 1.000 horas de testes. Embora uma organização tenha feito progressos na descoberta de um jailbreak, a Anthropic diz estar confiante de que seus protocolos tornam impraticável para os hackers descobrirem os jailbreaks antes da empresa.

Por que desistir de pedidos de biologia e química? A Anthropic diz que a Mythos também é muito boa em auxiliar a pesquisa e o desenvolvimento de terapia genética, o que pode ser um benefício para os cientistas, mas um grande risco nas mãos erradas. Além disso, a Anthropic sabe que existem atores por aí tentando “destilar” as habilidades dos modelos Claude para treinar seus próprios modelos para fazer o que quiserem. Dessa forma, qualquer uma dessas solicitações é inicializada em um modelo de desempenho inferior.

A Anthropic também está fazendo uma mudança em sua política de retenção de dados para Fable 5 e Mythos 5. Com esses modelos, a empresa manterá seus dados por 30 dias – não para treinamento, mas para ajudar na proteção contra futuros ataques cibernéticos e jailbreaks. Fable 5 e Mythos 5 têm o mesmo preço: US$ 10 por milhão de tokens de entrada e US$ 50 por milhão de tokens de saída, o que a Anthropic diz ser menos da metade do preço do Mythos Preview.

Source link

O que são Fable 5 e Mythos 5 da Anthropic?

Como a Anthropic está mantendo o Fable 5 seguro?

Deixe um comentário Cancelar resposta