Patronus AI consegue US$ 50 milhões para construir ‘mundos digitais’ que testam agentes de IA

Os agentes de IA estão se tornando mais sofisticados. Eles estão evoluindo da resposta a perguntas para a execução autônoma de tarefas complexas em várias etapas.

Mas antes que se possa confiar nestes agentes para reservar viagens ou realizar análises financeiras em nome dos utilizadores, os fornecedores de modelos e as startups que constroem esses agentes querem garantir que tenham um desempenho fiável numa vasta gama de cenários.

Os laboratórios de IA costumam usar benchmarks para mostrar as proezas de seus modelos, mas uma pontuação alta, mesmo em um benchmark orientado a agentes, não prova realmente que uma IA pode realizar corretamente vários trabalhos complexos do mundo real.

Patrono IAuma startup fundada em 2023 pelos ex-pesquisadores da Meta AI Anand Kannappan e Rebecca Qian, está ajudando fabricantes de modelos e empresas a ajustar modelos para fazer exatamente isso, construindo ambientes digitais simulados para avaliar o desempenho dos agentes.

A startup sediada em São Francisco deve estar resolvendo um problema importante. Praticamente todos os laboratórios de IA de ponta e muitas startups emergentes são agora clientes, de acordo com Glenn Solomon, diretor administrativo da Notable Capital, que descreve a demanda pelos ambientes simulados da empresa como quase insaciável.

A receita da Patronus cresceu 15 vezes no ano passado, alimentando um interesse significativo dos investidores. Na quinta-feira, a empresa anunciou uma rodada Série B de US$ 50 milhões liderada pela Greenfield Partners, com a participação da Notable Capital, Lightspeed, Datadog e Samsung. O financiamento eleva o financiamento total da empresa para US$ 70 milhões.

A Patronus usa o que chama de “modelos de mundo digital” para criar réplicas de sites e sistemas internos. Nesses ambientes, os agentes são testados após o treinamento usando aprendizado por reforço, que recompensa iterativamente a conclusão bem-sucedida da tarefa e penaliza os erros.

Os laboratórios de IA veem grande valor nessas simulações digitais porque dão aos agentes a chance de experimentar cenários diferentes, às vezes imprevisíveis. A empresa compara sua abordagem à forma como a Waymo treinou carros autônomos, primeiro construindo mundos sintéticos para testar veículos contra perigos raros, como mau tempo ou uma criança correndo atrás de uma bola.

A diferença com os agentes de IA é que eles tendem a usar atalhos, o que significa que não conseguem concluir a tarefa corretamente. “Patronus é realmente bom em detectar hacks e garantir que eles responsabilizem os modelos”, disse Solomon.

Atualmente, a Patronus está fornecendo seus mundos digitais simulados para engenharia de software e finanças, mas isso é apenas o começo, de acordo com Kannappan.

“Hoje estamos muito focados nos problemas que são verificáveis, ou seja, nos problemas que você pode verificar e verificar imediatamente, mas há muito mais áreas que não são verificáveis ou são muito difíceis de verificar”, disse ele.

Só porque esses processos são verificáveis não significa que sejam simples. “Queremos ser capazes de realmente criar o ambiente no qual você possa operar um agente que possa funcionar por 10 horas, 10 dias ou 10 semanas”, disse Kannappan.

Quanto aos rivais, Patronus acredita que está competindo principalmente contra as equipes internas que os laboratórios de IA já construíram para avaliar o comportamento dos agentes. Enquanto empresas de dados humanos como Mercor e Surge ajudam os criadores de modelos com aprendizagem por reforço, a Patronus opera de forma diferente, avaliando como os agentes se comportam sem qualquer envolvimento humano.

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Source link

Deixe um comentário Cancelar resposta