O novo modelo mundial da Decart pode simular horas de direção fotorrealista – com algumas ressalvas

A startup de IA Decart revelou na quarta-feira o Oasis 3, seu mais recente modelo de mundo interativo que pode gerar ambientes de direção fotorrealistas em tempo real, aprendeu exclusivamente o TechCrunch. O modelo está atualmente disponível via API.

A startup tem como alvo inicial empresas de veículos autônomos que precisam simular cenários de direção raros em escala e planeja expandir para robótica e outras aplicações físicas de IA. Mas a maior aposta está nos desenvolvedores: ao oferecer acesso à API desde o primeiro dia, a Decart está tentando construir um ecossistema de desenvolvedores em torno de modelos mundiais, muito parecido com o que a OpenAI fez com os modelos de linguagem.

“Será o primeiro modelo mundial utilizável no qual as pessoas poderão realmente programar”, disse Dean Leitersdorf, cofundador e CEO da Decart, ao TechCrunch. “Acho que toda uma comunidade de desenvolvedores surgirá em cima disso.”

A startup já tem uma comunidade de mais de 100.000 desenvolvedores, muitos dos quais estão construindo produtos com base em seu modelo de vídeo em tempo real Lucy, principalmente em comércio eletrônico e transmissão ao vivo. Oasis 3 é baseado nesse modelo básico e representa o avanço da empresa na IA física. O preço do acesso custa US$ 0,02 por segundo, e o preço empresarial depende dos casos de uso, disse Decart.

Decart está jogando em uma arena de modelos mundiais cada vez mais lotada. No ano passado, o Google lançou o Genie 3 em uma prévia da pesquisa, o World Labs de Fei-Fei Li lançou o Marble para casos de uso comercial e startups de geração de vídeo como Luma e Runway também estão traduzindo seus modelos de vídeo com reconhecimento de física em modelos mundiais.

O lançamento do Oasis 3 ocorre algumas semanas depois de Decart, de dois anos, arrecadar US$ 300 milhões, o que Leitersdorf diz ter seguido “enormes aumentos de demanda pelos modelos que construímos” em comércio eletrônico, streaming ao vivo e IA física. A rodada aumentou a avaliação da Decart para quase US$ 4 bilhões e trouxe uma série de investidores estratégicos, como Toyota, Adobe e eBay. Todas essas empresas são clientes potenciais, diz Leitersdorf. A Nvidia, uma investidora existente, também participou da rodada.

A vantagem do Oasis 3 está no fotorrealismo de seus modelos e na capacidade de geração infinita. Isso se deve a alguma magia de eficiência por parte da Decart, alimentada por outro produto principal da empresa: o software DOS (Decart Optimization Stack), que permite que os modelos sejam executados com eficiência em hardware Nvidia, Amazon e Google, tornando seus modelos muito mais baratos de operar do que os concorrentes.

“Isso é construído sobre toda a nossa pilha de tempo real, que otimizamos até o hardware”, disse Leitersdorf. “Ao sermos tão integrados verticalmente, somos capazes de ser mais do que uma ordem de grandeza mais baratos do que qualquer outra pessoa na indústria para executar esses modelos.”

Os modelos da startup são tão eficientes, segundo Leitersdorf, que ela gastou “drasticamente menos” de US$ 100 milhões durante sua existência.

O Oasis 3 gera ambientes multicâmeras fisicamente precisos – uma frontal e duas laterais – para sistemas de treinamento e teste. E em vez de oferecer demonstrações limitadas e visualizações de pesquisas, o Decart permite que os desenvolvedores gerem cenários infinitamente.

Comparado com outros modelos que experimentei, como o Genie 3 do Google ou o Marble do World Labs, o Oasis 3 oferece os ambientes mais fotorrealistas a partir de um único prompt de texto que já vi. E o fato de você poder interagir com eles por horas sugere um nível de eficiência que pode faltar aos rivais da Decart.

Mas ao permitir gerar um mundo por tanto tempo, o modelo também se degrada significativamente.

Em meus testes, descobri que o sistema poderia configurar consistentemente uma cena inicial forte que correspondesse ao prompt, mas a integridade temática degradou-se rapidamente à medida que eu avançava pelo mundo. Eu pedi para gerar uma rua da cidade de Nova York pela manhã, e funcionou lindamente. Mas à medida que eu dirigia, o ambiente parecia menos com Nova York e mais com uma versão padrão de qualquer cidade urbana ocidental.

Quando tentei dar meia-volta e voltar ao cruzamento inicial, ele desapareceu, sendo substituído por um ambiente totalmente novo. Além disso, os controles não respondem muito bem e muitas vezes perdi o controle de onde o carro estava se movendo (novamente, uma desvantagem compartilhada por outros modelos mundiais que testei). A experiência parecia menos uma simulação coerente e mais um fluxo de consciência desarticulado e semelhante a um sonho que rapidamente se torna absurdo.

Outro problema, que também vi em outros modelos mundiais, é que o carro apenas passará por outros carros, o que significa que o modelo não simula a física adequadamente no ambiente. Leitersdorf chama isso de “grande problema de pesquisa que estamos resolvendo agora”, atribuindo-o ao fato de que “há drasticamente mais dados sobre uma boa direção em comparação com acidentes”.

Parte do que dificulta esta consistência física é fundamental para o funcionamento deste modelo mundial. Oasis 3 é auto-regressivo, o que significa que gera um quadro por vez e analisa o que foi gerado anteriormente para decidir o que vem a seguir. Esta é uma característica arquitetônica fundamental de muitos modelos mundiais e também exige muita computação.

Para manter a consistência, Leitersdorf afirma que a equipe Decart está trabalhando para melhorar o comprimento da memória do modelo.

“Cada quadro que geramos equivale a cerca de 8.000 tokens”, disse ele. “Gerar isso em dezenas de quadros por segundo – são centenas de milhares de tokens por segundo. A janela de contexto é preenchida muito rapidamente. Estamos pesquisando como criar um contexto mais longo para armazenar milhões de tokens a mais e como compactar a memória em menos tokens.”

Leitersdorf acredita que o problema de consistência pode ser parcialmente resolvido na próxima versão do modelo, que permitirá aos usuários começar a gerar mundos com base no vídeo de um ambiente, e não em uma imagem. Ele reconheceu que os modelos mundiais como campo ainda são iniciais.

Ainda assim, o fundador está menos focado nas limitações atuais de sua tecnologia do que no que acontecerá quando os desenvolvedores colocarem as mãos nela.

“Isso me leva de volta aos primeiros dias dos LLMs, quando a OpenAI inventou a API para modelos”, disse ele, apontando para o surgimento de uma comunidade de desenvolvedores que avançou no campo ao encontrar e construir novos casos de uso.

“Quando voltarmos a conversar daqui a três meses, diremos: ‘Aqui estão 100 desenvolvedores que construíram 100 aplicativos diferentes com o Oasis que surpreenderam a todos nós’”, disse ele.

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Source link

Deixe um comentário Cancelar resposta