Nova geração de modelos multimodais promete reduzir custo de inferência em 60%
Atualização foca em agentes autônomos, contexto longo e execução local em dispositivos de borda.
A nova arquitetura introduz um sistema de roteamento dinâmico que ativa apenas as camadas necessárias para cada tipo de tarefa.
Em benchmarks internos, o modelo apresentou ganho consistente em raciocínio matemático e compreensão de código, mantendo latência baixa.
A empresa destacou a possibilidade de execução parcial em dispositivos móveis sem comprometer privacidade.