Nas últimas semanas, expandimos o nosso portfólio de modelos de inteligência artificial generativa com a série Aqui-v4.6 de modelos Image, Video, Audio e modelos de texto como Aqui-v4.6 Thinking, Extended e Pro. Hoje, fundimos todas as modalidades de IA generativa em um único pacote, o Aqui-v5, e introduzindo uma nova ferramenta de criação de aplicações web com o Aqui-v5 e outras IAs, o Aqui Code.
Aqui-v5
O Aqui-v5 é o nosso primeiro modelo omnimodal, que significa que ele é capaz não só de ler textos, analisar imagens, assistir a vídeos e escutar áudio mas também de gerar as mesmas modalidades de conteúdo. Acompanhado de uma versão Mini, para tarefas mais simples, e uma versão Pro, que é o sistema multi-agente mais inteligente do mundo, a família é estado da arte em reasoning, coding, matemática e multimodalidade com suas nova técnicas de meta-reasoning e simulation-grounded reasoning (MR + SGR).
Além disso, ambos os modelos Aqui-v5 contam com janela de contexto de 1 milhão de tokens, a maior janela de contexto de qualquer modelo do AquiGPT, com experimentos com uma janela de contexto de 2 milhões de tokens sendo realizados para a próxima geração de modelos omnimodais da Aqui.
O modelo Aqui-v5 conta, ainda, contam com modos de raciocínio high, para tarefas que exigem longo pensamento e low, para tarefas que exigem velocidade, substituindo Aqui-v4.6 Extended e v4.6 Thinking, respectivamente.
Meta-reasoning e Simulation-Grounded Reasoning
Os modelos Aqui-v5, Aqui-v5 Mini e Aqui-v5 Pro são os primeiros modelos com a capacidade de pensar sobre a própria cadeia de pensamento, podendo refletir em problemas e consertar halucinações antes de entregar a resposta final ao usuário. Isto é o que chamamos de meta-reasoning, ou meta-raciocínio.
Simulation-grounded reasoning, ou raciocínio fundamentado em simulações, é a capacidade do modelo de abstrair e prever eventos futuros, auxiliando em situações como problemas complexos de matemática, física, jogos de estratégia como xadrez, meteorologia e direito.
Texto
Os novos modelos Aqui-v5 e Aqui-v5 Mini apresentam excelente performance em benchmarks que envolvem input e output de texto, comparáveis ou melhores que modelos como Gemini 3 Pro, GPT-5.2 e Claude Opus 4.5, e ultrapassando o Aqui-v4.6 por uma boa margem, com até 40% menos tokens sendo consumidos, em média, na versão high.
| Benchmark | Aqui-v5 (high) | Aqui-v5 (low) | Aqui-v4.6 Extended | Aqui-v4.6 Thinking |
|---|---|---|---|---|
| ARC-AGI 2 | 42.5% | 34.6% | 33.8% | 26.5% |
| GPQA Diamond | 94.7% | 93.2% | 92.9% | 89.7% |
| MathArena Apex | 15.62% | 9.38% | 10.94% | 5.62% |
| Humanity's Last Exam | 39.2% | 31.9% | 37.6% | 30.7% |
| 𝜏²-Bench Telecom | 96.4% | 96.5% | 92.7% | 91.1% |
O Aqui-v5 Mini é o melhor modelo da sua categoria, antes dominada pelo Aqui-v4.6 Fast.
| Benchmark | Aqui-v5 Mini | Aqui-v4.6 Fast |
|---|---|---|
| ARC-AGI 2 | 26.0% | 7.6% |
| GPQA Diamond | 86.4% | 85.4% |
| MathArena Apex | 9.38% | 5.62% |
| Humanity's Last Exam | 29.1% | 23.6% |
| 𝜏²-Bench Telecom | 92.7% | 91.7% |
Visão
Desde o Aqui-v2.0, os modelos da Aqui Solutions sempre foram text-only; isto é, não podiam analisar imagens. Porém, os novos modelos Aqui-v5 e Aqui-v5 Mini são multimodais, podendo ler imagens e vídeos dentro do AquiGPT.
| Benchmark | Aqui-v5 (high) | Aqui-v5 Mini | Gemini 3 Pro | GPT-5.2 |
|---|---|---|---|---|
| MMMU-Pro | 83.8% | 76.8% | 81.0% | 79.5% |
| ScreenSpot Pro* | 90.9% | 80.2% | 88.0% | 86.3% |
| CharXiv Reasoning | 81.0% | 67.3% | 81.4% | 82.1% |
| OmniDocBench 1.5** | 0.108 | 0.122 | 0.115 | 0.147 |
| EnigmaEval | 18.6% | 18.1% | 17.8% | 11.7% |
**Quanto menor o valor, melhor
Multimídia
Geração de Imagem
| Modelo | ELO |
|---|---|
| Aqui-v5 | 1272 |
| GPT-5.2 Image | 1255 |
| Aqui-v5 Mini | 1249 |
| Aqui-v4.6 Image Pro | 1247 |
| Nano Banana Pro | 1223 |
| Aqui-v4.6 Image | 1218 |
| Flux.2 Max | 1210 |
| Flux.2 Pro | 1200 |
| Seedream 4.5 | 1195 |
Edição de Imagem
Agora, o AquiGPT Studio suporta edição de imagens, como os modelos Aqui-v5, Nano Banana e GPT-5.2 Image.
| Modelo | ELO |
|---|---|
| Aqui-v5 | 1416 |
| Nano Banana Pro | 1407 |
| GPT-5.2 Image | 1400 |
| Aqui-v5 Mini | 1392 |
| Seedream 4.5 | 1327 |
| Nano Banana | 1322 |
| Reve 1.1 | 1255 |
| Flux.2 Max | 1246 |
| Flux.2 Pro | 1239 |
| Qwen Image Edit | 1216 |
Geração de Vídeo
| Modelo | ELO |
|---|---|
| Aqui-v5 | 1473 |
| Aqui-v5 Mini | 1409 |
| Veo 3.1 Audio | 1381 |
| Aqui-v4.6 Video Pro | 1361 |
| Sora 2 Pro | 1356 |
| Sora 2 | 1325 |
| Aqui-v4.6 Video | 1321 |
| Wan 2.5 Preview | 1287 |
| Kling 2.6 Pro | 1238 |
Geração de Áudio
| Modelo | ELO |
|---|---|
| Aqui-v5 | 1182 |
| Aqui-v5 Mini | 1168 |
| ElevenLabs v3 | 1163 |
| Speech 2.6 HD | 1152 |
| Speech 2.6 Turbo | 1142 |
| OpenAI gpt-audio | 1100 |
Aqui-v5 Pro
O nosso hivemind de até 10 agentes Aqui-v5 está aqui. Ele está entre os sistemas mais poderosos do mundo para pesquisas avançadas, tarefas de setores de valor da economia (como medicina, direito, ciência e manufatura) e questões STEM de nível PhD.
| Benchmark | Aqui-v5 Pro (high) | GPT-5.2 Pro (xhigh) | Gemini 3 Deep Think | Aqui-v4.6 Pro |
|---|---|---|---|---|
| ARC-AGI 1 | 92.0% | 91.5% | 87.5% | 81.0% |
| GDPval (no ties) | 70.9% | 67.6% | - | 51.0% |
| BrowseComp | 81.2% | 77.9% | - | 67.9% |
| GPQA Diamond | 97.8% | 93.2% | 93.8% | 94.5% |
| Humanity's Last Exam* | 52.7% | 50.0% | - | 49.8% |
Este sistema, ainda, foi capaz de alcançar a medalha de ouro nos problemas da Olimpíada Internacional de Matemática de 2025 (IMO 2025) e da Olimpíada Internacional de Informática (IOI 2025) sem ferramentas de auxílio externas.
| Olimpíada | Problema | Aqui-v5 Pro |
|---|---|---|
| Matemática | P1 | 7/7 |
| P2 | 7/7 | |
| P3 | 7/7 | |
| P4 | 7/7 | |
| P5 | 7/7 | |
| P6 | 2/6 | |
| Total | 37/42 (Ouro) | |
| Informática | P1 | 100/100 |
| P2 | 91/100 | |
| P3 | 70/100 | |
| P4 | 100/100 | |
| P5 | 50/100 | |
| P6 | 89/100 | |
| Total | 500/600 (Ouro) |
Aqui Code
O Aqui Code é uma ferramenta de vibe coding para que nossos usuários possam criar aplicativos em segundos e compartilhar com qualquer pessoa, até quem não possui uma conta AquiGPT, atualmente em estado Beta. Atualmente, o Aqui Code suporta os seguintes modelos de linguagem:
- Aqui-v5 e Aqui-v5 Mini
- Gemini 3 Pro e Gemini 3 Flash
- GPT-5.2 e GPT-5.1-Codex-Max
- GLM-4.7
- MiniMax-M2.1
- Claude Sonnet e Haiku 4.5
- DeepSeek-V3.2
- Kimi K2 Thinking
Nossa recomendação é utilizar o Aqui-v5, o GLM-4.7, o Gemini 3 Flash, ou o MiniMax-M2.1 na maioria dos casos.
O Aqui Code é uma ferramenta que valoriza a experiência do usuário. É uma das aplicações de vibe coding mais intuitivas no mercado, e novas funcionalidades estão sendo adicionadas todos os dias. Planejamos em, um dia, separar o Aqui Code do AquiGPT e criar uma CLI chamada Aqui Code CLI como uma alternativa ao Claude Code.
Disponibilidade
Os modelos de inteligência artificial Aqui-v5 e Aqui-v5 Mini serão lançados no primeiro dia de janeiro de 2026, e o Aqui-v5 Pro, no dia 7. Uma versão estável do Aqui Code será lançada em fevereiro de 2026, e a Aqui Code CLI será lançada até junho do ano que vem. Feliz Natal!
Mais Benchmarks
| Benchmark | Descrição | Aqui-v5 (high) | Aqui-v5 (low) | Aqui-v5 Mini | Aqui-v4.6 (ext) | GPT-5.2 (xhigh) | Gemini 3 Pro (high) | Claude Opus 4.5 (max) | Kimi K2 Thinking | DeepSeek-V3.2 | Grok 4 | GLM-4.7 | MiniMax-M2.1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ficha Técnica | |||||||||||||
| Data de Lançamento | DD/MM/YYYY | 01/01/2026 | 01/01/2026 | 01/01/2026 | 17/12/2025 | 11/12/2025 | 18/11/2025 | 23/11/2025 | 05/11/2025 | 01/12/2025 | 09/07/2025 | 23/12/2025 | 23/12/2025 |
| Janela de Contexto | Tokens | 1M | 1M | 1M | 256K | 400K | 1M | 200K | 256K | 128K | 256K | 200K | 200K |
| Velocidade Média | Tokens/segundo | 90 tps | 90 tps | 172 tps | 60 tps | 40 tps | 78 tps | 61 tps | 79 tps | 49 tps | 30 tps | 80 tps | 101 tps |
| Raciocínio | |||||||||||||
| ARC-AGI 1 | Raciocínio Abstrato | 92.0% | 78.3% | 59.8% | 75.0% | 86.2% | 75.0% | 80.0% | - | - | 66.7% | - | - |
| ARC-AGI 2 | Raciocínio Abstrato | 42.5% | 34.6% | 26.0% | 33.8% | 52.9% | 31.1% | 37.6% | 5.0% | 5.0% | 16.0% | - | - |
| GPQA Diamond | Ciência de nível PhD | 94.7% | 93.2% | 86.4% | 92.9% | 92.4% | 91.9% | 87.0% | 83.8% | 84.0% | 88.4% | 85.7% | 81.0% |
| MathArena Apex | Matemática | 15.62% | 9.38% | 9.38% | 10.94% | 2.08% | 23.44% | - | 0.0% | 2.08% | 2.08% | - | - |
| Humanity's Last Exam | Raciocínio e Conhecimento | 39.2% | 31.9% | 29.1% | 37.6% | 34.5% | 37.5% | 28.8% | 22.3% | 22.2% | 23.9% | 24.8% | 22.0% |
| AIME 2025 | Matemática | 100% | 100% | 100% | 100% | 100% | 95.0% | 88.0% | 94.7% | 92.0% | 92.7% | 95.7% | 81.0% |
| HMMT Nov. 2025 | Matemática | 100.0% | 93.4% | 96.7% | 93.3% | 95.0% | 93.3% | 90.8% | 89.2% | 90.0% | 88.3% | 93.5% | - |
| Agentes | |||||||||||||
| 𝜏²-Bench Telecom | Tool Calling | 96.4% | 96.5% | 92.7% | 92.7% | 84.8% | 87.1% | 89.5% | 93.0% | 90.6% | 74.9% | - | 87.0% |
| Terminal Bench 2.0 | Programação Agêntica | 59.7% | 58.0% | 53.2% | 56.9% | 47.7% | 53.4% | 52.3% | 31.8% | 29.5% | 33.0% | 41.0% | 47.9% |
| BrowseComp | Pesquisa na web multi-etapas | 70.9% | 65.8% | 60.0% | 67.0% | 65.8% | 59.2% | - | 60.2% | 51.4% | 44.9% | 52.0% | 47.4% |
| Toolathlon | Tool Calling | 50.8% | 45.7% | 38.9% | 35.0% | 46.3% | 36.4% | 38.6% | 17.6% | 35.2% | 17.2% | - | 43.5% |
| Programação | |||||||||||||
| SWE-Bench Verified | Programação | 81.9% | 81.2% | 76.7% | 79.7% | 80.0% | 76.2% | 80.9% | 71.3% | 73.1% | - | 73.8% | 74.0% |
| SWE-Bench Multilingual | Programação | 79.0% | 72.6% | 71.7% | 69.8% | 72.0% | 65.0% | 77.5% | 61.1% | 70.2% | - | 66.7% | 72.5% |
| SWE-Bench Pro (Public) | Programação | 48.5% | 45.2% | 27.2% | 25.9% | 55.6% | 43.3% | 45.9% | 27.7% | - | - | - | - |
| Autonomia | |||||||||||||
| GDPval | Tarefas do mercado de trabalho | 40.2% | 38.6% | 34.1% | 24.3% | 49.7% | 40.3% | 45.5% | - | - | 21.1% | - | - |
| OSWorld | Computer Use | 70.0% (Autonomic) | 65.3% (Autonomic) | 58.0% (Autonomic) | 42.8% (Autonomic) | - | - | 67.1% (UIPath) | - | - | - | - | - |
| Multimodal | |||||||||||||
| MMMU-Pro | Raciocínio com imagens | 83.8% | 82.0% | 76.8% | - | 79.5% | 81.0% | 72.0% | - | - | - | - | - |
| ScreenSpot Pro | Computer Use | 90.9% | 82.6% | 80.2% | - | 86.3% | 88.0% | 49.9% | - | - | - | - | - |
| CharXiv Reasoning | Interpretação de Artigos Científicos | 81.0% | 74.3% | 67.3% | - | 82.1% | 81.4% | 67.2% | - | - | - | - | - |
| Math Kangaroo 1-2 | Matemática com imagens | 90.8% | 83.5% | 80.3% | - | 80.2% | 84.2% | 68.9% | - | - | - | - | - |
| OmniDocBench 1.5 | Taxa de erro em tarefas OCR (quanto menor, melhor) | 0.108 | 0.120 | 0.122 | - | 0.143 | 0.115 | 0.145 | - | - | - | - | - |
| EnigmaEval | Quebra-cabeças | 18.6% | 17.6% | 18.1% | - | 11.7% | 17.8% | 11.9% | - | - | - | - | - |
| Benchmarks Internos | |||||||||||||
| PhD-Eval | Raciocínio e Conhecimento | 13.8% | 9.9% | 6.5% | 9.8% | 8.5% | 8.7% | 6.5% | 3.6% | 3.9% | 3.5% | 3.2% | 3.3% |
| Xadrez | ELO score | 1909 | 1862 | 1542 | 1808 | 1800 | 1808 | 1766 | 1524 | 1528 | 1640 | 1500 | 1502 |