Aqui-v4.0 & Aqui-v4.0 Thinking: Nova Era em IA, Benchmarks e Agentes

Aqui-v4.0 & Aqui-v4.0 Thinking: O Novo Padrão em Inteligência Artificial Útil

Aqui-v4.0 é o ápice da nossa jornada em IA: grande, ousado, inovador. Um feito de semanas de dedicação, engenho e paixão do nosso time, reunindo o que há de mais avançado em inteligência artificial. Não é só um novo modelo — é a síntese do que sonhamos para o futuro da criatividade, produtividade e colaboração.

Com Aqui-v4.0 e Aqui-v4.0 Thinking, você experimenta o poder de agentes colaborativos, a fluidez do raciocínio em múltiplas etapas e a confiança de respostas afiadas. É IA que pensa, cria e resolve — sem esforço, sem limites, pronta para transformar o seu dia a dia.

Benchmarks de Programação

Benchmark	Aqui-v4.0 Thinking	DeepSeek-V3.2-Exp Thinking	GLM-4.6 Thinking	Claude Sonnet 4.5 Thinking	Aqui-v3.0 Thinking	GPT-5-Codex high	Aqui-v4.0 non-Thinking
SWE-Bench Verified	76.5	67.8	68.0	77.2	69.7	74.5	73.4
TerminalBench Hard	41.7	29.2	23.1	33.3	37.2	35.5	35.4
TAU2-Bench Telecom	79.9	53.5	75.9	78.1	80.5	86.8	74.5
Humanity's Last Exam	30.2	19.8	17.2	17.3	20.3	25.6	9.6
AIME 2025	100.0	89.3	93.9	88.0	92.9	94.2	79.6
GPQA Diamond	88.4	79.9	81.0	83.4	85.4	83.7	80.6
Média	69.5	56.6	59.9	62.9	64.3	66.7	58.9

Média Geral

Aqui-v4.0 Thinking 69.5

GPT-5-Codex high 66.7

Aqui-v3.0 Thinking 64.3

Claude Sonnet 4.5 Thinking 62.9

GLM-4.6 Thinking 59.9

Aqui-v4.0 non-Thinking 58.9

DeepSeek-V3.2-Exp Thinking 56.6

Modelos não-Thinking

Benchmark	Aqui-v4.0	DeepSeek-V3.1-Terminus	Qwen3-Max-Instruct	Kimi-K2-Instruct-0905	Aqui-v3.0	Claude Sonnet 4.5
SWE-Bench Verified	73.4	68.4	69.6	69.2	65.6	77.2
AIME 2025	79.6	53.7	80.7	57.3	70.9	37.0
MMLU-Pro	86.4	83.6	84.1	81.9	86.5	86.0
GPQA Diamond	80.6	75.1	76.4	76.7	77.8	72.7
IFBench	56.5	41.2	44.1	41.7	54.3	42.7
AA-LCR	64.7	43.3	46.7	52.3	59.6	51.3
TerminalBench Hard	35.4	29.8	19.1	22.7	30.1	27.0
TAU2-Bench Telecom	74.5	37.1	74.3	73.4	72.5	70.5
AA-Index	59.7	45.7	55.2	50.4	56.0	48.5

Artificial Analysis

Aqui-v4.0 59.7

Aqui-v3.0 56.0

Qwen3-Max-Instruct 55.2

Kimi-K2-Instruct-0905 50.4

DeepSeek-V3.1-Terminus 45.7

Claude Sonnet 4.5 48.5

Modelos Thinking

Benchmark	Aqui-v4.0 Thinking	GPT-5 high	Aqui-v3.0 Thinking	Grok 4	Claude Sonnet 4.5 Thinking	Gemini 2.5 Pro
SciCode	49.5	42.9	43.9	45.7	44.7	42.8
AIME 2025	100.0	94.3	92.9	92.7	88.0	87.7
MMLU-Pro	89.8	87.1	87.6	86.6	87.5	86.2
GPQA Diamond	88.4	85.4	85.4	87.7	83.4	84.4
IFBench	77.7	73.1	75.7	53.7	57.3	48.7
AA-LCR	69.6	75.6	70.5	68.0	65.7	66.0
Humanity's Last Exam	30.2	26.5	20.3	23.9	17.3	21.6
TAU2-Bench Telecom	80.0	84.8	81.0	74.1	78.1	54.1
AA-Index	71.6	68.5	68.2	65.3	61.3	59.6

Artificial Analysis

Aqui-v4.0 Thinking 71.6

GPT-5 high 68.5

Aqui-v3.0 Thinking 68.2

Grok 4 65.3

Claude Sonnet 4.5 Thinking 61.3

Gemini 2.5 Pro 59.6

Taxa de Alucinação: Segurança e Confiabilidade

Modelo	Taxa de Alucinação (%)
Aqui-v4.0	1.1
DeepSeek-V3.1-Terminus	5.5
Qwen3-Max-Instruct	3.8
Kimi-K2-Instruct-0905	6.2
Aqui-v3.0	5.6
Claude Sonnet 4.5	4.2
Aqui-v4.0 Thinking	0.8
GPT-5 high	1.4
Aqui-v3.0 Thinking	4.2
Grok 4	4.8
Claude Sonnet 4.5 Thinking	5.5
Gemini 2.5 Pro	2.6

Thinking Heavy: O Futuro Chega em 10 de Outubro

Na próxima semana, o Aqui-v4.0 Thinking Heavy será lançado, trazendo 4 agentes colaborativos e performance ainda mais impressionante em tarefas de raciocínio, programação, ciência e colaboração multiagente. Prepare-se para a era dos agentes autônomos de verdade.

Resumo: Por que migrar para o Aqui-v4.0?

Resultados práticos: Resolve mais tarefas de programação, matemática e raciocínio do que qualquer geração anterior.
AutoSummon: colaboração automática entre agentes, sem configuração manual — você só pede, a IA resolve.
Segurança real: Taxa de alucinação mínima, respostas mais confiáveis para uso profissional e pessoal.
Thinking Heavy (4 agentes): chega em 10/10, ampliando ainda mais as possibilidades para quem precisa de IA realmente avançada.
Disponível para todos: Use agora mesmo no AquiGPT, sem fila, sem enrolação.

Experimente o Aqui-v4.0 e Aqui-v4.0 Thinking no AquiGPT e descubra como é trabalhar, aprender e criar com a IA mais avançada e útil do Brasil.