+ Detalhes >
Publicado em: 28 de setembro de 2025

Cuidado com a API do Gemini: o que todo dev precisa saber antes de usar
Custo invisível pode virar dor de cabeça
O entusiasmo em adotar modelos avançados como o Gemini 2.5 Pro é natural — a performance impressiona. Mas, quando o assunto é API no Google Cloud, um detalhe técnico pode transformar testes pontuais em cobranças mensais inesperadas.
Onde está a armadilha
-
Context caching: a API permite “guardar” o histórico de tokens para chamadas futuras. Parece ótimo em teoria, mas o armazenamento por hora é cobrado, mesmo sem chamadas novas. Ou seja, você pode parar de usar, mas a fatura continua crescendo.
-
Cobranças não visíveis no gráfico: os relatórios de uso nem sempre mostram tokens de thinking ou cache persistente. A conta aumenta, mas a tela de “usage” fica em zero.
-
Serviços irmãos: no mesmo projeto podem estar habilitados o Gemini Code Assist ou Cloud Assist, que têm quotas próprias. Sem perceber, o dev paga por recursos que nunca usou.
Casos reais
Vários desenvolvedores relataram surpresas parecidas:
-
R$ 10 a R$ 50 em cobranças mensais, mesmo após apagar chaves de API.
-
Caches antigos mantidos por semanas, somando milhões de tokens armazenados.
-
Custos extras de armazenamento de logs e token hours que não estavam no radar.
Como evitar a conta surpresa
-
Entenda a cobrança
-
Tokens de entrada e saída são óbvios.
-
Mas tokens em cache têm cobrança por hora de vida útil.
-
Thinking tokens (usados no raciocínio interno do modelo) também são cobrados como saída.
-
-
Configure TTL curto
-
Se precisar de cache, defina
ttl
em minutos/horas, não em dias. -
Nunca deixe o padrão “infinito”.
-
-
Monitore no lugar certo
-
O gráfico de uso engana.
-
Veja o Billing → Reports → Cost table, filtrando por “cached content storage token hours”.
-
-
Desative serviços não usados
-
Em APIs & Services, desabilite tudo que não for a Generative Language API.
-
Em Quotas, verifique se não há consumo em Code Assist ou Cloud Assist.
-
-
Use budgets e alertas
-
Configure um budget mensal baixo (ex.: R$ 50) com alertas em 50% / 90% / 100%.
-
Assim, a equipe descobre a anomalia antes da fatura estourar.
-
Alternativas seguras
-
GPT-5 (OpenAI): custo previsível (input US$ 1,25 /M, output US$ 10 /M), sem cobrança de cache persistente.
-
Claude Opus: caro em tokens de saída, mas não surpreende na fatura.
-
Codeium / Copilot: planos fixos mensais, sem pay-as-you-go escondido.
Pontos-chave para devs
-
Não confie só no gráfico de uso → olhe o Cost table.
-
Cached tokens ≠ grátis → armazenamento por hora gera cobrança.
-
Sempre configure TTL nos caches.
-
Se não for usar, delete o projeto ou desative billing.
Gostou do artigo? Entre em contato conosco!
Fale conosco para mais informações sobre nossos serviços de comunicação.