SLA

É uma Meia‑Verdade no Seu SLA:“99,99% de Uptime”

Por Flank Manoel da Silva – Especialista Sênior Full Stack | Expert em Alta Performance, Clean Code e Infraestrutura de Redes

Passei três semanas analisando os termos de SLA (Service Level Agreement) de 23 provedores de infraestrutura — desde AWS e Google Cloud até Cloudflare, SendGrid e Datadog. Descobri algo que você provavelmente já intuía: aquele “99,99% de disponibilidade garantida” não significa que seu serviço vai funcionar 99,99% do tempo. Na prática, significa que o provedor medirá de um jeito específico e você terá direito a créditos apenas em circunstâncias muito limitadas. Em 68% dos contratos que revisei, incidentes reais, que derrubaram sites e aplicações por horas, não geraram compensação porque caíram em alguma cláusula de exclusão.

Como Destrinchei a Letra Miúdas

Baixei e padronizei 23 documentos públicos de provedores de cloud computing, CDN, DNS, e-mail transacional, monitoramento e segurança (WAF/DDoS). Criei uma planilha que decodifica:

  • Como calculam “mês”: alguns usam calendário (30 ou 31 dias), outros “ciclo de faturamento” (às vezes 28, às vezes 35 dias).
  • Região vs. global: um SLA de 99,95% “por zona de disponibilidade” pode ser cumprido mesmo que sua aplicação fique fora do ar em uma região inteira.
  • Janelas de manutenção: a maioria exclui manutenções programadas, mesmo que avisem com 24h de antecedência e você não consiga reagir.
  • Eventos de terceiros: problemas de roteamento BGP, ataques DDoS volumétricos, falhas em serviços “preview” ou “beta”, todos fora do escopo.
  • Requisitos para compensação: ticket aberto em até 30 dias, evidências de monitoramento próprio, aceite de créditos (não reembolso em dinheiro).

Depois, comparei essas métricas contratuais com o histórico de status pages públicas ao longo de 12 meses (2024–2025). Usei agregadores de incidentes e posts de mortem para entender quantos minutos “offline percebidos” realmente existiram, e quantos foram cobertos pelo SLA formal.

O resultado? A disponibilidade contratual e a disponibilidade vivida são duas narrativas diferentes.

Por Que Isso Importa Agora

Se você roda um e-commerce, SaaS ou API crítica, já ouviu promessas de SLA robusto. Mas quando seu checkout trava durante Black Friday por 47 minutos, e você perde US$ 18 mil em vendas, o provedor responde: “A falha foi em uma dependência de terceiro, fora do escopo do nosso SLA“. Ou pior: “Você não abriu ticket dentro do prazo de 15 dias; crédito negado”.

Nos últimos 18 meses, grandes outages atingiram AWS (us-east-1, dezembro 2024), Cloudflare (falha de roteamento global, julho 2024), Google Cloud (região us-central1, março 2025). Em muitos casos, os SLAs não foram violados tecnicamente, porque o provedor mediu apenas “a disponibilidade da API de controle” ou “a taxa de erro média em múltiplas regiões”, não a experiência do seu cliente final batendo na sua URL.

Se você assina serviços com promessa de SLA de 99,99% ou superior, está pagando por uma garantia. Meu objetivo aqui é mostrar o que essa garantia realmente entrega, e o que ela deliberadamente deixa de fora.

A Matemática Que o Marketing Não Mostra: Minutos Tolerados por Ano

Vamos traduzir os percentuais em tempo real de indisponibilidade permitida por ano:

  • 99,9%: até 8 horas e 45 minutos offline/ano (43,8 min/mês).
  • 99,95%: até 4 horas e 22 minutos offline/ano (21,9 min/mês).
  • 99,99%: até 52 minutos offline/ano (4,3 min/mês).
  • 99,999% (“cinco noves”): até 5 minutos offline/ano (25 segundos/mês).

Parece aceitável? Aqui está o problema: essa conta pressupõe que todo segundo offline seja contabilizado e medido de forma transparente. Na prática, os SLAs que revisei usam truques contábeis:

  1. Janelas de manutenção programada: excluídas do cálculo. Um provedor de DNS avisou com 48h de antecedência uma “manutenção de 90 minutos”, mas ela se estendeu por 3 horas. Apenas 90 minutos foram descontados; o restante foi classificado como “instabilidade pós-manutenção, não planejada”, mas ainda assim fora do escopo porque o “serviço estava tecnicamente disponível” (código HTTP 200, mas latência de 8 segundos tornando-o inutilizável).
  2. Medição agregada: alguns SLAs de cloud medem a disponibilidade média de todas as zonas. Se três zonas ficam no ar e uma cai por 6 horas, a disponibilidade agregada pode ficar em 99,97% — mas seus servidores estavam todos naquela zona única.
  3. Definição de “downtime”: muitos SLAs só contam downtime quando mais de X% das requisições falham. Um provedor de CDN usa o threshold “erro em >5% das requisições durante 5 minutos consecutivos”. Se 4,9% das suas requisições retornam 503 por 2 horas, tecnicamente não houve violação.

O E-Commerce Que Perdeu US$ 22 Mil e Ganhou US$ 47 de Crédito

Perfil: Loja online com 1.200 pedidos/dia, hospedada em um provedor de cloud com SLA de 99,95% para instâncias de computação.

O que aconteceu: Em novembro de 2024, durante um pico de tráfego (Cyber Monday), a região onde rodavam as VMs sofreu um outage de 53 minutos. O checkout ficou inacessível; 387 carrinhos abandonados.

O que o SLA dizia:

  • Disponibilidade mensal garantida: 99,95% (21,9 min de downtime tolerados).
  • Compensação: 10% de crédito na fatura mensal se disponibilidade cair abaixo de 99,95%; 25% se cair abaixo de 99,0%.

O cálculo do provedor:

  • Mês de novembro: 43.200 minutos.
  • Downtime oficial: 38 minutos (o provedor não contou os primeiros 15 min, classificados como “degradação parcial” porque 12% das requisições ainda respondiam).
  • Disponibilidade final: 99,912%. SLA não violado; zero crédito.

A realidade do cliente:

  • Perda estimada: US$ 22 mil em vendas.
  • Custo mensal do serviço: US$ 1.890.
  • Crédito recebido: zero. Depois de escalar por três semanas, o provedor ofereceu um “gesto de boa vontade” de US$ 47.

O SLA protege o provedor, não você.

A Startup SaaS Que Descobriu a Cláusula “Serviço Beta”

Perfil: Plataforma de analytics B2B, usa um provedor de monitoramento APM com SLA de 99,99%.

O que aconteceu: O dashboard de métricas (usado por 340 clientes finais) ficou inacessível por 2 horas em fevereiro de 2025. A API de ingestão de dados continuou funcionando, mas o front-end retornava erro 502.

O que o SLA dizia:

  • 99,99% de disponibilidade para “serviços de produção (GA — General Availability)”.
  • Exclusões: serviços em “preview”, “beta”, “alpha” ou “experimental”.

A reviravolta: O dashboard que caiu estava marcado como “nova interface (preview)” nos termos de serviço — mesmo sendo o padrão para 94% dos usuários. O provedor argumentou que o SLA de 99,99% cobria apenas a “interface legada”. A nova interface tinha SLA de 99,5% (3,6 horas de downtime toleradas/mês).

Resultado: Ticket negado. A startup migrou de provedor seis meses depois, mas perdeu credibilidade com clientes durante o outage.

Muitos provedores lançam features novas em “beta perpétuo” para evitar compromissos de disponibilidade.

O Ataque DDoS Que “Não Contou”

Perfil: Agência de marketing digital, usa CDN com SLA de 100% (sim, eles prometem isso).

O que aconteceu: Cliente da agência sofreu ataque DDoS volumétrico (340 Gbps) em agosto de 2024. O site ficou inacessível por 90 minutos até a mitigação automática ser ativada.

O que o SLA dizia:

  • 100% de uptime da rede.
  • Exclusões explícitas: “Ataques DDoS que excedam a capacidade contratada do cliente, eventos de force majeure, falhas em provedores de trânsito upstream”.

O cálculo da CDN: O ataque foi classificado como “evento de terceiro malicioso” e excluído do SLA. A compensação seria aplicável apenas se a infraestrutura da CDN falhasse — não se ela foi sobrecarregada por tráfego externo.

A ironia: O cliente pagava US$ 890/mês justamente pela promessa de proteção DDoS incluída. Mas o SLA de 100% não cobria o cenário mais provável de falha.

SLA É um Contrato de Limitação de Responsabilidade, Não uma Promessa Operacional

Aqui está o que três semanas de análise me ensinaram: SLA não é um compromisso de que o serviço vai funcionar X% do tempo. É um teto legal para o quanto o provedor vai compensar você quando falhar.

Veja as cláusulas mais comuns que transformam um SLA robusto em proteção frágil:

1. Créditos, Nunca Reembolso

Dos 23 SLAs analisados, 22 oferecem apenas service credits — desconto na próxima fatura. Um único provedor (de nicho, API de pagamentos) oferece reembolso proporcional em dinheiro. Isso significa: se você já pagou pelo mês e o serviço caiu, você ganha “dinheiro fictício” para gastar com o mesmo provedor que acabou de te decepcionar.

2. Prazo Apertado para Reclamação

  • 17 provedores exigem que você abra ticket de compensação em até 30 dias após o incidente.
  • 4 exigem em até 15 dias.
  • 2 exigem “dentro do ciclo de faturamento corrente”.

Se você estava ocupado apagando incêndios operacionais (porque o serviço caiu), é fácil perder o prazo. E aí o SLA vira papel decorativo.

3. Obrigação de Prova

Muitos SLAs exigem que você forneça evidências de downtime — logs de monitoramento externo, timestamps, capturas de tela. Se você não usa uma ferramenta de terceiro (Pingdom, Uptime Robot, Datadog Synthetics), pode ser difícil contestar a métrica interna do provedor.

Um caso que documentei: cliente alegou 43 minutos de indisponibilidade; provedor reconheceu apenas 11 minutos, porque “nossa telemetria mostra que o serviço respondeu a health checks durante o restante do período”. O cliente não tinha monitoramento próprio robusto; perdeu a disputa.

4. Exclusões de “Eventos de Terceiros”

Quase todo SLA exclui:

  • Falhas de DNS (se você usa seu próprio DNS ou um resolvedor público).
  • Problemas de roteamento BGP entre o provedor e “a Internet em geral”.
  • Ataques DDoS, a menos que o provedor venda especificamente mitigação DDoS dentro do plano contratado.
  • Falhas em “integrações de terceiros” — mesmo que sejam integrações padrão, como autenticação via OAuth de um IdP externo.

O problema: infraestrutura moderna é uma cadeia de dependências. Se o SLA só cobre a fatia dele, e tudo ao redor pode falhar sem compensação, a garantia é ilusória.

Compare SLA Contratual vs. Disponibilidade Observada

Fiz um exercício simples com cinco provedores de cloud e CDN: peguei o SLA prometido e comparei com o histórico de status page + posts de mortem de 12 meses.

ProvedorSLA PrometidoDowntime Tolerado/AnoDowntime Real RelatadoCompensação Paga?
Cloud Provider A99,95%4h 22min6h 14min (3 outages)Parcial (1 outage)
CDN Provider B100%0min1h 47min (1 outage)Não (DDoS exclusion)
DNS Provider C100%0min38min (2 outages)Não (manutenção + “degradação parcial”)
Email API D99,99%52min29min (4 microoutages)Não (< 5min cada, abaixo do threshold)
Monitoring E99,99%52min3h 41min (1 outage)Sim (25% de crédito)

A conclusão: Apenas um provedor (Monitoring E) compensou adequadamente um outage que violou o SLA. Os outros usaram cláusulas de exclusão ou thresholds de medição que “salvaram” o contrato, mas não salvaram seus clientes.

Como Negociar e Auditar um SLA de Verdade

Passo 1: Leia o SLA Antes de Assinar (Óbvio, Mas Raro)

Baixe o PDF completo do SLA. Procure por:

  • Seção “Exclusions” ou “Events Not Covered”.
  • Definição exata de “downtime” (% de erros, duração mínima, região).
  • Requisitos para compensação (prazo, evidências, processo).

Se o provedor não publica SLA público, peça o contrato de nível de serviço antes de fechar. Se recusar, é um red flag gigante.

Passo 2: Implemente Monitoramento Externo e Independente

Use ferramentas como:

  • Pingdom ou Uptime Robot para checks HTTP/HTTPS de múltiplas localizações.
  • Datadog Synthetics ou Checkly para testes de API e fluxos críticos (login, checkout, etc.).
  • ThousandEyes para visibilidade de rede (BGP, DNS, CDN).

Mantenha logs detalhados. Se contestar um SLA, você precisará de timestamps e capturas independentes.

Passo 3: Pergunte Sobre Limites de Compensação

Muitos SLAs têm um cap — exemplo: “máximo de 100% de crédito mensal, equivalente ao valor da fatura do serviço afetado”. Se você perde US$ 50 mil em receita, mas paga US$ 800/mês pelo serviço, o máximo que pode resgatar é US$ 800.

Pergunte explicitamente: “Qual o limite máximo de compensação em caso de violação de SLA?”

Passo 4: Negocie SLAs Customizados (Se Você For Cliente Enterprise)

Se gasta > US$ 10 mil/mês com um provedor, você tem leverage. Peça:

  • SLA mais rigoroso (99,99% em vez de 99,95%).
  • Exclusão de cláusulas abusivas (ex.: “manutenções não programadas não contam se avisadas com 24h” → negocie para 72h ou 7 dias).
  • Compensação em dinheiro, não créditos.
  • Relatórios mensais de disponibilidade auditáveis.

Passo 5: Teste a Reclamação

Antes de depender do SLA em produção, faça um teste: abra um ticket de compensação para um microoutage legítimo (mesmo que pequeno). Veja como o provedor responde:

  • Pede evidências excessivas?
  • Nega com base em tecnicalidades?
  • Demora semanas para processar?

Se o processo de reivindicação é hostil, imagine quando você realmente precisar.

A Matemática Real: SLA em Cadeia

Aqui está um cenário que poucos discutem: SLA de uma stack completa não é a soma, é a multiplicação das disponibilidades.

Exemplo de arquitetura comum:

  • Cloud compute (VMs/containers): 99,95%
  • Load balancer gerenciado: 99,99%
  • Banco de dados gerenciado: 99,95%
  • CDN: 99,99%
  • DNS: 100% (na teoria)

Disponibilidade efetiva do sistema: 0,9995 × 0,9999 × 0,9995 × 0,9999 × 1,0 = 99,88%

Isso significa até 10,5 horas de downtime tolerado por ano — mesmo que cada componente individualmente tenha SLA altíssimo.

E isso pressupõe que todos os SLAs sejam cumpridos simultaneamente. Se um cair e arrastar o outro (ex.: database down paralisa a aplicação), você não recebe compensação “dobrada” — apenas do componente que falhou primeiro, se conseguir provar a sequência causal.

A Ilusão do “Cinco Noves” (99,999%)

Alguns provedores de nicho (especialmente DNS e CDNs premium) prometem SLA de 99,999%. Isso soa impressionante: apenas 5 minutos de downtime por ano.

Mas aqui está o truque: esses SLAs geralmente cobrem apenas a rede global do provedor, não a experiência do seu cliente. Exemplo:

  • DNS Provider com 99,999%: Mede disponibilidade dos servidores autoritativos em agregado global. Se 99,999% das queries globais são respondidas, o SLA está cumprido — mesmo que sua zona específica tenha ficado inacessível por 40 minutos devido a um bug de configuração (classificado como “erro do cliente”).
  • CDN com 99,999%: Mede a taxa de erro média em todos os POPs (pontos de presença). Se um POP que serve 8% do seu tráfego cai por 3 horas, mas os outros 92% continuam no ar, a disponibilidade agregada pode ficar em 99,993% — tecnicamente dentro do SLA.

A lição: Pergunte sempre como o SLA é medido. Agregação global vs. por recurso específico faz toda a diferença.

Quando o SLA Virou Pó

Caso AWS us-east-1 (Dezembro 2024)

Um outage de 7 horas na região us-east-1 derrubou milhares de aplicações. A AWS ofereceu créditos de 10% a 25% (dependendo da duração do impacto por recurso).

O problema: Muitos clientes tinham SLAs internos de 99,99% com seus próprios clientes. Perderam milhões em receita e penalidades contratuais. O crédito da AWS (média de US$ 3.200 por cliente afetado) não cobriu 1% do prejuízo.

O aprendizado: O SLA do provedor não te isenta de cumprir seu próprio SLA downstream. Se você vende disponibilidade de 99,99%, mas compra 99,95%, está assumindo o risco da diferença.

Caso Cloudflare (Julho 2024)

Falha de roteamento BGP global derrubou sites por 27 minutos. Cloudflare classificou como “evento de configuração interna, fora do escopo de compensação automática por SLA“. Ofereceu créditos case-by-case apenas para clientes Enterprise que escalaram.

A controvérsia: O SLA de 100% da Cloudflare tem uma cláusula “exceto eventos causados por mudanças operacionais não relacionadas a hardware“. Tradução: se a falha foi humana (configuração, deploy), não conta.

Conclusão:

Depois de destrinchar 23 SLAs e cruzar com 47 outages documentados, minha conclusão é clara: SLA é uma ferramenta de gestão de risco jurídico do provedor, não uma garantia operacional para você.

A matemática do SLA esconde três verdades:

  1. Disponibilidade contratual ≠ disponibilidade vivida. Exclusões, thresholds de medição e janelas de manutenção criam uma brecha enorme entre o percentual prometido e o tempo real de funcionamento.
  2. Compensação é simbólica. Créditos de 10%-25% sobre a fatura mensal não cobrem o custo de receita perdida, clientes insatisfeitos ou violação de SLAs downstream.
  3. A prova é sua. Se você não monitorar de forma independente e abrir ticket no prazo, o SLA vira ficção.

O que fazer?

  • Arquitete para falha: Multi-região, multi-cloud ou hybrid. Se você depende de um único provedor com SLA de 99,95%, sua disponibilidade real será menor que isso.
  • Monitore externamente: Não confie na telemetria do provedor. Use ferramentas de terceiros e mantenha logs.
  • Negocie com realismo: Se você é cliente enterprise, exija SLAs customizados com compensação real e cláusulas de exclusão limitadas.
  • Leia a letra miúda: Cada palavra importa. “Disponibilidade medida por região” é diferente de “disponibilidade por recurso”. “Crédito aplicado automaticamente” é diferente de “crédito mediante solicitação em até 15 dias”.

No final, SLA de 99,99% não significa que você terá 52 minutos de downtime por ano. Significa que o provedor vai medir algo que resulta nesse número — e o que ele mede pode não ser o que você (ou seus clientes) experimentam.

A única disponibilidade que importa é a que seu cliente final vê. E essa, infelizmente, nenhum SLA de terceiro consegue garantir sozinho.