Where this role is available
Collapsed by default to keep the job description easy to scan.
- Brazil, Brazil
- Brazil
Role summary by JobGrid
[Job - 29704] Senior SRE, Brazil at ciandt: Brazil, Brazil, Brazil; On-site; IT; DevOps / SRE. JobGrid adds normalized role facts, source context, and a path to the employer application page so candidates can compare the listing before applying.
- Location and workplace: Brazil, Brazil, Brazil, On-site
- Role classification: IT, DevOps / SRE
- Source freshness: checked by JobGrid on 2026-06-10.
- Application path: candidates continue to the employer application page with non-personal referral tags.
Na CI&T , ajudamos grandes empresas a transformar o potencial da AI em impacto real nos negócios com AI Deployment, execução AI-native e tech-integrated business solutions.
Com 30 anos de experiência em transformação tecnológica, aceleramos inovação com expertise em agentic SDLC, application modernization, Data & AI, martech e business strategy.
Somos 8.000 CI&Ters em mais de 25 países, colaborando para construir soluções com impacto real. AI já faz parte da forma como trabalhamos, evoluímos e inovamos todos os dias.
Estamos em busca de um profissional talentoso para integrar o nosso time e garantir alta confiabilidade das aplicações através de práticas avançadas de SRE, resiliência, observabilidade e automação em cloud.
Responsabilidades:
Implementar e evoluir estratégia completa de observabilidade
Definir e operar com SLIs, SLOs e Error Budgets
Garantir resiliência e escalabilidade
Reduzir incidentes e prevenir reincidência
Evoluir arquitetura operacional na AWS
Criar automações e mecanismos de auto-recuperação
Atuar como facilitador técnico para squads
Requisitos Técnicos:
SRE e Confiabilidade
Resiliência de sistemas distribuídos
Self-healing (auto recuperação)
Escalabilidade baseada em eventos
Gestão de incidentes e pós-mortem
Observabilidade Completa:
Logs, Traces e Métricas
Custom Metrics
APM
Ferramentas: Datadog (ou similares)
Construção de:
Dashboards e painéis
Monitoramento e alertas inteligentes
Alarmes em tempo real (incidentes, budgets → comunicação com times)
Testes sintéticos
Gestão de Confiabilidade
Definição e acompanhamento de:
SLI / SLO / Error Budget
RTO / RPO
Visão orientada a disponibilidade e experiência
Infraestrutura e Plataforma:
AWS (CloudWatch, X-Ray, ECS/EKS, Lambda)
Docker / Containers
Arquitetura distribuída
Infraestrutura como código e automação
Diferenciais:
Experiência em ambientes críticos (alta disponibilidade)
Chaos Engineering
Uso de IA para análise preditiva de incidentes
Otimização de custos em cloud (FinOps)