
$0-$0 / yr
Salary
brazil
Region
ASAP
Start Date
THE FUTURE IS CLOUD
A Darede tem o objetivo de continuar revolucionando os negócios em Cloud no Brasil e nos tornarmos a mais relevante consultoria do segmento, afinal, THE FUTURE IS CLOUD!Buscamos um SRE Sênior apaixonado por estabilidade, performance e automação para integrar uma Squad estratégica de Engenharia de Resiliência. O desafio principal é atuar de forma proativa em um ecossistema complexo e de alta criticidade, movendo a operação de um modelo reativo para uma cultura de confiabilidade. Você será responsável por projetar e implementar soluções que previnam falhas, garantindo que sistemas que sustentam a receita do negócio operem com máxima disponibilidade.Se você tem curiosidade e vontade de aprender novas ferramentas, plataformas e tecnologias, é Data Driven e HandsOn, é uma pessoa sempre antenada nas novidades do Mundo Cloud, essa vaga é para você!Candidate-se, queremos te conhecer!
Responsabilidades e atribuiçõesLiderança em Incidentes:Atuar
como Líder de Resposta a Incidentes em War Rooms, coordenando a resolução técnica e a comunicação com stakeholders.Engenharia de Observabilidade:Projetar e evoluir a telemetria no Datadog (Logs, APM, Traces e métricas de negócio) para reduzir o MTTD e o esforço cognitivo do time.Gestão de Workloads em AWS Amplify:Garantir a resiliência e a escalabilidade de aplicações front-end e APIs críticas hospedadas.Governança de SRE:Definir e monitorar SLIs, SLOs e SLAs, gerindo o Error Budget para equilibrar a velocidade de entrega com a estabilidade.Automação de Mitigação:Desenvolver ferramentas e scripts de auto-healing (rollback automático, restart controlado, isolamento de componentes).Análise de Causa Raiz:Conduzir processos de Post-mortem blameless e garantir a implementação de melhorias estruturais para evitar reincidências.Modernização de Sistemas:Atuar junto aos times de desenvolvimento para implementar padrões de resiliência (Circuit Breakers, Bulkheads e Rate Limiting) tanto em arquiteturas modernas quanto em sistemas legados.IA na Operação:Implementar soluções de detecção de anomalias e resposta inteligente utilizando AIOps (Datadog Bits AI ou AWS DevOps Agent).
Requisitos e qualificaçõesSenioridade comprovada em SRE ou DevOps: Experiência sólida em ambientes de alta escala e missão crítica.Domínio Profundo de AWS: Experiência avançada em EC2, RDS, S3, IAM, EKS e Amplify.Domínio de ferramentas de Observabilidade: Sólida experiência em monitoramento, logs e APM (preferencialmente utilizando Datadog).Containers & Orquestração: Sólidos conhecimentos em Docker e Kubernetes (EKS/GKE).Infraestrutura
como Código (IaC): Domínio de Terraform.Desenvolvimento/Scripts: Fluidez em Python, Go ou Shell Script para automação.Gestão de Incidentes: Experiência real com plantões on-call e resolução de problemas em tempo real.+Diferenciais (Desejáveis);Perfil Analítico para Sistemas Legados: Experiência em troubleshooting de aplicações em .NET Framework e bancos de dados Oracle ou PostgreSQL.Chaos Engineering: Experiência na execução de testes de estresse e resiliência controlados.Certificações: AWS Certified DevOps Engineer - Professional ou Certificações oficiais Datadog.+Competências Comportamentais;Perfil de liderança técnica e resiliência sob pressão.Excelente comunicação para interagir com áreas de negócio e tecnologia.Protagonismo e senso de responsabilidade na resolução definitiva de problemas.
Informações adicionais
BENEFÍCIOS📚 Incentivos Educacionais (Parcerias com Instituições de Ensino)🌴 Férias Remuneradas🏋️TotalPass🎂Birthday off🏥 Assistência Médica🦷 Assistência Odontológica🤰 Licença Maternidade👨👩👧👦 Licença Paternidade🌟 Reembolso em Certificações AWS