Engenharia de Confiabilidade do Google Como o Google administra seus sistemas de produção
A maior parte do tempo de vida de um sistema de software se dá em seu uso, e não no design ou na implementação. Então, por que a sabedoria convencional insiste que os engenheiros de software devam se concentrar principalmente nas fases de design e de desenvolvimento dos sistemas computacionais de larga escala? Nesta coletânea de dissertações e artigos, membros essenciais da equipe de SRE (Site Reliability Engineering – Engenharia de Confiabilidade) do Google explicam como e por que seu comprometimento com todo o ciclo de vida tem permitido que a empresa desenvolva, implante, monitore e mantenha alguns dos maiores sistemas de software do mundo com sucesso. Você conhecerá os princípios e as práticas que possibilitam aos engenheiros do Google deixar os sistemas mais escaláveis, confiáveis e eficientes – lições que podem ser diretamente aplicáveis à sua empresa. Este livro está dividido em quatro partes: •Introdução – Saiba o que é SRE e por que ela difere das práticas convencionais do mercado de TI. •Princípios – Analise os padrões, os comportamentos e as áreas de preocupação que influenciam o trabalho de um SRE (Site Reliability Engineer – Engenheiro de Confiabilidade). •Práticas – Entenda a teoria e a prática do trabalho cotidiano de um SRE: desenvolver e operar sistemas computacionais distribuídos de grande porte. •Gerenciamento – Explore as melhores práticas do Google para treinamento, comunicação e reuniões, que poderão ser usadas pela sua empresa.