Todo líder de TI enfrenta o mesmo paradoxo: inovar mais rapidamente e ao mesmo tempo manter uma estabilidade sólida. Na Cisco IT, estávamos implantando sistemas de IA e novas tecnologias em uma velocidade vertiginosa e observando o aumento da nossa taxa de incidentes. Então nós viramos tudo. Veja como reduzimos os incidentes graves em 25% em um ano, enquanto acelerando nosso ritmo de inovação.
O imposto da inovação: quando a velocidade se torna sua inimiga
Tal como a maioria das organizações de TI, estávamos a adicionar capacidades de IA, a implementar serviços na nuvem e a modernizar aplicações a um ritmo sem precedentes. A inovação era o nosso mandato.
Mas com cada novo sistema surgiram custos ocultos:
- Lacunas de visibilidade: Novas tecnologias trouxeram novos painéis – cada um isolado, nenhum conversando entre si. Nossa equipe de operações estava afogada em alertas, sem uma visão unificada do impacto real nos negócios.
- Instabilidade impulsionada pela mudança: Descobrimos uma correlação direta; quanto mais mudanças promovemos, mais incidentes sofremos. A inovação estava causando interrupções.
- Incerteza da IA: Embora a IA prometesse eficiência, também introduziu novos modos de falha. Como você monitora o que não entende totalmente?
A questão tornou-se urgente: como podemos inovar sem interrupções?
Para resolver isso, a TI da Cisco fez da observabilidade um pilar da nossa abordagem.
Nossa estrela norte: inovação sem disrupção
Em vez de desacelerar a inovação, fizemos uma escolha diferente: tornarmo-nos radicalmente melhores em termos de observabilidade.
Nossa equipe de operações de serviço e o Enterprise Operations Center (EOC) definiram três objetivos claros:
- Detecte mais rápido – Identifique problemas antes que os usuários os relatem, com contexto completo do impacto nos negócios
- Atribuir de forma mais inteligente – Encaminhe os problemas para os especialistas certos imediatamente, sem transferências
- Resolver proativamente – Corrija problemas automaticamente quando possível, comunique-se claramente quando não
O objetivo não era apenas uma resposta mais rápida a incidentes. Era para tornar nosso ambiente tão observável que pudéssemos inovar mais rápido e com menos riscos.
Abordagem e tecnologia de observabilidade da Cisco IT
Para a TI da Cisco, a observabilidade é fundamental para fornecer visibilidade de ponta a ponta, insights acionáveis e automação orientada por IA para nos permitir detectar, resolver e até mesmo prevenir problemas antes que eles afetem os negócios.
TI da Cisco estratégia de observabilidade é construído em uma abordagem em camadas que abrange três equipes. Nas duas primeiras “camadas”, equipes dedicadas são responsáveis pela observabilidade ponta a ponta em toda a nossa rede, aplicações, serviços e infraestrutura. Aproveitando soluções críticas como ThousandEyes e Splunk, elas agregam telemetria do nosso ambiente global e transformam dados brutos em insights significativos.
- Splunk: Nosso sistema nervoso central para a saúde de TI. Ao agregar logs, métricas e eventos em nossa infraestrutura global, o Splunk nos deu algo que nunca tivemos: uma única fonte de verdade. Quando surge um problema, nossa equipe vê sinais correlacionados em todo o sistema, e não alertas isolados, o que nos permite entender a causa raiz em minutos, não em horas.
- Cisco Mil Olhos: Nossos olhos estão voltados para a experiência do usuário final. O ThousandEyes fornece visibilidade profunda dos caminhos da rede e do desempenho dos aplicativos a partir da perspectiva do usuário — identificando exatamente onde e por que ocorrem lentidão. Quando um aplicativo crítico apresenta desempenho inferior, nossa equipe de operações de serviço não adivinha se é nossa rede, um provedor terceirizado ou o próprio aplicativo. Sabemos imediatamente, isolamos o problema e contratamos a equipe certa para corrigi-lo, muitas vezes antes que os usuários abram um ticket.
Nossa equipe de operações de serviço é onde esses insights são colocados em ação para identificar, resolver e até mesmo prevenir problemas rapidamente antes que eles afetem os negócios.
Para permitir que nossa equipe use os dados e insights dessas soluções de forma ainda mais eficaz, implantamos automação orientada por IA em uma variedade de casos de uso de gerenciamento de incidentes:
- Prever grupos de atribuição: A IA analisa as descrições dos incidentes em relação aos padrões históricos para encaminhar os problemas para a equipe certa imediatamente. Isso resultou em uma redução de 19% nas transferências e em um tempo de especialização mais rápido.
- Sugira opções de resolução: Ao combinar os problemas atuais com nossa base de conhecimento de mais de 100.000 incidentes resolvidos, a IA apresenta soluções comprovadas instantaneamente.
- Automatize a resolução: Os sistemas de autocorreção agora lidam com problemas rotineiros, como limpeza de armazenamento e redefinições de sessão, sem intervenção humana. UMAs I-automations agora lidam com 99,998% de cerca de 4 milhões de alertas diários que representam possíveis problemas/incidentes.
Embora as plataformas de observabilidade e a automação forneçam uma base crítica, a tecnologia por si só não é suficiente. É aí que a nossa equipe e as melhores práticas estabelecidas fazem a diferença.
Além da tecnologia: o elemento humano da observabilidade
O verdadeiro valor da nossa equipe vai além da tecnologia – está nas pessoas e nos processos que convertem informações e insights em ação. Trabalhamos para detectar, analisar, atribuir e resolver problemas rapidamente para minimizar interrupções.
Para fazer isso de forma eficaz, reconhecemos três práticas recomendadas que são fundamentais para o nosso sucesso:
- Gestão inteligente de mudanças: NNem todas as mudanças acarretam riscos iguais. Trate-os adequadamente.Não retardamos as mudanças – ficamos mais espertos com elas. Ao categorizar as alterações com base no risco, automatizamos aprovações para 80% das tarefas padrão de baixo risco, ao mesmo tempo que intensificamos o nosso foco e monitoramento para iniciativas de maior risco. A conclusão aqui é que nem todas as mudanças acarretam riscos iguais. Trate-os adequadamente.
- Qualidade e precisão dos dados: A IA de qualidade requer dados de qualidade. Priorize a higiene do CMDB.Nossa base para a eficácia da IA. A IA é tão inteligente quanto os dados que a alimentam – lixo que entra, lixo que sai. Construímos uma estrutura abrangente de qualidade de dados em torno de nossa Plataforma de Serviços Corporativos (ESP), com nosso Banco de Dados de Gerenciamento de Configuração (CMDB) servindo como a única fonte de verdade para todo o nosso ambiente tecnológico. Por meio de relatórios e fluxos de trabalho de qualidade automatizados, identificamos continuamente lacunas, sinalizamos informações obsoletas e acionamos atualizações em tempo real. Quando nossa IA prevê grupos de tarefas ou sugere soluções, ela trabalha com dados precisos e atuais, e não com registros desatualizados de três meses atrás.
- Comunicações eficazes: Numa crise, a clareza é tão valiosa quanto a velocidade.Nossa ponte entre o caos técnico e a clareza empresarial. Durante incidentes críticos, as equipes técnicas entendem o problema, mas as partes interessadas do negócio precisam entender o impacto. Nossa equipe de operações de serviço traduz problemas técnicos complexos em uma linguagem comercial clara: quais serviços são afetados, quantos usuários são afetados, o que estamos fazendo para corrigi-los e quando as operações normais serão retomadas. Esta abordagem de comunicação disciplinada mantém os executivos informados sem sobrecarregá-los, permite que as unidades de negócios tomem decisões contingenciais rapidamente e mantém a confiança mesmo durante interrupções.
Conclusão: impacto mensurável nos negócios
Ao longo de 18 meses, nossa transformação da observabilidade gerou resultados que permitiram diretamente a agilidade dos negócios:
- Redução de 25% em incidentes graves – Menos interrupções na produtividade dos funcionários e nos serviços voltados para o cliente
- 20% menos incidentes relacionados a mudanças – Inovação sem instabilidade
- Tempo médio de restauração 45% mais rápido – De horas a minutos para recuperação de serviços críticos
- 80% das alterações agora são aprovadas automaticamente – Implantação mais rápida, menor risco
O que isso significa: Os funcionários da Cisco enfrentam menos interrupções, as equipes de TI gastam menos tempo combatendo incêndios e mais tempo inovando, e os negócios avançam com mais rapidez e confiança.
Pronto para transformar suas operações de TI?
As lições da jornada de observabilidade da Cisco IT são claras: você não temos que escolher entre inovação e estabilidade. Com a abordagem correta de observabilidade, automação orientada por IA e disciplina operacional, você pode ter ambos.
Próximas etapas: