Q:
Como as empresas maximizam o tempo de atividade?
UMA:Manter os serviços de TI em operação é obviamente importante. Os fabricantes de sistemas têm pensado muito no assunto. Alguns computadores financeiros críticos estão funcionando continuamente há anos. Há uma história na internet sobre um computador Novell Netware 3 que foi finalmente desligado após 16 anos. Considerando o tempo de atividade da rede, o padrão é "Cinco 9s" ou 99, 999% de disponibilidade. Atingir o tempo de atividade máximo é uma consideração importante para qualquer oferta de serviço de TI.
Como o tempo de atividade máximo é alcançado? Uma boa gestão é a chave. A Organização Internacional de Normalização (ISO) criou uma estrutura para gerenciamento de rede chamada FCAPS, que significa:
- Gerenciamento de falhas
- Gerenciamento de configurações
- Gerenciamento de conta
- Gerenciamento de desempenho
- Gerenciamento de segurança
Problemas com componentes de rede individuais são tratados de maneira proativa e reativa usando esse modelo. As falhas são monitoradas usando alarmes e notificações de eventos. Eles são coletados por agentes de protocolos, como SNMP (protocolo de gerenciamento de rede de sistemas) ou outras soluções proprietárias. Limites personalizáveis podem acionar alarmes e até gerar automaticamente tickets que acabam nas filas da equipe de monitoramento nos datacenters. As grandes redes de operadoras podem ter departamentos separados para lidar com as camadas principais, de distribuição ou de acesso da rede. A análise de causa raiz tenta isolar e definir problemas críticos após um evento importante.
Processos semelhantes são usados para o gerenciamento do sistema. Os provedores de serviços de Internet (ISPs) e os centros de hospedagem gerenciada empregam administradores de sistema para monitorar e gerenciar a viabilidade de servidores, sistemas de armazenamento ou outros dispositivos. Processos individuais em máquinas Windows ou Linux, por exemplo, podem ser visualizados e controlados por meio de programas de gerenciamento de interface gráfica com o usuário (GUI) da mesma maneira que os protocolos de rede.
A vigilância remota e a configuração de componentes e sistemas de rede fornecem recursos em tempo real para maximizar o tempo de atividade do sistema. Isso se estende a alterações na configuração, coletando indicadores-chave de desempenho ou implementando aprimoramentos de segurança.
Uma maneira de analisar o tempo de atividade e a robustez de qualquer sistema é com o modelo que a IBM chamou de RAS: confiabilidade, disponibilidade e capacidade de manutenção. Para garantir o RAS, muitos métodos foram desenvolvidos. Isso inclui redundância, backup de dados, fonte de alimentação ininterrupta (UPS), componentes de troca a quente e atualizações automáticas. As mudanças planejadas e as janelas de manutenção oferecem oportunidades para corrigir ou melhorar problemas conhecidos sem causar transtornos ao usuário.
Eventualmente, sistemas e redes falharão. A redundância é uma das chaves para a resiliência do sistema. Isso pode se aplicar a hardware, software ou dados. Os responsáveis por garantir a confiabilidade em uma rede ou sistema de software procurarão o que pode ser considerado um único ponto de falha (SPOF). Toda a rede flui através de um único switch ou cabo? Todos os processos estão ocorrendo em um servidor solitário? Existe apenas uma cópia de um conjunto de dados críticos? Sem redundância, uma empresa pode - em um instante - perder o que pode levar anos para se desenvolver.
Maximizar o tempo de atividade é um empreendimento "tudo isso acima". As melhores práticas foram desenvolvidas através de décadas de experiência e colaboração. Novas soluções estão sendo implementadas continuamente, como redes de recuperação automática, virtualização, análise de dados e arquitetura aprimorada. Nenhum método único responderá a todos os problemas que surgem em sistemas complexos. Toda empresa tenta fazer o melhor uso possível dos recursos de TI da maneira mais eficiente possível, durante o ciclo de vida do equipamento à sua disposição.