Una caratteristica fondamentale dei sistemi di monitoraggio è il sottosistema di Alerting.
Grazie ad esso è possibile avvisare immediatamente i responsabili IT di quanto succede ed attivare le azioni di troubleshooting adeguate.
In mancanza di un sistema di alerting gli amministratori IT saranno avvisati dalle lamentele dei propri clienti che ” si strapperanno le vesti “ poiché impossibilitati a ricevere email oppure perchè devono inserire un ordine in un sistemaattualmente offline.
Per evitare questo scenario negativo sono nati i sistemi di monitoraggio!
Ora ogni amministratore che si avvale di questi sistemi viene prontamente avvisato quando un servizio non funziona correttamente in modo tale da poterlo ripristinare ancor prima che i fruitori se ne accorgano.
Ma dalla soluzione nasce un nuovo problema!
Un primo problema nasce al verificarsi di un evento a forte impatto sull'infrastruttura IT, in questo caso i sistemi di monitoraggio tendono a mandare una quantità abnorme di email ed sms e si comportano come se stessero effettuando un attacco dos alla mailbox o cellulare dei responsabili dei servizi IT.
Un ulteriore problema nasce quando un malfunzionamento di un dispositivo come un router rende inaccessibili tutta una serie di servizi che vengono raggiunti tramite esso. Anche in questo caso un sistema di monitoraggio invierà una notifica per il malfunzionamento del router e poi una per ogni servizio che non verrà raggiunto.
In entrambi i casi esposti abbiamo un sistema di monitoraggio che invia una miriade di allarmi che probabilmente non verranno presi in cosiderazione e che potrebbero anche portare alla decisione di disattivare completamente il sistema di alerting.
Come risolvere questo problema?
Un moderno sistema di monitoraggio si avvale delle seguenti funzionalità:
a) Relazione di raggiungibilità
b) Relazione di dipendenza
c) Filtro antiflooding
La relazione di raggiungibilità permette di identificare tutti i servizi e sistemiche vengono raggiunti tramite un sistema intermedio (tipicamente switch orouter).
Quando il sistema intermedio non funzionerà tutti gli elementi che tramite lui vengono raggiunti saranno inaccessibili. In questo caso il sistema di monitoraggio invierà un unico alert e metterà tutti gli elementi non raggiungibili in uno stato di "non raggiungibilità" senza inviare nessun altro alert.
La relazione di Dipendenza si comporta in modo analogo ma identifica la dipendenza tra i servizi. Se un servizio per funzionare necessita di un servizio principale, si dirà che il primo servizio è in dipendenza con il secondo. Se ilservizio principale si troverà in uno stato critico, naturalmente anche tutti i servizi che da esso dipendono si troveranno nello stesso stato. Il sistema di monitoraggio invierà un alert solo per il malfunzionamento del servizio principale.
Il filtro antiflooding è un potente strumento che permette di evitare che il sistema di monitoraggio inondi le caselle di posta elettronica o i cellulari di alert massivi.
Questo filtro si avvale di una finestra di osservazione, poniamo 30 minuti, e di un numero massimo di alert che vogliamo ricevere all'interno di questa finestra.
Un classico filtro anti flooding è " Inviami al massimo 5 alerts ogni 30 minuti".
In questo caso se si supera il numero di 5 alert nei 30 minuti, a partire dal sesto in poi verranno archiviati ed inviati tutti condensati in un unico messaggio di alert al termine della finestra di osservazione.