Il network monitoring si occupa di misurare parametri di rete al fine di effettuare analisi e statistiche di funzionamento

Più nello specifico il network monitoring si occupa di tre delle 5 aree funzionali definite dall’ ISO/OSI Network management model :

•    Performance monitoring

•    Fault monitoring

•    Account monitoring

Il performance monitoring ha lo scopo sia di predisporre la rete per le evoluzioni future che di determinarne l’efficienza attuale.

Quest’area funzionale si occupa di collezionare regolarmente dati utilizzando strumenti che supportano protocolli come SNMP, RMON,NETFLOW e definiscono soglie di allarmi. Il monitoraggio delle performance della rete è un passo importante per identificare i problemi prima che avvengano ed è anche parte fondamentale di una strategia diProactive Network Monitoring.

Il fault monitoring riguarda il controllo dei fault che si verificano sulla rete e l’invio di alert al personale preposto a risolvere il problema. Una comune tecnica di

fault monitoring prevede di controllare i dispositivi di rete tramite il protocollo SNMP ed avvisare tramite alert i network manager.

L’account monitoring ha lo scopo di raccogliere statistiche sull’utilizzo della rete. Quest’area funzionale è fondamentale in organizzazioni che pagano o fatturano il traffico di rete generato.

In questo documento non ci occuperemo di misurazioni necessarie per il billing ma tratteremo unicamente performance e fault monitoring.

Network performance monitoring

Per eseguire un efficace azione di perfomance monitoring è necessario stabilire cosa si vuole misurare.

La IETF (Internet Engineer Task Force) ha definito nella RFC 1242 (Benchmarking Terminology for Network Interconnection Devices) alcune metriche per la misurazione del traffico come:

•    Data link size

•    Latency

•    Overhead behavior

•    Overload behavior

•    Throughput

•    Frame loss

Andando sul sito www.ietf.org/rfc.html e ricercando la stringa “Benchmarking” si possono ottenere tutte le informazioni necessarie allo scopo.

Queste metriche afferiscono all’area funzionale del Performance Monitoring.

Le metriche più utilizzate sono: 

•    Tempo di risposta 

•    Disponibilità

•    Ampiezza di banda

•    Throughput

•    Pacchetti persi

•    Utilizzo

•    Latenza (one way e RTT)

•    Jiiter

Tempo di risposta

Si misura in millisecondi ed è il tempo impiegato da un sistema a reagire ad un input. Ad esempio se parliamo di un server web è il tempo che impiega a

rispondere ad una interrogazione http.

L’impatto di questo parametro dipende dalla tipologia di servizio fornito: è necessario che sia basso per applicazioni interattive mentre per applicazioni batch non è necessario.

Disponibilità

La disponibilità è la percentuale di tempo che un oggetto è disponibile all’utente. Mi sono genericamente riferito ad un oggetto perché la disponibilità è

misurabile su un applicazione, un sistema server piuttosto che su un componete di rete. La disponibilità si calcola secondo la seguente formula:

Disponibilità= MTBF/(MTBF+MTTR)

Dove:

MTBF =    Mean time between failure (tempo medio tra i fallimenti)

MTTR= Mean time to repair (tempo medio per ripristinare l’oggetto) 

E’ da notare che se il MTTR tende a 0 la disponibilità tende ad 1. In pratica se un oggetto si rompe (anche frequentemente) ma il tempo per “aggiustarlo” tende a 0 allora la disponibilità sarà pressochè continua.

Ampiezza di banda

Per ampiezza di banda generalmente intendiamo la quantità di informazioni che possono essere trasmesse attraverso una connessione in una determinata unita’ di tempo. Si tratta quindi della la velocità di trasmissione dell’informazione. Nel caso delle comunicazioni digitali come ad esempio il web, misuriamo la banda in bit al secondo e nei suoi multipli kbit/s e Mbit/s. Più c’è ampiezza di banda, più informazioni riusciamo a trasmettere in quel determinato lasso di tempo. Tipicamente applicazioni di streaming video necessitano di banda larga. Più l’ampiezza di banda è alta, più alta sarà la qualità di immagine e di suono.

Throughput

Per throughput si intende la quantità di dati inviati con successo su un link in una determinata unità di tempo. La differenza rispetto all’ampiezza di banda è che la prima misura la massima quantità di dati trasferibile mentre la seconda misura quella effettiva. Questa metrica si misurare in bps e nei suoi multipli.

Pacchetti persi

Questa metrica misura la probabilità di perdita di un pacchetto in una trasmissione tra sorgente e destinazione.

Questo può essere causato da svariati fattori quali degrado del segnale sul canale trasmissivo, packet drop dovuti alla sua congestione, apparati di rete difettosi, driver difettosi etc.

Utilizzo

E’ la percentuale di utilizzo di una risorsa. Parlando di un canale di comunicazione si intende la percentuale di utilizzo dell’ampiezza di banda.

Latenza

La latenza misura la quantità di tempo che un pacchetto impiega ad andare da una sorgente ad una destinazione (one way).

Quando la latenza calcola la quantità di tempo che un pacchetto ci mette ad andare da una sorgente ad una destinazione e ritorno alla sorgente si definisce RTT (round trip time). Si misura in ms

Jiter

Misura la variazione della latenza nel tempo. E’ molto importante nelle comunicazioni Voip. Un alto jitter provoca l’arrivo dei pacchetti appartenenti alla stessa comunicazione in ordini differenti rispetto a come sono stati inviati. Per correggere questo si utilizzano a livello applicativo dei buffer che riordinano i pacchetti causando però un aumento del ritardo della comunicazione. Se il pacchetto quando arriva trova il buffer pieno viene eliminato aumentando così il valore dei pacchetti persi e diminuendo il throughput.

Definire i dispositivi da controllare (fault monitoring)

Quest’area funzionale prevede di controllare tutti i dispositivi che permettono alla rete di funzionare.

Li possiamo suddividere in due macrocategorie:

a)    Dispositivi infrastrutturali

b)    Dispositiviche forniscono servizi di base

I dispositivi infrastrutturali sono quelli fondamentali affinchè avvenga una comunicazione: Router e Switch.

I secondi sono quei dispositivi che forniscono servizi essenziali come DNS, DHCP, Proxy,Firewall etc…

Il monitoraggio di entrambe le categorie può avvenire sia utilizzando il protocollo SNMP checlassici controlli sulle porteTCP.

Il protocollo SNMP ci permette di controllare la temperatura interna,lo stato delle interfacce, delle ventole, degli alimentatori etc.

I controlli TCP ci permettono di capire se i servizi sono attivi.

In questa fase è fondamentale definire correttamente le soglie al di sopra delle quali l’apparato od il server entra in uno stato di criticità. In questo caso verranno creati gli opportuni gruppi di intervento ai quali verranno indirizzate le notifiche.

E’ opportuno prevedere anche meccanismi di escalation che permettono di notificare gruppi di primo, secondo o terzo livello a seconda del persistere del problema.

Dalla teoria alla pratica

Una volta identificate le metriche di interesse ed i dispositivi da monitorare bisognamettere tutto in pratica.

Il controllo delle metriche avviene grazie all’utilizzo del protocollo SNMP.

Con Sentinet3 è possibile inserire controlli puntuali sugli elementi da monitorare semplicemente conoscendone il corretto OID (Object IDentifier). Grazie alla funzione check_snmp è possibile inserire i parametri riguardanti l’indirizzo ip, lacommunity, l’OID dell’oggetto e l’eventuale password (se lavoriamo con SNMPv3).

Le informazioni che possiamo ottenere sugli apparati sono molteplici tra cui si citano:

a)    Utilizzo CPU

b)    Utilizzo RAM

c)    Stato ventole

d)    Bit in entrata

e)    Bit in uscita

f)    Pacchetti eliminati per presenza di errori

g)    Pacchetti droppati (eliminati per carenza risorse)

h)    Banda disponibile

Molte informazioni sulla rete possono essere calcolate utilizzando i parametri sopra riportati, come ad esempio la banda disponibile.

Ulteriori funzioni permettono di controllare la disponibiltà dei servizi principali comecheck_tcp o check_udp che forniscono lo stato dei servizi disponibili sulle porte tcp/udp di interesse.

Naturalmente per avere un monitoraggio proattivo sarà necessario settare opportune soglie affinchè il modulo di notifica possa inviare sms ed email al loro superamento.

Bisognerà poi settare le azioni da attivare in caso di allarme come ad esempiostoppare e riavviare un servizio, disattivare porte su uno switch o attivare una linea alternativa.

Copyright 2014 - Fata Informatica s.r.l.

Nel rispetto del nuovo Regolamento UE 2016/679 sul trattamento dei dati personali, questo sito utilizza i cookie per migliorare i servizi e l'esperienza degli utenti.