Gestione degli Errori Logici nei NAS e nei cluster dati

Chiudiamo l’anno 2016 con un articolo dedicato alla corretta gestione degli errori logici all’interno delle unità NAS e, più in generale, all’interno dei cluster dati.

Che cosa è un errore logico

Un errore logico è l’incapacità di leggere/scrivere specifici dati sul disco a causa di un errore precedente di scrittura. Poiché il precedente tentativo di scrittura non è andato a buon fine, i dati sono rimasti corrotti e quindi i successivi tentativi di lettura/scrittura, si riveleranno fallimentari. Più in generale questo errore viene anche segnalato con l’avviso BAD SECTOR ERROR. In realtà il BAD SECTOR ERROR (che di seguito abbrevieremo con BSE) chiarisce un po’ meglio il concetto. Tutti i dati racchiusi in quel settore del disco, non sono leggibili/scrivibili. Alla base dell’errore logico possono esserci diverse cause tra cui le più comuni sono:

  1. Interruzione di corrente al disco (che può comportare anche problemi fisici poiché la testina potrebbe non riuscire a tornare nella landing zone)
  2. Eccesso di richieste di lettura/scrittura

Questo secondo punto è per molti non considerato eppure esiste…leggete quanto segue.

Un esempio di errore logico

Abbiamo preso un RDBMS MySQL e lo abbiamo riempito di DB (un centinaio). Ogni DB è stato dotato di approssimativamente di 500 tabelle con circa 3.000 record. Abbiamo fatto tutto questo su 5 dischi in RAID 5 impegnati in normali operazioni di lettura e scrittura di documenti tra due utenti. Ad un certo punto il terzo utente ha effettuato un dump massivo di tutti i DB. Dopo circa due minuti di lavoro, uno dei dischi ha cominciato a dare forfait. Le attività del disco erano eccessive per la sua reale portata (parliamo di un HD desktop, non enterprise).

Gestire gli errori logici

I NAS proveranno a superare gli errori logici in fase di riparazione del RAID, tentando una rimappatura del disco qualora sul quel disco fosse stato precedentemente installato il sistema operativo di quel NAS. La procedura salverà i settori in cui era presente il sistema operativo e riorganizzerà la mappa di tutti gli altri ma non sempre questo è possibile…anzi. Un errore logico verrà segnalato dal NAS/CLUSTER attraverso 2 comportamenti:

  1. Segnalazione acustica e/o notifica via messaggio
  2. Disattivazione del disco ritenuto inaffidabile.

Tuttavia ci sono delle eccezioni che, nella scorsa settimana, ho avuto modo di discutere con l’assistenza tecnica di un’importante casa produttrice di sistemi di archiviazione. Esistono errori logici che non vengono segnalati dal sistema. Questo può accadere quando l’errore non viene riconosciuto come tale perchè non percepito dalla macchina, si tratta di processi di scrittura generalmente interrotti e ripresi in un breve tempo che lasciano il settore corrotto ma al sistema non risulta. Per il dispositivo l’operazione I/O è iniziata, avvenuta e chiusa con successo. Sono casi rari che un amministratore di sistema deve trovare a fronteggiare.  Vediamo cosa causano e come comportarsi.

Questi errori generano, innanzitutto, un considerevole rallentamento di accesso ai dati. Questo perchè i settori sono effettivamente illeggibili ma solo su uno dei dischi. Il volume logico, invece, è convinto di avere tutti i dati senza alcun problema (ricordate? La scrittura si è chiusa correttamente). In questi casi il problema è individuare il disco danneggiato e tenete a mente alcune considerazioni:

  1. Non essendo un problema fisico, scordatevi anomalie nel rumore dei dischi.
  2. Generalmente casi come questo affliggono 2-3 dischi, non uno solo. Quindi il problema che si manifesta, molto probabilmente, si estenderà quantomeno anche ad un altro disco. Siate preparati.
  3. Avere un’unità a 5 dischi può facilitare la gestione del problema ma su unità a 48 dischi non si può estrarre e reinserire i dischi per capire quale sia quello fallato.

Vediamo come procedere…

Approcciare il problema: usate le luci di operatività

Gli errori logici impediscono al disco di caricare informazioni quindi le spie che segnalano le operazioni di lettura e scrittura, saranno statiche. Questo è il principale indicatore che qualcosa non va, quel disco sarà il vostro obiettivo principale.

Approcciare il problema: usate l’hot-swap

In alcuni rari casi, le unità NAS potrebbero avere tutte le luci spente e quindi come riconoscere il disco fallato? Quando le luci sono spente, i NAS potrebbero non essersi resi conto del problema, in tal caso accedete alla schermata principale di amministrazione e, se vi rendete conto che le prestazioni sono veramente lente, iniziate a tirare fuori e reinserire ogni disco a distanza di 15 secondi l’uno. Quando estrarrete il disco fallato, nel giro di una decina di secondi, il NAS avrà un improvviso incremento prestazionale e le luci di operatività potrebbero riaccendersi. In alcuni casi il NAS segnalerà il volume logico come danneggiato irrimediabilmente, riavviate la macchina senza inserire il disco corrotto. Questo farà partire il NAS con la segnalazione di disco guasto ma con il volume ancora leggibile.

 

Cosa non fare mai…

NON INVERTITE MAI I DISCHI. Non scombinate il RAID e non sciogliete il cluster. Nessuna di queste operazioni servirà a far funzionare meglio la vostra unità. Nè vi rivelerà quale disco funziona e quale no, anzi…peggirorerà la situazione.

 

Quando un errore logico può causare un errore fisico

Ebbene sì, può succedere quando si usano dischi datati e di tipo non enterprise. Su dati molto frammentati, la testina è obbligata a scorrere veramente in modo troppo frenetico. In questi casi si finisce con il corrompere l’attuatore, ossia il meccanismo che muove la testina. Ricordate quindi di fare una corretta manutenzione al vostro comparto dischi avendo cura di comprare dischi non dallo stesso distributore in modo tale da evitare potenziali partite fallate.

 

 

Chiudiamo così il 2016 e, con l’occasione, vi faccio i miei più cari auguri di un felice 2017. All’anno prossimo !

Rispondi

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

%d blogger hanno fatto clic su Mi Piace per questo: