Adrenalin\’s Blog

Februarie 11, 2008

Care este probabilitatea ca discul meu dur va muri anul acesta ? SMART cum de interpretat datele ? MTBF 136 de ani ?

Filed under: hdd — Etichete:, , , — Adrenalin @ 0:15

Aproape la toate harddisk-urile veti gasi data sheet, pe linga viteza, asa valori ca Mean Time Between Failures (MTBF) (hours) si Reliability Rating at Full 24×7 Operation (AFR). Exemplu.

Mean Time Between Failures (MTBF) (hours): 1.2 million
Reliability Rating at Full 24×7 Operation (AFR): 0.73%

Daca ne uităm la definiţia AFR, AFR 0.73% inseamnă „0.73 procente din intreaga populaţie a acestor harddisk-uri se vor defecta intr-un timp anual de lucru”. Adica in 136.895 ani, daca lucreaza 24/24, toate hdd-urile vor muri ;o) Asta in teorie..

Totusi după statistici „din practica”, AFR-ul e cu mult mai mare.. [1] [2]

Si deci cum putem afla daca hdd-ul nostru se va defecta miine ? Discurile dure toate au suportul la SMART (Self-Monitoring, Analysis, and Reporting Technology), vine intrebarea, ce de facut si cum de interpretat datele care le ofera acest sistem ?

La ajutor ne vine experienţa de la oceanul gigant de date Google, care are in cache tot internetul de pe pamint, si pentru asta le trebuie un munte de servere si hdd-uri ;o)
Pe baza analizilor efecutate a 100,000 de harddisk-uri in peste 5 ani, au incercat faca niste concluzii.. Analiza a fost publicata anul trecut.

Pentru ce-i ce nu stiu ce asta SMART:

Self-Monitoring, Analysis, and Reporting Technology, or S.M.A.R.T., is a monitoring system for computer hard disks to detect and report on various indicators of reliability, in the hope of anticipating failures.

Care sunt semnele ca hdd-ul degraba se va defecta ?

  • Contrary to previously reported results, we found very little correlation between failure rates and either elevated temperature or activity levels.
  • Some SMART parameters (scan errors, reallocation counts, offline reallocation counts, and robational counts) have a large impact on failure probability.
  • Given the lack of occurrence of predictive SMART signals on a large fraction of failed drives, it is unlikely that an accurate predictive failure model can be built based on these signals alone.

Adica dupa indicatiile sistemului SMART, nu intotdeauna se poate de inteles ca se apropie eşecul harddisk-ului, iar parametrii care prezic cel mai des ca degraba harddisk-ul se poate defecta sunt: „scan errors, reallocation counts, offline reallocation counts, and robational counts”, iar temperatura si nivelul de activitate nu au un factor decisiv asupra probabilităţii de defectare.

După datele google, 56% din toate hdd-urile s-au defectat fara nici un semnal de la cele 4 valori „prevestitoare” de la SMART (care le-am scris mai sus).

Utilization AFR

Si cel mai interesant ca moartea hdd-ului vine cel mai des in primele 3 luni de utilizare si dupa 3 ani de utilizare. Si din cite observam, cum am mai spus mai sus, nivelul de utilizare a hdd-urilor nu le face cu mult mai vulnerabile de cit cele care se utilizeaza mai putin intens..

AFR for average drive temperature

Dupa graficele de temperatura, hdd-urile care au avut o temp. de lucru intre 35-40C s-au defectat cel mai putin..

Iata aici cineva a digerat documentul de la google in mai multe detalii, drept ca in rusa, daca nu aveti rabdarea sa intepretati singuri analiza furnizata de google.

Răspunsul la intrebarea „Si deci cum putem afla daca hdd-ul nostru se va defecta miine ?” – nicicum :)

Asa deci riscul ca harddisk-ul cu date importante sa se defecteze persista in orice moment, faceti mai des backup-uri la date importante..

Anunțuri

6 comentarii »

  1. Ma lasat placut uimita analiza ta :), pot sa spun si eu dintro mica experienta proprie, ca HDD meu propriu un Samsung de 80Gb, nu mai stiu ce proprietati mai are da nu asta conteaza, a lucrat deacum 3 ani, aproape non-stop, pe urma serverul care lucreaza la mine deam de 2 ani, da e un calculator de vreo 20 de ani cred, cel putin un Pentium I, de care sunt destul de multumit, si nu pot sa zic ca e HDD, care ma preocupa in primul rind la el (din motiv ca exita backup :) ), hz caroce pina cind ma impac bine cu HDD, drept ca e foarte periculos pentru tine la distanta o problema tehnica, inteleg bine de ce iti faci asa griji, gindestete si tu la un server de rezerva deam, asa ai sa dormi mai bine noaptea :D

    Comentariu de Adrian — Februarie 11, 2008 @ 11:58

  2. yeah, nu se stie niciodata cand vor „rugini” magnetii ;D

    Comentariu de fenix — Februarie 11, 2008 @ 22:34

  3. mi-i lene sa citesc, da in general smart sax.. mi-aminteste de monitorizarea M$ a nivelului de incarcare a bateriilor din tastatura si mouse.. ceva de tipul full -> good -> apoi eroare cu critical level / replace battery si is nevoit sa trec inapoi pe vechiul meu prieten cu fir

    Comentariu de polonyk — Februarie 12, 2008 @ 23:07

  4. Din experienta lui google, 44% au murit dupa cum a sugerat SMART %) Asa deci, nu e chiar inutil..

    Comentariu de Adrenalin — Februarie 13, 2008 @ 0:13

  5. >După datele google, 56% din toate hdd-urile s-au defectat fara nici un semnal de la cele 4 valori “prevestitoare” de la SMART (care le-am scris mai sus).
    >Din experienta lui google, 44% au murit dupa cum a sugerat SMART %)
    44%, si asta ii dohuia.

    Comentariu de polonyk — Februarie 13, 2008 @ 13:26

  6. >44%, si asta ii dohuia.
    Exact ;D

    Comentariu de Adrenalin — Februarie 13, 2008 @ 16:30


RSS feed for comments on this post. TrackBack URI

Lasă un răspuns

Completează mai jos detaliile tale sau dă clic pe un icon pentru a te autentifica:

Logo WordPress.com

Comentezi folosind contul tău WordPress.com. Dezautentificare / Schimbă )

Poză Twitter

Comentezi folosind contul tău Twitter. Dezautentificare / Schimbă )

Fotografie Facebook

Comentezi folosind contul tău Facebook. Dezautentificare / Schimbă )

Fotografie Google+

Comentezi folosind contul tău Google+. Dezautentificare / Schimbă )

Conectare la %s

Blog la WordPress.com.

%d blogeri au apreciat asta: