테라비아트급 HDD들이 대거 출시되고 있네요.
아직 전 테라까지는 필요가 없을 듯 하고...
너무 커도 구지 담아 둘 것도 없고....

고용량 HDD의 많은 구입.... 그에 따라...
HDD에 문제가 생기면 이게 무슨 문제지....
하고 당황스러울 때도 있고 내부에 저장된 데이터들  때문에
짜증을 유발할때도 있는데....

HDD제조사들은 더욱 더 안정성있는 HDD를 만들기위해 노력을 기울이고 있습니다.
그해서 탄생한 것이....
S.M.A.R.T (Self Monitoring, Analysis and Reporting Technology System) 입니다.

이 기술은 96년도에 처음 적용이 시작됬고 그렇기에 지금의 HDD에는 무조건적으로
포함이 되어 있습니다.
당시에는 획기적인 기술로 이슈까지 됬지만...
지금에 와서는 잘 다뤄지지도 않고 알려지지도 않고 있습니다.

하지만... 이 기능을 통해서 HDD업체들은 제품의 손쉽게 오류의 가능성을
잡아볼 수 있고...
사용자에게는 조금만 알아두면 HDD가 맛이 갈 때가 가깝구나를 알 수 있습니다.

그런데.... SMART기능에 의해 문제점이 있다는 메세지를 접해도 일단은 바로
HDD의 고장으로 연결되지 않기때문에... 많은 사용자분들께서는 짜증을 내며
이거 끄는 방법좀 알려달라는 글들도 많이 보입니다.

이 기능이 고장 및 에러확률을 예측해서 경고하는 수준이기 때문에
실제로 사용에 문제가 나타나지 않아서 그런 반응을 보이게 되는것인데요.

SMART기능에서 보이는 각 항목에서 몇 가지만 알아두면 HDD를 좀 더 안전하게
사용할 수 있을것이라 생각되서 이걸 써요.


  33[1].jpg


일단 그림은 지금 제가 사용중인 삼성HDD이고 예전 E-IDE모델입니다.
그리고... ID란 탭에 보이는 항목들은 HDD마다 다른 값이 표시될 수 있습니다.

보이는 부분에서 Current값과 Worst값... 그리고 맨 뒤의 Status만 보셔도 됩니다.

SMART란 하나의 장치이고 각 HDD제조사들마다 그들에 맞는 테스트값을 더 넣기도 합니다.
이건 물어봐도 잘 알려주는 사람도 없고 예전 삼성에 물어봤더니...
기밀?이라서 알려주지 않는다네요 ㅡㅡㅋ
중요하게 집고 넘어가야 할 정도만 설명하겠습니다.

01. Raw Read Error Rate.
     이 값은 읽기에러 빈도를 나타냅니다. 그리고 중요하게 봐야 할 값입니다.
     Current값이 100인데 뒤에 Worst값도 100입니다.
     현재값보다 떨어지면 안좋습니다.
     물리적인 디스크표면 손상과 헤드손상이 일어날 수 있다는 부분입니다.
     그로인해 데이터를 제대로 읽어내지 못하는 결과를 발생시킵니다.

02. Spin Up Time
     드라이브의 스핀들모터가 돌기시작한 평균적인 시간이랍니다.

03. Star/Stop Count
      말 그대로 HDD가 돌았다 말았다 하는 주기. 별로.....

04. Reallocated Sector Count
     섹터를 리맵핑한 횟수입니다. 중요한 것입니다.
     특정 섹터에 문제가 발생하면 HDD는 여유로 남은 공간을 이 공간에 담긴 데이터를
     옮겨 대신합니다. 그렇기에 이 부분 값이 증가하고 있다면 그 HDD는 맛이 가고
     있다는 것입니다. 교환대상이 되거나... 고쳐야죠.

   ※ 포맷을 할 때 자꾸 8메가 정도 남기는 것을 볼 수 있는데요.
      이것이 이런 오류를 대비해서 만드는 공간입니다.

05. Seek Error Rate
      탐색에러에 대한 평균을 나타냅니다.
      헤드암이 데이터의 위치를 제대로 못찾고 내는 에러입니다.
      많으면 당연히 안좋습니다.

06. Seek Time Performance
      잘은 모르겠지만...
      디스크탐색 시시템성능이라고만 나와있네요. ㅡㅡㅋ

07. Power On Hour Count
     전원 들어가고 구동시간입니다. 패스....

08. Spin Retry Count
     드라이브스핀들 모터가 얼마나 재회전을 시도했는지 하는 값입니다. 패스...

09. Power Cycle Count
      패스....

10. Temperature
      HDD온도입니다. 실 표시되는 온도와는 좀 틀리군요 ㅡㅡㅋ

11. Hardware ECC Recovered
     잘 모르겠습니다 ㅠㅠ
     하드웨어 ECC에 의해 검출된 에러를 복구한 값이라는 것 밖엔....

12. Reallocated Event Count
     섹터치환이 실행된 횟수입니다.
      Reallocated Sector Count와 더불어 중요한 사항입니다.

13. Current Pending Sector
     리맵핑을 할 수도 있는 예정인 불안정한 섹터가 있다는 것입니다.
     데이터를 제대로 읽어냈다면 섹터치환은 일어나지 않지만...
     문제점을 다분히 내포합니다.

14. Offline Uncorrectable
      읽고 쓰는 작업중에 일어난 모든 수정불가한 에러의 횟수입니다.
      당연 많으면 안좋습니다.

15. Ultra DMA CRC Error Count
     데이터전송 인터페이스에서 ICRC에서 검출한 에러의 횟수입니다.
     많아서 좋을 꺼 없습니다.

16. Write Error Rate
     섹터쓰기 에러의 발생빈도입니다.

17. TA Counter Detected
      모르겠습니다. ㅠㅠ
      위에서도 언급했듯이 회사마다 값이 틀려서
      알 수 없는 것들이 있곤 합니다.


허접하게나마 써봤는데... 길어서 좀 힘들군요....
빨간색으로 된 것들은... 중요한 것들입니다.
자주는 아니고 가끔씩이나마 체크해서 기본값과 차이가 많이 벌어지면
HDD의 건강을 위해 조치를 취해줘야 합니다.

대략....

데이터손상에 영향을 주는것은....
- Raw Read Error Rate
- Reallocate Sector count
- Seek Error Rate
- Ultra DMA CRC Error Rate
- Write Error Rate

이것들이며....

HDD의 속도저하를 만드는 문제는....
- Raw Read Error Rate
- Seek Time Performance
- Spin Retry Count

정도입니다.

뭐 자세하게 쓰지는 못했지만...
이 정도만 알아두어도 HDD를 자가적으로 판단해보기엔
충분하리라 생각합니다.


추가적으로 전 레이드를 해보지 않았지만...
레이드 사용자가 많은 관계로...

레이드 사용자라면....

RAID Contoler상에서 SMART를 꼭 ON 하라네요....
레이드는 스트라이프일 경우 하드 하나가 가면... 그냥 가버리자나요.
이상유무 전에 꼭 알아내야 하니 필요하답니다.

SMART Auto Offline Test 기능도 꼭 켜랍니다.
속도저하가 약간 생기지만... SMART갱신속도가 빨라져서 에러에 신속한
대처가 가능할 수 있다네요.

그리고 필히 관심있게 체크해야 할 항목들로,,,

1. Reallocated Sector Count
2. Reallocated Event Count
3. Current Pending Sector
4. Offlline Uncorrectalbe

이며.... 3, 4번 값이 증가하면 HDD교체를 준비하랍니다.


이만 끝.....

 

 

출처 : http://www.diskool.com/