Rất nhiều người trong chúng ta đã trải qua một sự thất bại đĩa cứng; một số người trong chúng ta thậm chí đã cố gắng tìm hiểu thêm về độ tin cậy của đĩa cứng và chức năng dự báo ẩn sâu của họ, đó là một phần của công nghệ được gọi là SMART. Người ta có thể cho rằng SMART không đáng tin cậy vì nó không dự đoán thất bại trong mọi trường hợp. Thực tế này là một phần đúng, nhưng các hoạt động bên trong thực tế của hệ thống tự giám sát này không đơn giản như vậy. Vì vậy, chúng ta hãy cố gắng khắc phục tình huống không chắc chắn này và kiểm tra SMART hoạt động như thế nào. Băt đâu nao:
SMART - Một chút lịch sử
SMART, đôi khi được viết dưới dạng SMART (Tự Giám sát, Phân tích và Báo cáo Công nghệ) là một hệ thống giám sát thông tin nội bộ của ổ đĩa của bạn. Nó được phát triển bắt đầu từ năm 1992 và bây giờ nó được bao gồm trong tất cả các ổ đĩa cứng IDE và Serial ATA hiện đại (HDD). Tất nhiên, nó là một tính năng hiện diện cũng trong ổ đĩa trạng thái rắn (SSD).
Lịch sử của nó bao gồm một loạt các tên như Predictive Failure Analysis hoặc IntelliSafe và đầu vào từ tất cả các nhà sản xuất đĩa cứng lớn: IBM, Seagate, Quantum, Western Digital. Cuối cùng, tài liệu của nó được giới thiệu lần đầu tiên vào năm 2004 trong tiêu chuẩn Parallel ATA và nhận được những sửa đổi thường xuyên cho đến năm 2008.
Sự sáng tạo của nó dựa trên sự cần thiết phải theo dõi tình trạng của đĩa và nó được cho là sẽ cho bạn biết nếu đĩa cứng sắp sửa, tốt, chết đi. Trong khi bạn có thể nghĩ rằng SMART sẽ kỳ diệu đoán nếu ổ đĩa là lành mạnh, thực sự nó cho thấy một loạt các biến có số lượng và loại khác nhau từ ổ đĩa để lái xe, đó là chỉ số về độ tin cậy của nó. Để có danh sách đầy đủ các thuộc tính, vì có khoảng 50 thuộc tính (ví dụ: tỷ lệ lỗi đọc thô, thời gian tăng lên, báo cáo lỗi không thể sửa được, thời gian bật, số chu kỳ tải, v.v.), có thể truy cập tại đây.
Ngoài một số nỗ lực số ít (Google, Backblaze), hầu hết dữ liệu SMART đều không có giấy tờ. Hệ thống cung cấp rất nhiều dữ liệu nội bộ nhưng có rất nhiều mâu thuẫn trong số liệu thống kê chủ yếu là do nhiều nhà sản xuất ổ cứng sử dụng các định nghĩa và phép đo khác nhau. Ví dụ: một số nhà sản xuất lưu trữ điện năng theo giờ, trong khi các nhà sản xuất khác tính theo phút hoặc giây. Ngoài ra, không ai trong số họ cố gắng để giải thích mà các thuộc tính khác nhau hoặc các biến có giá trị sự chú ý của chúng tôi, làm cho chúng ta bị chết đuối trong dữ liệu.
Trước khi cố gắng hiểu được thuộc tính nào có liên quan, trước tiên chúng ta phải phân biệt giữa các loại lỗi chính: có thể đoán trước và không thể dự đoán được. Loại đầu tiên bao gồm các lỗi xuất hiện trong thời gian và được gây ra bởi cơ chế đĩa bị lỗi hoặc thiệt hại của bề mặt đĩa. Các vấn đề trở nên tồi tệ hơn theo thời gian và cuối cùng đĩa sẽ thất bại. Thất bại không thể đoán trước được gây ra bởi các sự kiện bất ngờ, trong đó chúng ta có thể đề cập đến, ví dụ, sức mạnh đột ngột tăng lên.
LƯU Ý: Điều quan trọng là phải hiểu rằng SMART chỉ có thể giúp bạn phát hiện các lỗi có thể dự đoán được.
Thuộc tính SMART quan trọng
Tình trạng sức khỏe của đĩa cứng được giám sát liên tục bằng cách sử dụng nhiều cảm biến. Các giá trị được đo bằng cách sử dụng các thuật toán điển hình và sau đó, các thuộc tính tương ứng được tinh chỉnh theo kết quả.
Trong bất kỳ chương trình giám sát nào, bạn sẽ sử dụng tất cả các thuộc tính SMART sẽ có các trường sau:
- Định danh: định nghĩa của thuộc tính. Nó thường có ý nghĩa tiêu chuẩn và nó được đánh dấu bằng một số từ 1 đến 250 (ví dụ 9 là Số đếm điện). Tuy nhiên, tất cả các công cụ kiểm tra và kiểm tra đĩa đều cung cấp tên và mô tả văn bản của thuộc tính.
- Ngưỡng: giá trị tối thiểu cho thuộc tính. Nếu giá trị này đạt được thì đĩa cứng của bạn sắp thất bại.
- Giá trị: giá trị hiện tại của thuộc tính. Thuật toán tính toán số này dựa trên dữ liệu thô. Một đĩa cứng mới sẽ có số lượng cao, tối đa lý thuyết (100, 200 hoặc 253 tùy thuộc vào nhà sản xuất), sẽ giảm trong suốt thời gian tồn tại của ổ đĩa cứng.
- Tệ nhất: giá trị nhỏ nhất của thuộc tính được ghi lại.
- Dữ liệu: giá trị được đo thô được cung cấp bởi bộ cảm biến hoặc bộ đếm. Đây là dữ liệu được sử dụng bởi thuật toán được thiết kế bởi nhà sản xuất HDD. Nội dung của nó phụ thuộc vào thuộc tính và nhà sản xuất đĩa cứng. Người dùng thông thường nên bỏ qua điều này.
- Cờ: mục đích của thuộc tính. Điều này thường được thiết lập bởi nhà sản xuất và do đó sẽ thay đổi từ đĩa vào đĩa. Mỗi thuộc tính đều quan trọng và có thể dự đoán được sự cố sắp xảy ra (ví dụ ID 5 được phân bổ lại theo lĩnh vực) hoặc thống kê không ảnh hưởng trực tiếp đến trạng thái (ví dụ số mất điện bất ngờ ID 174).
LƯU Ý: Luôn nhớ, khi cố gắng hiểu trạng thái của bất kỳ thuộc tính SMART nào, hãy kiểm tra các giá trị của ba trường này: giá trị, ngưỡng và cờ. Cũng nên nhớ rằng các giá trị nhỏ hơn là dấu hiệu giảm độ tin cậy.
Nhiệt độ đĩa là một tham số có tính tranh luận cao. Tuy nhiên nó được coi là giá trị trên 60 ° C sẽ làm giảm tuổi thọ của một ổ cứng và tăng xác suất thiệt hại. Chúng tôi khuyên bạn nên sử dụng quạt để giảm nhiệt độ của đĩa cứng và có thể kéo dài tuổi thọ của chúng.
Như chúng tôi đã đề cập ở trên, không phải tất cả các thuộc tính SMART đều quan trọng đối với dự đoán lỗi. Hai nghiên cứu được đề cập ở trên về tỷ lệ thất bại ổ đĩa cứng và các nguồn khác đồng ý rằng một trợ giúp quan trọng trong việc xác định các ổ đĩa thất bại là số phân bổ theo lĩnh vực ID 5. Việc tái phân bổ xảy ra khi logic của ổ đĩa xử lý lại một khu vực bị hư hỏng, do các lỗi mềm hoặc cứng định kỳ, đến một khu vực vật lý mới từ các khu vực dự phòng của nó. Thuộc tính này phản ánh số lần lặp lại đã xảy ra và nó là một dấu hiệu cho thấy bề mặt ổ cứng.
Một thuộc tính hữu ích khác cần được theo dõi là ID 197- Số đếm hiện tại đang chờ xử lý. Điều này đếm các lĩnh vực "không ổn định", có nghĩa là những người bị hư hỏng với lỗi đọc đang chờ đợi một bản remapping, một loại "quản chế" hệ thống. Thuật toán của SMART có những cảm xúc lẫn lộn về thuộc tính đặc biệt này, vì nó đôi khi không thuyết phục, nhưng nó được tuyên bố rằng nó có thể cung cấp một cảnh báo trước đó về các vấn đề có thể xảy ra.
Cuối cùng của các chỉ số này phải được theo dõi là ID 187- Báo cáo lỗi không thể sửa được. Đó là số lượng lỗi không thể phục hồi và nó rất hữu ích vì nó dường như có cùng ý nghĩa với tất cả các nhà sản xuất.
LƯU Ý: Tất cả các thuộc tính SMART được đề cập ở trên đều có giá trị dễ hiểu. Nếu họ báo cáo một số 1 hoặc nhiều hơn, rất có thể ổ đĩa của bạn không thành công, vì vậy hãy bắt đầu sao lưu tốt hơn. Tuy nhiên, mặc dù đây là những chỉ số hữu ích về độ tin cậy của ổ đĩa, nhưng chúng không phải là điều dễ hiểu và bạn nên so sánh chúng với lời khuyên được cung cấp bởi công cụ giám sát HDD đã chọn của bạn.
Phần kết luận
Đây là nghiên cứu ngắn của chúng tôi về hoạt động bên trong của SMART và khả năng giám sát và dự đoán các lỗi đĩa cứng. Quan điểm chính bạn nên nhớ là hệ thống tự giám sát này sẽ giúp bạn xem lại trạng thái của ổ cứng. Nếu bạn muốn sử dụng dữ liệu SMART này để xem liệu ổ đĩa của bạn có vấn đề hay không, hãy đọc các bài viết được đề nghị bên dưới.