Análisis SMART Avanzado: Guía Técnica Completa para Predecir el Fallo de un Disco Duro
SMART (Self-Monitoring, Analysis and Reporting Technology) es el sistema de autodiagnóstico integrado en todos los discos duros modernos. Sin embargo, leer correctamente los atributos SMART requiere conocer qué significa cada valor, qué umbrales son realmente peligrosos y, sobre todo, cuándo SMART puede engañarte dando valores correctos horas antes de un fallo catastrófico. Esta guía técnica analiza los atributos más críticos con ejemplos reales.
Cómo funciona SMART: valores, umbrales y raw data
Cada atributo SMART tiene tres componentes que muchos usuarios confunden:
- Value (Valor normalizado): Número entre 1 y 253. El fabricante lo establece en 100 o 200 en un disco nuevo. Baja con el tiempo y el desgaste.
- Worst: El valor normalizado más bajo que ha alcanzado el disco en toda su vida. Si nunca ha tenido un evento crítico, coincide con Value.
- Threshold (Umbral): Valor fijado por el fabricante. Si Value cae por debajo de Threshold, el disco está en estado de fallo inminente (Pre-Fail).
- Raw Value: El contador real en formato hexadecimal o decimal. Es el dato más útil para el diagnóstico, independientemente del valor normalizado.
Ejemplo: Un atributo 05 (Reallocated Sectors) con Value=100, Worst=100, Threshold=36 y Raw=0x000000000005 parece sano por valor normalizado, pero el Raw indica 5 sectores reasignados. Cualquier valor Raw diferente de 0 en este atributo es motivo de atención inmediata.
Atributos SMART críticos: los que debes vigilar
Atributo 05 — Reallocated Sectors Count
Qué mide: El número de sectores que el disco ha marcado como dañados y ha reasignado a sectores de reserva (spare sectors). Cada vez que el disco detecta que un sector no puede leerse ni escribirse correctamente, lo reasigna y registra el evento aquí.
Interpretación:
- Raw = 0: Disco sano en este aspecto.
- Raw 1-5: Situación de alerta. Monitorizar de cerca. Backup inmediato.
- Raw > 5: Sustitur el disco inmediatamente. No hay tiempo que perder.
- Raw > 50: Riesgo de pérdida de datos inminente. Es posible que ya haya datos inaccesibles.
Nota crítica: Cuando los sectores de reserva se agotan, el disco empieza a reportar Pending Sectors (atributo C5) en lugar de reasignarlos. Es el punto de no retorno.
Atributo C5 (197) — Current Pending Sectors
Qué mide: Sectores "pendientes de reasignación": el disco los ha detectado como problemáticos pero aún no ha podido leerlos ni reasignarlos. Son sectores en tierra de nadie.
Por qué es el más peligroso: Los Pending Sectors representan datos que el disco no puede leer actualmente. Si esos sectores contienen ficheros del sistema operativo, la corrupción puede extenderse rápidamente. A diferencia del atributo 05, los Pending Sectors NO están todavía respaldados en sectores de reserva.
Interpretación: Cualquier valor Raw diferente de 0 requiere acción inmediata: clonar el disco con herramientas especializadas (ddrescue, Clonezilla con modo de rescate) y enviarlo a un laboratorio.
Atributo C6 (198) — Uncorrectable Sector Count
Qué mide: Sectores que el disco ha intentado leer múltiples veces y no ha podido recuperar, ni siquiera con los algoritmos ECC internos. Son pérdidas de datos confirmadas.
Interpretación: Cualquier valor diferente de 0 significa que ya hay datos perdidos en el disco. En este punto, incluso el software de recuperación más avanzado puede no recuperar el 100% de los datos. Es esencial un diagnóstico en sala limpia.
Atributo BC (188) — Command Timeout
Qué mide: Número de operaciones que han expirado antes de completarse. Se codifica en tres contadores de 2 bytes: total de timeouts, timeouts de más de 5 segundos y timeouts de más de 7,5 segundos.
Importancia: Valores altos en este atributo indican lentitud extrema del disco, a menudo asociada a problemas eléctricos (PCB deteriorada, fuente de alimentación inestable) o mecánicos tempranos. En sistemas RAID, los discos lentos que generan muchos timeouts pueden provocar la degradación del array porque el controlador los expulsa por "no responder a tiempo".
Atributo C2 (194) — Temperature Celsius
Qué mide: Temperatura interna del disco. El Raw Value suele codificar temperatura actual, mínima y máxima histórica.
Umbrales recomendados:
- HDD 3,5”: Operación óptima entre 25°C y 45°C. Por encima de 55°C la tasa de fallos aumenta exponencialmente.
- HDD 2,5” portátil: Rango normal 25°C-50°C.
- SSD NAND: Soportan hasta 70°C, pero temperaturas sostenidas altas aceleran la degradación de las celdas.
Nota: No confundir temperatura alta con fallo inminente. Un disco a 50°C puede funcionar correctamente, pero un disco que pasa de 35°C a 58°C en pocas horas sin cambio en la carga de trabajo puede indicar un problema mecánico interno (rodamiento del motor generando más fricción).
Atributo 09 — Power-On Hours Count
Qué mide: Número total de horas que el disco ha estado encendido desde su fabricación.
Uso en diagnóstico: Permite estimar el desgaste acumulado. Un disco HDD de 7200 RPM con más de 30.000 horas (~3,4 años de uso continuo) está en el período de mayor riesgo de fallo mecánico (curva de bañera de fiabilidad). Para discos de servidor, fabricantes como Seagate y WD especifican vida útil en horas (normalmente 55.000-60.000 horas para modelos enterprise).
Atributos F1 y F2 — Total LBAs Written / Read
Qué miden: Total de sectores lógicos escritos (F1) y leídos (F2) en toda la vida del disco. Especialmente útiles para SSD, donde cada celda NAND tiene un número limitado de ciclos de escritura.
Cálculo de desgaste en SSD: Multiplica el raw de F1 por 512 (tamaño de sector en bytes) para obtener el total de bytes escritos. Compara con el TBW (Terabytes Written) especificado por el fabricante. Si has superado el 70-80% del TBW garantizado, considera sustituir el SSD en breve.
CrystalDiskInfo: lectura e interpretación correcta
CrystalDiskInfo es la herramienta más usada en Windows para leer datos SMART. Sin embargo, muchos usuarios no saben interpretarla correctamente:
- Estado "Bueno" no significa "sano": CrystalDiskInfo muestra "Bueno" si ningún atributo Pre-Fail ha cruzado su umbral. Pero los atributos C5 o C6 con valores Raw altos no cambian el estado a "Cuidado" hasta que el valor normalizado baja del threshold. Siempre mira el Raw Value de los atributos 05, C5 y C6 directamente.
- Activa las notificaciones: CrystalDiskInfo puede ejecutarse en segundo plano y notificarte cuando un atributo cambia. Configura alertas para los atributos C5, C6 y 05.
- Modo "AAM/APM": Evita activar APM (Advanced Power Management) agresivo en discos que almacenan datos críticos. El ciclo frecuente de carga/descarga de cabezales (atributo C1) aumenta el desgaste mecánico.
Cuándo SMART miente: los límites de la tecnología
SMART no es infalible. Estudios de Google y Backblaze con cientos de miles de discos en producción demuestran que entre el 36% y el 60% de los discos que fallaron no mostraron ningún atributo SMART anómalo antes del fallo. Los fallos que SMART no predice bien son:
- Fallos eléctricos súbitos: Un pico de tensión que destruye la PCB o quema la cabeza de lectura/escritura. Ocurre en milisegundos, sin aviso previo.
- Fallos por golpe o caída: Un impacto físico puede rayar los platos magnéticos y generar pérdidas instantáneas. SMART puede mostrar 0 sectores defectuosos hasta el momento del impacto.
- Despegue de cabezales (head crash) súbito: En discos con meses de uso, el despegue de un cabezal puede ocurrir sin deterioro SMART previo detectable.
- Fallos de firmware: Bugs en el firmware del disco pueden hacerlo inaccesible sin ninguna señal SMART previa.
Conclusión: SMART es una herramienta de diagnóstico muy útil, pero no sustituye a una política de backup sólida. Un disco con SMART perfecto puede fallar mañana.
Tabla resumen de atributos SMART críticos
| ID | Nombre | Alerta si Raw… | Acción recomendada |
|---|---|---|---|
| 05 | Reallocated Sectors Count | > 0 | Backup inmediato, sustituir si > 5 |
| C5 (197) | Current Pending Sectors | > 0 | Clonación urgente, laboratorio |
| C6 (198) | Uncorrectable Sectors | > 0 | Pérdida confirmada, laboratorio ya |
| BC (188) | Command Timeout | Creciendo rápido | Revisar alimentación y controladora |
| C2 (194) | Temperature | > 55°C sostenido | Mejorar ventilación, sustituir si persiste |
| 09 | Power-On Hours | > 30.000 h (HDD) | Planificar sustitución preventiva |
| F1 | Total LBAs Written | > 70% TBW (SSD) | Planificar sustitución SSD |
Qué hacer cuando los atributos SMART son críticos
Si al revisar el SMART de tu disco encuentras valores Raw > 0 en los atributos 05, C5 o C6, sigue estos pasos en orden:
- No apagues ni reinicies el equipo innecesariamente: Cada ciclo de encendido estresa el disco. Si el equipo está encendido y el disco accesible, aprovecha para copiar los datos más importantes primero.
- Copia los datos críticos manualmente: Prioriza documentos, bases de datos y proyectos activos. Usa un disco externo sano.
- Si el disco no copia sin errores: Usa ddrescue (Linux) o herramientas similares que gestionan los sectores defectuosos sin colgar el proceso. Nunca uses xcopy en Windows con sectores defectuosos: puede quedar bloqueado horas.
- Contacta con un laboratorio: Si el disco hace ruidos extraños, o el software de clonación no puede completar la imagen, es el momento de llamar a profesionales.
¿Has detectado atributos SMART anómalos en tu disco? No esperes a que sea demasiado tarde.
Solicitar diagnóstico profesional gratuito