Un RAID 5 con un disco fallido está en modo degradado: sigue funcionando gracias a la paridad, pero si falla un segundo disco antes de completar la reconstrucción, pierdes todos los datos. Esta ventana de vulnerabilidad puede durar horas o días. Saber exactamente qué hacer —y qué no hacer— en las próximas horas puede ser la diferencia entre reconstruir el array sin pérdidas o perderlo todo.
Datos clave — RAID 5 con disco fallido
- Estado: RAID 5 degradado = funciona, pero sin tolerancia a fallos — un segundo fallo = pérdida total
- "Rebuild roulette": La reconstrucción lee todos los discos del array — puede desencadenar un segundo fallo
- Acción prioritaria: Hacer backup completo ANTES de iniciar la reconstrucción
- Tasa de éxito en laboratorio: 70-90% cuando llegamos antes del segundo fallo
- Coste: 500-2.000€ + IVA según configuración y número de discos
- Diagnóstico: Gratuito — evaluamos el estado real del array antes de comprometerte
Cómo funciona RAID 5 y por qué el modo degradado es peligroso
RAID 5 distribuye los datos y la información de paridad entre todos los discos del array. Con N discos, cada disco almacena 1/(N-1) de los datos más la paridad calculada de los demás discos. Esta arquitectura permite que el sistema siga funcionando si falla exactamente un disco — reconstruye los datos del disco fallido en tiempo real usando la paridad y los datos de los discos restantes.
El problema es lo que sucede durante la reconstrucción (rebuild):
- El proceso de reconstrucción lee el 100% de los datos de todos los discos supervivientes para recalcular los datos del disco fallido
- Este proceso intensivo de lectura puede durar 6-48 horas para arrays de 2-20TB
- Durante ese tiempo, los discos supervivientes (que ya pueden estar desgastados por llevar años en el mismo array que el disco fallido) se someten al mayor estrés de lectura de su vida
- Si cualquiera de esos discos tiene un sector defectuoso no leído previamente (un "Uncorrectable Read Error" o URE), la reconstrucción falla — y el RAID queda irrecuperable sin intervención de laboratorio
El problema de los URE (Uncorrectable Read Errors)
Las especificaciones de los discos duros SATA de consumo indican una tasa de error de lectura no corregible de 1 en 10^14 bits leídos. Con un array RAID 5 de 3 discos de 4TB cada uno, durante la reconstrucción se leen aproximadamente 8TB de datos. La probabilidad de un URE es alrededor del 7%. Con discos de 8TB, la probabilidad sube al 15%. Con discos de 16TB, al 30%.
Los discos NAS y de grado empresarial (Seagate IronWolf, WD Red Pro, HGST Ultrastar) tienen tasas de URE de 10^15 o 10^16 — 10-100 veces mejores. Por eso los expertos siempre recomiendan usar discos NAS-grade en RAIDs, aunque cuesten más.
Qué hacer ahora mismo: prioridad por urgencia
Paso 1: Evalúa el estado SMART de los discos supervivientes (AHORA)
Antes de cualquier otra acción, lee el estado SMART de todos los discos del array con CrystalDiskInfo (Windows) o smartmontools (Linux). Presta atención especialmente a:
- C5 (Current Pending Sectors): Si cualquier disco superviviente tiene C5 > 0, la reconstrucción tiene alta probabilidad de fallar
- C6 (Uncorrectable Sectors): Si cualquier disco tiene C6 > 0, el fallo durante la reconstrucción es casi seguro
- 05 (Reallocated Sectors): Más de 20-50 sectores reasignados indica desgaste significativo
Paso 2: Haz backup de los datos ANTES de reconstruir
Si el RAID sigue funcionando en modo degradado (los datos son accesibles), no inicies la reconstrucción hasta haber hecho un backup completo de todos los datos. La reconstrucción puede esperar; los datos no.
Conecta un disco externo de capacidad suficiente (al menos la capacidad total del array) y copia todo antes de tocar nada más.
Paso 3: Evalúa si reconstruir o reemplazar
Una vez que tienes backup y has evaluado el SMART de los supervivientes:
- SMART OK en todos los supervivientes: Puedes intentar la reconstrucción con un disco de repuesto nuevo. Monitorea los SMART durante el proceso.
- SMART en amarillo en cualquier superviviente: Considera reemplazar ese disco también antes de reconstruir. Dos reemplazos a la vez (uno fallido + uno preventivo) es posible en RAID 6 pero NO en RAID 5.
- SMART en rojo (C5/C6 > 0): Llama al laboratorio antes de intentar la reconstrucción.
Cómo hacer la reconstrucción correctamente
Proceso en NAS Synology
- Ve a "Storage Manager" → "Volume"
- Verifica que el volume está en estado "Degraded" con un disco marcado como "Crashed"
- Apaga el NAS, retira el disco fallido, instala el disco de repuesto nuevo
- Enciende el NAS — DSM detectará el nuevo disco y ofrecerá iniciar la reparación del volumen
- Inicia la reparación y monitorea el progreso — puede tardar horas
- Durante la reparación, minimiza el acceso a los datos del NAS para reducir la carga en los discos
Proceso en NAS QNAP
- Accede a "Storage & Snapshots" → identifica el grupo de RAID degradado
- Reemplaza el disco fallido con uno nuevo de la misma capacidad o mayor
- QTS iniciará automáticamente la reconstrucción; o hazla manualmente desde "Manage"
Proceso en servidor Linux (mdadm)
# Verificar estado del array cat /proc/mdstat mdadm --detail /dev/md0 # Añadir nuevo disco al array degradado mdadm /dev/md0 --add /dev/sdd # Monitorear la reconstrucción watch cat /proc/mdstat
Proceso en controladora hardware (HP Smart Array, Dell PERC)
Las controladoras hardware de servidor (HP Smart Array, Dell PERC, LSI MegaRAID) gestionan la reconstrucción automáticamente cuando se instala un disco de repuesto ("hot spare"). Si no tienes hot spare, instala el disco de repuesto en el slot del disco fallido — la controladora iniciará la reconstrucción. Monitorea desde la consola de gestión (HP SSA, Dell OpenManage).
Qué hacer si la reconstrucción falla
Si durante la reconstrucción aparece un segundo error (un segundo disco marca como fallido o el proceso se detiene con error), el RAID ha fallado completamente y los datos no son accesibles de forma normal. En este punto:
- Apaga el NAS o servidor inmediatamente — no intentes forzar la reconstrucción
- No reinicies ni intentes reconstruir manualmente — las controladoras de NAS y servidor pueden marcar los discos como "foreign" o reinicializar el array si detectan incoherencia, destruyendo los metadatos del RAID
- No cambies el orden de los discos — el orden de los discos es crítico para la recuperación del RAID
- Llama al laboratorio con todos los discos del array
Qué puede hacer el laboratorio
En laboratorio, el proceso de recuperación de un RAID 5 con doble fallo tiene varias etapas:
- Imagen sector por sector de todos los discos del array (incluyendo el disco fallido, si es posible)
- Reconstrucción del layout del RAID: identificar el orden de los discos, el tamaño del stripe, la posición de la paridad (izquierda, derecha, variable) y el algoritmo XOR
- Reconstrucción virtual del array con las imágenes obtenidas
- Extracción del sistema de ficheros (ext4, XFS, Btrfs, NTFS) desde el array reconstruido
- Recuperación de archivos mediante metadata del sistema de ficheros y/o file carving
RAID 6, RAID 10 y otras configuraciones
RAID 6 (tolerancia a 2 fallos simultáneos)
RAID 6 usa doble paridad, tolerando el fallo simultáneo de hasta 2 discos. Es significativamente más seguro que RAID 5 para arrays con 4+ discos de gran capacidad. Si tienes RAID 6 con un disco fallido, la urgencia es menor que en RAID 5 — pero no inexistente. Si falla un segundo disco, sigues operativo. Si falla un tercero, pierdes todo.
RAID 10 (espejo + stripe)
RAID 10 puede tolerar el fallo simultáneo de múltiples discos, siempre que no sean los dos discos de la misma pareja espejo. Es más caro (solo el 50% de la capacidad es utilizable) pero más rápido de reconstruir y más resistente al fallo durante la reconstrucción.
RAID 5E / RAID 5EE (con hot spare dedicado)
Configuraciones de servidor enterprise que incluyen un disco hot spare permanente en el array. En caso de fallo, la reconstrucción empieza automáticamente sin intervención humana.
Prevención: cómo evitar perder datos en RAID 5
- Usa discos NAS/enterprise grade (WD Red Pro, Seagate IronWolf Pro, HGST Ultrastar) — sus tasas de URE son 10-100x mejores que los discos de consumo
- Sustituye los discos del mismo array al mismo tiempo — si llevas 4 años con el array, todos los discos tienen 4 años de desgaste. Considera sustituirlos todos a la vez cada 4-5 años
- Configura un hot spare dedicado si el NAS/servidor lo permite — así la reconstrucción empieza automáticamente sin intervención manual
- Monitorea SMART semanalmente — herramientas como Synology DSM y QNAP QTS envían alertas por email cuando el SMART de un disco empeora
- RECUERDA: el RAID no es backup — haz copias fuera del NAS (nube, disco externo offline)
Preguntas frecuentes
Llama ahora al 900 899 002 (gratuito) o escríbenos por WhatsApp. Diagnóstico gratuito. Recogida urgente en toda España.