Recuperación de RAID degradado, rebuild fallido y array inaccesible
RAID 0, 1, 5, 6, 10, 50, 60 — la causa nº1 de pérdida de datos empresarial — laboratorio especializado
RAID 0, 1, 5, 6, 10, 50, 60 — la causa nº1 de pérdida de datos empresarial — laboratorio especializado
Un RAID degradado es un array que ha perdido uno o más discos miembros pero sigue operativo gracias a la redundancia. Es un estado de emergencia: el array funciona, pero sin tolerancia a fallos adicional. Un segundo fallo durante un RAID degradado provoca la pérdida total e inmediata de todos los datos.
El problema real no es la degradación en sí — es lo que ocurre después. La mayoría de las pérdidas de datos en RAID se producen durante el intento de rebuild (reconstrucción), no durante el fallo inicial del primer disco. Por eso esta página existe: porque el 70% de los casos RAID que recibimos en nuestro laboratorio son rebuilds fallidos.
Un rebuild de RAID es la operación más exigente que soportan los discos de un array. Cada sector de cada disco restante se lee secuencialmente para recalcular la paridad y escribirla en el disco nuevo. En un RAID 5 de 4 discos de 8TB, esto implica leer ~24TB de datos. Las causas de fallo más frecuentes:
Un URE (Unrecoverable Read Error) es un sector que el disco no puede leer. Los discos enterprise especifican una tasa de 1 URE por 1015 bits leídos (~114 TB). Los discos desktop: 1 URE por 1014 bits (~11.4 TB). En un rebuild de 24TB con discos desktop, la probabilidad de encontrar al menos un URE supera el 60%. Un solo URE puede abortar el rebuild completo.
Los discos del mismo lote suelen tener la misma edad y horas de uso. Si uno falla por desgaste, los demás están en estado similar. El stress del rebuild (lectura secuencial al 100% durante horas) es el detonante perfecto para un segundo fallo. Los estudios de Google y Backblaze confirman que la probabilidad de segundo fallo durante rebuild es 4-8x mayor que en operación normal.
Las controladoras RAID hardware (LSI/Broadcom, Adaptec, HP SmartArray, Dell PERC) almacenan metadata en la propia controladora y en los discos. Un fallo de la controladora durante el rebuild puede corromper las metadata, dejando el array ilegible incluso con discos sanos. Cambiar la controladora por otra del mismo modelo no siempre resuelve el problema.
Si los discos se extraen sin documentar su posición (slot 0, 1, 2...) y se reinsertan en orden incorrecto, la controladora puede interpretar la paridad de forma errada y sobreescribir datos válidos con paridad recalculada incorrecta. Este es el error humano más destructivo en RAID y es irreversible si la controladora completa un rebuild con el orden equivocado.
Un rebuild típico puede durar 12-72 horas según el tamaño del array. Un corte eléctrico durante el proceso deja el array en un estado intermedio: parte de la paridad recalculada, parte con la paridad antigua. La controladora puede no ser capaz de retomar el rebuild y marcar el array como «foreign» o «offline».
⚠ Cada una de estas acciones reduce drásticamente las posibilidades de recuperación:
Cada nivel de RAID tiene una capacidad diferente de absorber fallos de disco. Esta tabla resume la tolerancia teórica y la realidad práctica:
| Nivel RAID | Discos tolerados | Mín. discos | Riesgo en rebuild | Recuperabilidad |
|---|---|---|---|---|
| RAID 0 (Striping) | 0 discos | 2 | No hay rebuild posible. Cualquier fallo = pérdida total. | Baja |
| RAID 1 (Mirror) | 1 disco | 2 | Bajo. Cada disco es copia completa. Rebuild rápido. | Muy alta |
| RAID 5 (Paridad simple) | 1 disco | 3 | Alto. Rebuild lee todos los discos. URE probable en discos >4TB. | Media-Alta |
| RAID 6 (Paridad doble) | 2 discos | 4 | Moderado. Tolera 1 URE durante rebuild sin pérdida. | Alta |
| RAID 10 (Mirror + Stripe) | 1 disco por mirror | 4 | Bajo. Rebuild solo lee el mirror par. Rápido y seguro. | Muy alta |
| RAID 50 | 1 por subgrupo | 6 | Moderado. Cada subgrupo RAID 5 tiene tolerancia independiente. | Alta |
| RAID 60 | 2 por subgrupo | 8 | Bajo. Máxima protección práctica en entornos enterprise. | Muy alta |
La diferencia entre nuestro enfoque y un rebuild automático es fundamental: nunca escribimos en los discos originales. Todo el trabajo se realiza sobre imágenes clonadas, preservando la evidencia original intacta.
Cada disco se clona individualmente con DeepSpar Disk Imager, gestionando sectores defectuosos con múltiples pasadas y variación de parámetros de lectura. Si un disco tiene daño mecánico, intervención previa en sala limpia.
Determinamos la geometría exacta del array: stripe size, algoritmo de paridad (left-symmetric, left-asymmetric, etc.), orden de discos, offset de inicio de datos. Usamos análisis de patrones de paridad XOR y metadata de la controladora.
Reconstrucción virtual completa del array sobre las imágenes clonadas. Si falta un disco, regeneramos los datos faltantes a partir de la paridad de los discos restantes. Si faltan dos discos en RAID 6, usamos la doble paridad (P+Q con Reed-Solomon).
Montaje del sistema de archivos (NTFS, EXT4, XFS, ReFS, VMFS, ZFS, Btrfs) sobre el volumen virtual reconstruido. Extracción completa con verificación de integridad.
Datos entregados en discos externos con informe técnico detallado: geometría RAID, estado de cada disco, listado completo de archivos recuperados con checksums. Solo pagas si recuperamos tus datos.
Tres opciones adaptadas a tu urgencia y presupuesto
| Tipo de caso | Descripción | Plazo | Precio |
|---|---|---|---|
| RAID lógico (discos OK) | Array degradado o inaccesible sin daño físico. Corrupción de metadata, rebuild fallido por URE, configuración perdida. | 5–12 días | 890–1.200€ |
| RAID físico (disco(s) dañados) | Uno o más discos con daño mecánico (cabezales, motor, platos). Intervención en sala limpia + reconstrucción virtual. | 10–20 días | 1.200–3.000€ |
| RAID empresarial (SAS/FC) | Arrays SAS/Fibre Channel en cabinas EMC, NetApp, Dell, HP. Discos 10K/15K RPM. RAID 5/6/10/50/60. | 7–15 días | 1500–4500€ |
| Urgente | Prioridad máxima, días laborables extendidos incluyendo fines de semana. | 24–72h | +50% |
Con discos superiores a 4TB, RAID 5 ya no ofrece protección real porque la probabilidad de URE durante rebuild es demasiado alta. RAID 6 es obligatorio para discos de 4TB o más. RAID 6 tolera la pérdida simultánea de 2 discos y absorbe UREs durante el rebuild sin abortar. El coste adicional de un disco extra es insignificante comparado con el riesgo de pérdida total.
Un URE (Unrecoverable Read Error) es un sector del disco que no puede leerse tras múltiples intentos del firmware. Durante un rebuild RAID 5, cada sector de cada disco superviviente se necesita para recalcular los datos del disco fallido. Si un solo sector de cualquiera de los discos restantes devuelve un URE, la controladora no puede completar la reconstrucción de ese stripe. Dependiendo de la controladora, esto puede abortar el rebuild completo o dejar datos corruptos.
RAID 0 no tiene redundancia. Si un disco falla completamente (100% ilegible), la mitad de los stripes se pierden y la otra mitad contiene fragmentos incoherentes. Sin embargo, si el disco falló por problemas mecánicos (cabezales, motor), la intervención en sala limpia para obtener una imagen del disco defectuoso permite reconstruir el RAID 0 completo. Si el fallo es de superficie (platos rayados), la recuperación parcial es posible para los archivos cuyos stripes están intactos en ambos discos.
El tiempo total depende del estado de los discos. Clonado: si los discos están sanos, 24-48h por disco (~3-4 días para los 4). Si hay sectores defectuosos, el clonado con DeepSpar puede tardar 5-7 días por disco. Reconstrucción virtual: 4-12 horas dependiendo de la complejidad de la geometría. Extracción: 6-24 horas según el volumen de datos. Total realista: 7-15 días laborables para un caso estándar, 3-5 días en servicio urgente.
Depende. Las controladoras RAID hardware almacenan metadata tanto en la propia controladora (NVRAM/flash) como en los discos (DDF, metadata propietaria). Si la controladora falla pero los discos están intactos, podemos leer las metadata de los discos para reconstruir la geometría del array virtualmente, sin necesidad de la controladora original. La recuperación es viable en la gran mayoría de casos.
El RAID software (mdadm en Linux, Storage Spaces en Windows, ZFS) almacena toda la configuración en los propios discos, lo que facilita la recuperación: cualquier sistema Linux puede leer las metadata y reconstruir el array. El RAID hardware (LSI/Broadcom, Adaptec, HP, Dell) puede usar formatos propietarios y almacenar parte de la config en la controladora. La recuperación es posible en ambos casos, pero el RAID hardware requiere más análisis forense de las metadata.
Sí. Recuperamos datos de cabinas SAN empresariales: EMC VNX/Unity, NetApp FAS/AFF, Dell PowerVault/EqualLogic, HP MSA/3PAR. Los discos SAS/FC se extraen de la cabina, se clonan con adaptadores SAS y se reconstruye la geometría RAID virtualmente. También trabajamos con volúmenes iSCSI y Fibre Channel. El proceso es el mismo independientemente del fabricante de la cabina.
Recogida urgente en toda España. Diagnóstico en 4 horas. Laboratorio operativo incluidos fines de semana.
No hagas rebuild, no inicialices, no apagues y enciendas. Mientras más esperes, más riesgo.
Recogida gratuita* en 24h · Diagnóstico en 4 horas · Sin recuperación, sin coste
Guías prácticas, novedades y consejos para proteger tus datos. Sin spam.
Entérate de todo lo nuevo