Recuperación de RAID degradado, rebuild fallido y array inaccesible

RAID 0, 1, 5, 6, 10, 50, 60 — la causa nº1 de pérdida de datos empresarial — laboratorio especializado

Diagnóstico:
Gratuito
Controladores:
Todos (HW/SW)
Tipos:
RAID 0-60
Desde:
890€
Urgente:
24-48h (+50%)

¿Qué es un RAID degradado?

Un RAID degradado es un array que ha perdido uno o más discos miembros pero sigue operativo gracias a la redundancia. Es un estado de emergencia: el array funciona, pero sin tolerancia a fallos adicional. Un segundo fallo durante un RAID degradado provoca la pérdida total e inmediata de todos los datos.

El problema real no es la degradación en sí — es lo que ocurre después. La mayoría de las pérdidas de datos en RAID se producen durante el intento de rebuild (reconstrucción), no durante el fallo inicial del primer disco. Por eso esta página existe: porque el 70% de los casos RAID que recibimos en nuestro laboratorio son rebuilds fallidos.

Ciclo de vida de un fallo RAID típico:

1. Disco falla
Array degradado
2. Rebuild inicia
Lectura intensiva
3. URE o 2º disco falla
Rebuild abortado
4. Array inaccesible
Datos perdidos

Por qué falla el rebuild: las 5 causas principales

Un rebuild de RAID es la operación más exigente que soportan los discos de un array. Cada sector de cada disco restante se lee secuencialmente para recalcular la paridad y escribirla en el disco nuevo. En un RAID 5 de 4 discos de 8TB, esto implica leer ~24TB de datos. Las causas de fallo más frecuentes:

1. URE durante rebuild

Un URE (Unrecoverable Read Error) es un sector que el disco no puede leer. Los discos enterprise especifican una tasa de 1 URE por 1015 bits leídos (~114 TB). Los discos desktop: 1 URE por 1014 bits (~11.4 TB). En un rebuild de 24TB con discos desktop, la probabilidad de encontrar al menos un URE supera el 60%. Un solo URE puede abortar el rebuild completo.

2. Segundo disco falla

Los discos del mismo lote suelen tener la misma edad y horas de uso. Si uno falla por desgaste, los demás están en estado similar. El stress del rebuild (lectura secuencial al 100% durante horas) es el detonante perfecto para un segundo fallo. Los estudios de Google y Backblaze confirman que la probabilidad de segundo fallo durante rebuild es 4-8x mayor que en operación normal.

3. Error de controladora RAID

Las controladoras RAID hardware (LSI/Broadcom, Adaptec, HP SmartArray, Dell PERC) almacenan metadata en la propia controladora y en los discos. Un fallo de la controladora durante el rebuild puede corromper las metadata, dejando el array ilegible incluso con discos sanos. Cambiar la controladora por otra del mismo modelo no siempre resuelve el problema.

4. Orden de discos incorrecto

Si los discos se extraen sin documentar su posición (slot 0, 1, 2...) y se reinsertan en orden incorrecto, la controladora puede interpretar la paridad de forma errada y sobreescribir datos válidos con paridad recalculada incorrecta. Este es el error humano más destructivo en RAID y es irreversible si la controladora completa un rebuild con el orden equivocado.

5. Corte eléctrico durante rebuild

Un rebuild típico puede durar 12-72 horas según el tamaño del array. Un corte eléctrico durante el proceso deja el array en un estado intermedio: parte de la paridad recalculada, parte con la paridad antigua. La controladora puede no ser capaz de retomar el rebuild y marcar el array como «foreign» o «offline».

Lo que NO debes hacer con un RAID degradado

⚠ Cada una de estas acciones reduce drásticamente las posibilidades de recuperación:

  1. No fuerces un rebuild automático. Si el RAID se ha degradado, detener el servidor y contactar profesionales es siempre más seguro que dejar que la controladora intente reconstruir automáticamente.
  2. No inicialices («Initialize») el array. La inicialización escribe ceros en toda la superficie del array, destruyendo irreversiblemente todos los datos. Algunas controladoras ofrecen esta opción como «reparación».
  3. No sustituyas el disco equivocado. Si el RAID muestra un disco fallido, asegúrate de sustituir exactamente ese disco y no otro. Extraer un disco sano del array = segundo fallo instantáneo.
  4. No cambies de controladora RAID sin asesoramiento. Cada fabricante almacena las metadata en posiciones diferentes del disco. Una controladora diferente puede no reconocer el array o, peor, sobreescribir las metadata con su propio formato.
  5. No ejecutes chkdsk, fsck ni ninguna herramienta de reparación de filesystem sobre un RAID degradado. Estas herramientas pueden «reparar» la estructura del sistema de archivos escribiendo sobre datos que necesitas recuperar.
  6. No apagues y enciendas repetidamente. Cada ciclo de encendido somete los discos a un stress térmico y mecánico que puede empeorar un fallo incipiente.

Tolerancia a fallos por tipo de RAID

Cada nivel de RAID tiene una capacidad diferente de absorber fallos de disco. Esta tabla resume la tolerancia teórica y la realidad práctica:

Nivel RAID Discos tolerados Mín. discos Riesgo en rebuild Recuperabilidad
RAID 0 (Striping) 0 discos 2 No hay rebuild posible. Cualquier fallo = pérdida total. Baja
RAID 1 (Mirror) 1 disco 2 Bajo. Cada disco es copia completa. Rebuild rápido. Muy alta
RAID 5 (Paridad simple) 1 disco 3 Alto. Rebuild lee todos los discos. URE probable en discos >4TB. Media-Alta
RAID 6 (Paridad doble) 2 discos 4 Moderado. Tolera 1 URE durante rebuild sin pérdida. Alta
RAID 10 (Mirror + Stripe) 1 disco por mirror 4 Bajo. Rebuild solo lee el mirror par. Rápido y seguro. Muy alta
RAID 50 1 por subgrupo 6 Moderado. Cada subgrupo RAID 5 tiene tolerancia independiente. Alta
RAID 60 2 por subgrupo 8 Bajo. Máxima protección práctica en entornos enterprise. Muy alta

Nuestro proceso: cómo recuperamos un RAID degradado

La diferencia entre nuestro enfoque y un rebuild automático es fundamental: nunca escribimos en los discos originales. Todo el trabajo se realiza sobre imágenes clonadas, preservando la evidencia original intacta.

1
Clonado bit a bit

Cada disco se clona individualmente con DeepSpar Disk Imager, gestionando sectores defectuosos con múltiples pasadas y variación de parámetros de lectura. Si un disco tiene daño mecánico, intervención previa en sala limpia.

2
Análisis de geometría

Determinamos la geometría exacta del array: stripe size, algoritmo de paridad (left-symmetric, left-asymmetric, etc.), orden de discos, offset de inicio de datos. Usamos análisis de patrones de paridad XOR y metadata de la controladora.

3
Reconstrucción virtual

Reconstrucción virtual completa del array sobre las imágenes clonadas. Si falta un disco, regeneramos los datos faltantes a partir de la paridad de los discos restantes. Si faltan dos discos en RAID 6, usamos la doble paridad (P+Q con Reed-Solomon).

4
Extracción del filesystem

Montaje del sistema de archivos (NTFS, EXT4, XFS, ReFS, VMFS, ZFS, Btrfs) sobre el volumen virtual reconstruido. Extracción completa con verificación de integridad.

5
Entrega verificada

Datos entregados en discos externos con informe técnico detallado: geometría RAID, estado de cada disco, listado completo de archivos recuperados con checksums. Solo pagas si recuperamos tus datos.

Elige el nivel de servicio

Tres opciones adaptadas a tu urgencia y presupuesto

Económico
15-20 días
No disponible
  • No disponible para RAID/NAS
No disponible
⚡ Urgente
24-72 h
Desde 1.390€ + IVA
  • Prioridad máxima
  • Diagnóstico inmediato
  • Ideal empresas
Urgente

Plazos y precios de recuperación RAID

Tipo de caso Descripción Plazo Precio
RAID lógico (discos OK) Array degradado o inaccesible sin daño físico. Corrupción de metadata, rebuild fallido por URE, configuración perdida. 5–12 días 890–1.200€
RAID físico (disco(s) dañados) Uno o más discos con daño mecánico (cabezales, motor, platos). Intervención en sala limpia + reconstrucción virtual. 10–20 días 1.200–3.000€
RAID empresarial (SAS/FC) Arrays SAS/Fibre Channel en cabinas EMC, NetApp, Dell, HP. Discos 10K/15K RPM. RAID 5/6/10/50/60. 7–15 días 1500–4500€
Urgente Prioridad máxima, días laborables extendidos incluyendo fines de semana. 24–72h +50%

Preguntas frecuentes sobre recuperación de RAID degradado

¿Es mejor RAID 5 o RAID 6 para proteger contra pérdida de datos?

Con discos superiores a 4TB, RAID 5 ya no ofrece protección real porque la probabilidad de URE durante rebuild es demasiado alta. RAID 6 es obligatorio para discos de 4TB o más. RAID 6 tolera la pérdida simultánea de 2 discos y absorbe UREs durante el rebuild sin abortar. El coste adicional de un disco extra es insignificante comparado con el riesgo de pérdida total.

¿Qué es un URE y por qué es tan peligroso durante un rebuild?

Un URE (Unrecoverable Read Error) es un sector del disco que no puede leerse tras múltiples intentos del firmware. Durante un rebuild RAID 5, cada sector de cada disco superviviente se necesita para recalcular los datos del disco fallido. Si un solo sector de cualquiera de los discos restantes devuelve un URE, la controladora no puede completar la reconstrucción de ese stripe. Dependiendo de la controladora, esto puede abortar el rebuild completo o dejar datos corruptos.

¿Se puede recuperar un RAID 0 si falla uno de los discos?

RAID 0 no tiene redundancia. Si un disco falla completamente (100% ilegible), la mitad de los stripes se pierden y la otra mitad contiene fragmentos incoherentes. Sin embargo, si el disco falló por problemas mecánicos (cabezales, motor), la intervención en sala limpia para obtener una imagen del disco defectuoso permite reconstruir el RAID 0 completo. Si el fallo es de superficie (platos rayados), la recuperación parcial es posible para los archivos cuyos stripes están intactos en ambos discos.

¿Cuánto tiempo lleva recuperar un RAID 5 de 4 discos de 8TB?

El tiempo total depende del estado de los discos. Clonado: si los discos están sanos, 24-48h por disco (~3-4 días para los 4). Si hay sectores defectuosos, el clonado con DeepSpar puede tardar 5-7 días por disco. Reconstrucción virtual: 4-12 horas dependiendo de la complejidad de la geometría. Extracción: 6-24 horas según el volumen de datos. Total realista: 7-15 días laborables para un caso estándar, 3-5 días en servicio urgente.

¿Mi controladora RAID (HP SmartArray, Dell PERC) ha fallado. ¿Se pierden los datos?

Depende. Las controladoras RAID hardware almacenan metadata tanto en la propia controladora (NVRAM/flash) como en los discos (DDF, metadata propietaria). Si la controladora falla pero los discos están intactos, podemos leer las metadata de los discos para reconstruir la geometría del array virtualmente, sin necesidad de la controladora original. La recuperación es viable en la gran mayoría de casos.

¿Qué diferencia hay entre RAID hardware y RAID software para la recuperación?

El RAID software (mdadm en Linux, Storage Spaces en Windows, ZFS) almacena toda la configuración en los propios discos, lo que facilita la recuperación: cualquier sistema Linux puede leer las metadata y reconstruir el array. El RAID hardware (LSI/Broadcom, Adaptec, HP, Dell) puede usar formatos propietarios y almacenar parte de la config en la controladora. La recuperación es posible en ambos casos, pero el RAID hardware requiere más análisis forense de las metadata.

¿Trabajáis con RAID de cabinas SAN (EMC, NetApp, Dell PowerVault)?

Sí. Recuperamos datos de cabinas SAN empresariales: EMC VNX/Unity, NetApp FAS/AFF, Dell PowerVault/EqualLogic, HP MSA/3PAR. Los discos SAS/FC se extraen de la cabina, se clonan con adaptadores SAS y se reconstruye la geometría RAID virtualmente. También trabajamos con volúmenes iSCSI y Fibre Channel. El proceso es el mismo independientemente del fabricante de la cabina.

🚨 ¿Tu RAID está degradado y necesitas los datos urgente?

Recogida urgente en toda España. Diagnóstico en 4 horas. Laboratorio operativo incluidos fines de semana.

No hagas rebuild, no inicialices, no apagues y enciendas. Mientras más esperes, más riesgo.

O llámanos ahora: 900 899 002 — Atención en días laborables 9:00–19:00

Servicio Disponible en Toda España

Recogida gratuita* en 24h · Diagnóstico en 4 horas · Sin recuperación, sin coste

Recibe consejos y alertas de recuperación de datos

Guías prácticas, novedades y consejos para proteger tus datos. Sin spam.

Entérate de todo lo nuevo

Técnica Ingeniería y Robótica Aplicada S.L. como responsable del tratamiento tratará tus datos con la finalidad de dar respuesta a tu consulta o petición. Puedes acceder, rectificar y suprimir tus datos, así como ejercer otros derechos consultando la información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

Prometemos enviarte sólo información interesante.

Diagnóstico gratuito 900 899 002 WhatsApp WhatsApp
Llamar Te llamamos Diagnóstico

¿Necesitas recuperar datos?

Diagnóstico 100% gratuito y sin compromiso.
Si no recuperamos tus datos, no cobramos.

Solicitar diagnóstico gratuito