Recuperar datos de RAID 5 con fallo de dos o más discos [2026]
Un RAID 5 tolera exactamente un disco fallido: la paridad distribuida recalcula los datos perdidos al vuelo. Cuando cae un segundo disco, esa tolerancia desaparece por completo y el array entra en un estado de fallo total a nivel lógico: ningún dato es accesible sin intervención especializada. Es una emergencia grave, pero no necesariamente irreversible. Con el procedimiento correcto en laboratorio —imagen forense de cada disco, reconstrucción del layout del RAID y reconstrucción virtual con herramientas profesionales— la tasa de éxito oscila entre el 55 y el 80 %. El tiempo y las decisiones que tomes en las próximas horas son determinantes.
Datos clave — RAID 5 con dos discos fallidos
1.000€ – 4.000€ + IVA
7 – 20 días laborables
55 – 80 %
Gratuito y sin compromiso
1. Cómo funciona RAID 5 y por qué el doble fallo es catastrófico
RAID 5 es el nivel RAID más extendido en entornos de pequeña y mediana empresa. Su principio de funcionamiento combina striping con paridad distribuida: los datos se dividen en bloques (stripes) que se distribuyen de forma rotativa entre todos los discos del array, y en cada fila de bloques uno de los discos almacena el bloque de paridad XOR de los demás. La posición del bloque de paridad va rotando disco a disco en cada fila —de ahí que se llame "paridad distribuida".
Esta arquitectura ofrece tres ventajas fundamentales: rendimiento de lectura superior al de un único disco (acceso paralelo), capacidad utilizable de N-1 discos (siendo N el número total), y tolerancia al fallo de exactamente un disco. Si un disco falla, el controlador RAID recalcula los datos del disco perdido en tiempo real usando la función XOR de los bloques supervivientes y el bloque de paridad.
El límite matemático de la paridad simple
El problema con RAID 5 es que la paridad XOR solo puede resolver un sistema de una incógnita. La ecuación es: D1 XOR D2 XOR D3 XOR P = 0. Si falta un término, se puede despejar fácilmente. Si faltan dos, tenemos dos incógnitas con una única ecuación —no hay solución matemática posible con los datos supervivientes.
Esto es lo que ocurre cuando falla un segundo disco en RAID 5: en cada fila de datos hay dos bloques desconocidos y solo la paridad (o incluso la propia paridad puede estar en uno de los discos perdidos). El sistema operativo no puede montar el volumen. El controlador RAID marca el array como "failed" o "broken". Los datos son inaccesibles mediante cualquier método convencional.
RAID 5 degradado: la ventana de peligro máximo
El escenario más frecuente de doble fallo no es que dos discos cedan a la vez de entrada, sino que el segundo fallo ocurra durante el proceso de reconstrucción (rebuild). El rebuild de un RAID 5 degradado lee el 100 % de los datos de todos los discos supervivientes para recalcular el disco fallido. Para un array de 4 discos de 4 TB cada uno, eso son 12 TB de lecturas continuas e intensivas. Si cualquier disco superviviente tiene un Uncorrectable Read Error (URE) durante ese proceso, el rebuild falla y el RAID queda irrecuperable sin laboratorio.
Las estadísticas son claras: un disco SATA de consumo tiene una tasa de URE de aproximadamente 1 en 1014 bits. En un array de 4 discos de 8 TB cada uno (24 TB de lectura durante el rebuild), la probabilidad de que al menos un URE interrumpa la reconstrucción es superior al 20 %. Con discos de 16 TB, supera el 35 %. Por eso en RAID 5 con discos de gran capacidad es tan habitual ver este escenario de doble fallo.
2. Causas del fallo simultáneo de dos discos
En nuestro laboratorio de Barcelona atendemos decenas de casos al año de RAID 5 con doble fallo. Las causas se repiten de forma sistemática:
URE durante el rebuild (causa más frecuente)
Como se ha explicado, el rebuild expone los discos supervivientes al mayor estrés de lectura de su vida. Si llevan años en el mismo array que el disco fallido, su desgaste es similar. Los sectores que nunca se han leído desde la última verificación SMART pueden contener errores no detectados hasta ese momento. Cuando el rebuild intenta leerlos, el disco no puede devolver el dato, la controladora registra un error y, según la configuración, el rebuild se detiene o el segundo disco se marca como fallido.
Fallo del controlador RAID
Las controladoras hardware (HP Smart Array, Dell PERC, LSI MegaRAID, Adaptec) llevan un firmware que gestiona el array. Un fallo de firmware, un reset inesperado durante un write, o un error en la NVRAM de la controladora puede corromper la configuración del RAID. En estos casos, la controladora puede "olvidar" la geometría del array o marcar discos como foreign, lo que provoca que el array aparezca como fallido aunque los discos físicos estén perfectamente bien. El daño no es en los discos sino en la capa de gestión.
Envejecimiento simultáneo (lote de discos)
Es frecuente que el departamento de IT instale todos los discos de un array en la misma fecha, del mismo lote de fabricación y bajo las mismas condiciones de uso. Esto significa que todos los discos del array experimentan el mismo desgaste acumulado al mismo tiempo. Cuando la vida útil media de los discos se acerca (generalmente entre los 3 y los 6 años de uso intensivo), el riesgo de fallos múltiples y simultáneos aumenta exponencialmente. En la práctica vemos arrays de 4-6 discos donde en el plazo de dos semanas caen dos o tres unidades.
Pico de tensión o corte de alimentación
Un pico de corriente provocado por una tormenta eléctrica, un apagado brusco sin SAI, o un fallo en la fuente de alimentación del servidor puede dañar las PCBs (placas electrónicas) de múltiples discos simultáneamente. Los discos comparten la misma fuente de alimentación, por lo que un evento eléctrico severo puede afectar a dos o más unidades en el mismo instante. El resultado es un doble fallo simultáneo de origen eléctrico, donde los datos en los platos suelen estar intactos pero las placas electrónicas están dañadas.
Error humano durante el mantenimiento
Errores de administración como extraer el disco equivocado durante un rebuild (extrayendo un disco activo en lugar del fallido), inicializar el array por error, o ejecutar un comando de formateo sobre el volumen incorrecto son causas habituales de doble fallo o pérdida de datos en RAID 5. En estos casos los discos físicos suelen estar en perfecto estado, pero los metadatos del RAID o el sistema de ficheros han sido sobrescritos.
3. Qué NO debes hacer: errores que destruyen las posibilidades de recuperación
Acciones que reducen drásticamente las posibilidades de recuperación
- Inicializar o reinicializar el array: Algunas interfaces NAS y controladoras ofrecen "inicializar" el array tras el fallo. Esto sobrescribe los metadatos del RAID en todos los discos. Los datos ya no son directamente recuperables; solo queda el file carving, que recupera archivos sin estructura de directorios.
- Lanzar un nuevo rebuild con discos de reemplazo: Un rebuild sobre un array con doble fallo es imposible matemáticamente y puede sobrescribir los bloques existentes, reduciendo la superficie de datos recuperable.
- Formatear el volumen o uno de los discos: Sobrescribe las tablas de particiones y el superbloque del sistema de ficheros. Recuperable en laboratorio, pero con menor tasa de éxito y mayor coste.
- Seguir escribiendo en el array: Si milagrosamente el sistema permite acceso parcial, cualquier escritura adicional puede sobrescribir zonas con datos críticos.
- Usar software de recuperación doméstico directamente en los discos originales: Herramientas como Recuva, R-Studio o PhotoRec realizan escrituras de metadatos y pueden alterar el estado de los discos. Úsalos solo sobre copias imagen, nunca sobre los originales.
- Cambiar el orden de los discos: El orden físico de los discos en el array es información crítica para la reconstrucción. Documenta la posición de cada disco antes de mover nada y nunca los reordenes.
La regla de oro en una situación de doble fallo de RAID 5 es: apagar el servidor inmediatamente, etiquetar cada disco con su posición en el chasis (Slot 0, Slot 1, Slot 2…) y llamar al laboratorio. Cuantas menos acciones se realicen sobre el array fallido, mayores son las probabilidades de recuperación.
4. El proceso de recuperación en laboratorio: PC-3000 RAID
La recuperación de un RAID 5 con doble fallo es uno de los trabajos más complejos de la ingeniería forense de datos. El proceso que seguimos en laboratorio tiene varias fases secuenciales, cada una dependiente del resultado de la anterior:
Fase 1: Diagnóstico y evaluación inicial
Analizamos el estado SMART de todos los discos del array para determinar el alcance del daño físico. Si alguno de los discos —incluidos los marcados como "fallidos" por el controlador— tiene platos legibles, puede ser fuente de datos parciales. Un disco que el controlador ha marcado como fallido no necesariamente tiene un daño físico severo: en muchos casos es simplemente un sector defectuoso en zona crítica o un fallo de firmware. El diagnóstico gratuito nos permite establecer la estrategia antes de comprometer cualquier presupuesto.
Fase 2: Imagen forense de todos los discos
El primer principio de cualquier recuperación profesional es nunca trabajar sobre los discos originales. Realizamos imágenes sector a sector de cada disco del array usando DeepSpar Disk Imager o el módulo de imagen del PC-3000, herramientas diseñadas para leer discos con errores de forma no destructiva: reintentan los sectores problemáticos, manejan los timeouts de forma optimizada y crean imágenes aunque el disco tenga sectores ilegibles, rellenando los bloques no recuperables con ceros. Los discos originales se guardan en cámara de seguridad desde ese momento.
Si alguno de los discos tiene daño físico (cabezales defectuosos, motor bloqueado, PCB quemada), realizamos la reparación necesaria en sala limpia ISO 5 antes de intentar la imagen: sustitución de cabezales por unidades de un donante idéntico, reparación de PCB, recuperación del firmware del disco. Solo con imágenes completas o parciales de todos los discos se puede continuar.
Fase 3: Reconstrucción de la geometría del RAID
Esta es la fase más técnica y la que más diferencia a un laboratorio especializado de uno genérico. Para reconstruir el array virtual necesitamos determinar con precisión los siguientes parámetros:
- Stripe size (chunk size): El tamaño del bloque de datos de cada disco. Los valores más comunes son 64 KB, 128 KB, 256 KB y 512 KB. En controladoras hardware como HP Smart Array el valor por defecto suele ser 256 KB; en mdadm Linux, 512 KB; en Synology y QNAP, 64 KB. Un stripe size erróneo produce un array virtual con datos desordenados que no puede montarse.
- Orden de los discos: El orden lógico en que los discos participan en el stripe no siempre coincide con el orden físico en el chasis. La controladora puede haber asignado un orden diferente. Determinamos el orden correcto analizando los patrones de datos en las imágenes y buscando estructuras de sistemas de ficheros coherentes.
- Layout de paridad: RAID 5 tiene varias variantes de distribución de paridad: Left Asymmetric (la más común, usada por Linux mdadm), Left Symmetric, Right Asymmetric y Right Symmetric. En RAID 5 Left Asymmetric el bloque de paridad de la primera fila está en el último disco; en Right Symmetric está en el primero. La elección incorrecta del layout produce XOR incorrectos que generan datos corrompidos.
- Offset de inicio de datos: El desplazamiento en sectores desde el inicio del disco físico hasta donde empieza el área de datos del RAID. Varía según el sistema operativo y el controlador.
- Disco de inicio del stripe: En qué disco comienza la primera fila de datos. Depende del layout y de la configuración específica del controlador.
Cuando hay doble fallo, la reconstrucción de la geometría es más difícil porque no podemos simplemente montar el array y verificar que funciona —el doble fallo impide el montaje. Usamos el módulo RAID de PC-3000 RAID, que analiza los patrones de datos en los discos supervivientes y aplica heurísticas para detectar el stripe size y el layout de paridad. En casos complejos, el proceso puede tardar varios días de análisis.
Fase 4: Extracción de paridad y reconstrucción virtual
Con la geometría determinada, configuramos un array virtual en PC-3000 RAID combinando las imágenes de los discos supervivientes más, si está disponible, los datos parciales recuperados de los discos fallidos. El módulo RAID aplica el XOR disponible para reconstruir los bloques de las filas donde solo falta un disco. En las filas donde faltan ambos discos fallidos, los bloques no son recuperables matemáticamente y se rellenan con ceros.
El porcentaje de filas donde la paridad puede aplicarse determina en gran medida la tasa de éxito. Si los dos discos fallidos almacenaban mayoritariamente la paridad (y los datos estaban en los otros discos), la recuperación puede ser casi completa. Si los dos discos fallidos almacenaban datos críticos en muchas filas, habrá pérdida proporcional de información.
Fase 5: Extracción del sistema de ficheros y entrega
Una vez que el array virtual está construido, lo tratamos como un disco lógico normal: montamos el sistema de ficheros (ext4, XFS, Btrfs, NTFS, ReFS según el sistema operativo del servidor) y extraemos los archivos. Si el sistema de ficheros está corrompido (algo frecuente dado que el array falló de forma abrupta), usamos herramientas de reparación forense antes del montaje. En último caso, recurrimos al file carving directo sobre el array virtual para recuperar archivos por sus firmas de formato (PDF, DOCX, JPG, bases de datos, etc.).
Los archivos recuperados se entregan en disco duro externo nuevo o mediante descarga cifrada. Siempre se presenta un informe técnico detallando el proceso, los parámetros del RAID reconstruido, el porcentaje de datos recuperados y la integridad de los archivos entregados.
5. RAID 5 vs RAID 6: comparativa de tolerancia y dificultad de recuperación
La elección del nivel de RAID tiene consecuencias directas en la resiliencia ante fallos múltiples y en la complejidad de la recuperación. Esta tabla resume los niveles RAID más habituales en entornos empresariales:
| Nivel RAID | Mínimo de discos | Tolerancia a fallos | Capacidad útil | Rendimiento | Dificultad de recuperación (lab) | Tasa de éxito en lab |
|---|---|---|---|---|---|---|
| RAID 0 | 2 | 0 discos | 100 % (N discos) | Muy alto (lectura + escritura) | Muy alta | 60 – 85 % |
| RAID 1 | 2 | N-1 discos | 50 % (2 discos) | Alto lectura, normal escritura | Baja | 75 – 95 % |
| RAID 5 | 3 | 1 disco | (N-1)/N | Alto lectura, medio escritura | Alta (1 fallo) / Muy alta (2+ fallos) | 70 – 90 % (1 fallo) / 55 – 80 % (2 fallos) |
| RAID 6 | 4 | 2 discos simultáneos | (N-2)/N | Alto lectura, más lento en escritura | Alta (2 fallos) / Muy alta (3+ fallos) | 65 – 85 % (2 fallos) |
| RAID 10 | 4 | Hasta N/2 (no mismo par) | 50 % | Muy alto | Media | 70 – 90 % |
Por qué RAID 6 es la alternativa recomendada para empresas
RAID 6 utiliza doble paridad (dos algoritmos de paridad independientes, normalmente P+Q usando Reed-Solomon o EVENODD), lo que permite recalcular los datos incluso cuando fallan dos discos simultáneamente. Matemáticamente, RAID 6 resuelve un sistema de dos ecuaciones con dos incógnitas —algo que RAID 5 no puede hacer.
El coste de RAID 6 es una ligera penalización en rendimiento de escritura (el controlador debe calcular dos bloques de paridad por cada fila) y perder la capacidad de 2 discos en lugar de 1. Para arrays con discos de 4 TB o más, RAID 6 es la opción técnicamente correcta. Las probabilidades de un URE que rompa el rebuild de RAID 6 son exponencialmente menores porque tolera el URE del rebuild y sigue operativo.
Recomendación para responsables de IT: Si gestionas un RAID 5 con discos de 4 TB o más, considera una migración planificada a RAID 6 en la siguiente ventana de mantenimiento. El coste de un disco adicional es insignificante frente al coste de recuperación (1.000-4.000 €) o, en el peor caso, de la pérdida definitiva de datos.
Detección del stripe size: metodología en laboratorio
Cuando los metadatos del controlador no están disponibles (porque la controladora ha fallado o porque se trabaja con imágenes), el stripe size se determina por análisis forense de los patrones de datos. El módulo RAID de PC-3000 utiliza varias técnicas complementarias:
- Entropía por bloques: Los bloques de un mismo disco con datos de un mismo archivo tienen entropías similares. Analizando la variación de entropía en bloques adyacentes se puede inferir el stripe size.
- Firmas de sistema de ficheros: Estructuras conocidas (superbloque ext4, MFT NTFS, inodes XFS) aparecen en posiciones predictibles según el stripe size. Si con 64 KB el superbloque aparece en el sector correcto, ese es el stripe size.
- Correlación cruzada entre discos: La rotación de la paridad en RAID 5 crea un patrón estadístico detectable. Comparando bloques entre discos se puede confirmar el stripe size y el layout de paridad.
6. Precios, plazos y casos de empresa reales
Estructura de precios para RAID 5 con doble fallo
La recuperación de un RAID 5 con dos discos fallidos es significativamente más cara que con un único disco fallido, ya que involucra más trabajo forense y menor certeza del resultado. El rango de precios en España para 2026 es:
| Configuración | Daño físico | Precio estimado (+ IVA) | Plazo habitual |
|---|---|---|---|
| RAID 5 / 3-4 discos, 2 fallidos (lógico) | Solo lógico / URE / controladora | 1.000 – 2.000 € | 7 – 12 días |
| RAID 5 / 3-4 discos, 2 fallidos (1 con daño físico) | PCB quemada o cabezales en 1 disco | 1.500 – 2.800 € | 10 – 15 días |
| RAID 5 / 5-8 discos, 2 fallidos (lógico) | Solo lógico / URE | 1.800 – 3.000 € | 12 – 18 días |
| RAID 5 / 5-8 discos, 2+ fallidos (físico en 2+) | Sala limpia en 2+ discos | 2.500 – 4.000 € | 15 – 20 días |
Todos los presupuestos son sin resultados, sin coste: si no recuperamos datos, no cobramos. El diagnóstico inicial es siempre gratuito y nos permite darte un presupuesto cerrado antes de iniciar el trabajo.
Casos reales de empresa
Caso 1 — Empresa de ingeniería (Barcelona, RAID 5 de 5 discos, 10 TB)
Un RAID 5 de servidor Dell PowerEdge con 5 discos SAS de 2 TB. Un disco falló y, durante el rebuild automático de la controladora PERC, un segundo disco desarrolló un URE en el sector 2.847.391.104. El rebuild se detuvo y el array quedó marcado como "Failed". El cliente apagó el servidor inmediatamente y nos llamó. Diagnóstico: dos discos con sectores defectuosos, sin daño mecánico. Proceso: imagen completa de los 5 discos (uno con sectores omitidos), reconstrucción de geometría (stripe 256 KB, Left Asymmetric, orden 0-1-2-3-4), reconstrucción virtual NTFS. Resultado: 98,3 % de los datos recuperados. Los archivos perdidos correspondían a bloques donde ambos discos fallidos coincidían como portadores de datos (sin paridad disponible). Plazo: 9 días. Coste: 1.850 € + IVA.
Caso 2 — Estudio de arquitectura (Madrid, NAS Synology, RAID 5 de 4 discos)
RAID 5 en NAS Synology DS920+ con 4 discos WD Red de 4 TB. Fallo de dos discos en un intervalo de 72 horas: el primero falló durante las vacaciones de agosto y el segundo falló mientras el administrador esperaba el disco de reemplazo. El NAS mostraba "Volume Crashed". El cliente intentó usar Synology Assistant para reparar el volumen antes de llamarnos —afortunadamente sin éxito, sin sobrescritura. Proceso: análisis SMART (disco 1 con C5 = 847, disco 2 ilegible por fallo de cabezal), sala limpia en disco 2 (sustitución de cabezales), imagen de los 4 discos, reconstrucción ext4 con mdadm virtual. Resultado: 91 % de los datos, con pérdida de algunos proyectos de diseño en carpetas que solapaban con los bloques irrecuperables. Plazo: 14 días. Coste: 2.600 € + IVA.
Cuándo un RAID 5 con doble fallo es verdaderamente irrecuperable
Aunque la tasa de éxito es razonablemente alta, hay situaciones donde la recuperación es técnicamente imposible o no justificable económicamente:
- Tres o más discos fallidos en RAID 5: Sin excepción. La matemática no tiene solución con más de una incógnita por fila en un sistema XOR simple.
- Dos discos con daño físico severo en platos: Si los platos de dos discos tienen rayaduras por head crash extensas, la información en esas zonas está destruida físicamente. Sin esos datos, la reconstrucción es incompleta.
- Inicialización del array + sobreescritura posterior: Si el array fue reinicializado y luego se escribieron nuevos datos encima, los datos originales han sido destruidos. El file carving puede recuperar fragmentos pero no la estructura de directorios.
- Cifrado completo por ransomware con clave destruida: Si el array fue cifrado y la clave no existe (ransomware sin negociación posible), los datos cifrados no son recuperables sin la clave, independientemente del estado de los discos.
¿Tu empresa tiene un RAID 5 con dos discos fallidos?
Cada hora que pasa aumenta el riesgo de daño adicional. Nuestro equipo especializado en recuperación de RAID atiende empresas de toda España con servicio urgente: recogida en 24 horas, diagnóstico gratuito y presupuesto cerrado sin coste si no hay resultado.
Servicio disponible en toda España. Diagnóstico gratuito. Sin resultados = sin coste.