Recuperar datos de RAID 5: guía completa cuando falla un disco o el array
RAID 5 es el array más desplegado en servidores y NAS de empresa: combina rendimiento, capacidad y tolerancia al fallo de un único disco. Pero esa tolerancia tiene un límite concreto y una trampa poco conocida — el proceso de reconstrucción que debería salvar el array puede desencadenar el segundo fallo que lo destruye. Esta guía explica cómo funciona RAID 5, qué ocurre exactamente cuando falla un disco, cuáles son los escenarios de pérdida total, qué errores evitar y cómo funciona la recuperación profesional en laboratorio.
- Discos mínimos: 3 (lo habitual en producción: 4–8 discos)
- Tolerancia nativa: 1 disco fallido — con 2 caídos el array se destruye
- Riesgo oculto: la reconstrucción estresa todos los discos restantes (riesgo de URE)
- Coste recuperación: 600–2.500 € según complejidad y daño físico
- Tasa de éxito en laboratorio: 70–90 % (fallo de 1 disco) / 40–65 % (2 discos)
- Tiempo estimado: 3–15 días laborables
- Diagnóstico: Gratuito y sin compromiso
Cómo funciona RAID 5: striping con paridad distribuida
RAID 5 utiliza dos mecanismos simultáneos: striping (distribución de datos en bloques entre todos los discos) y paridad distribuida (bloques de corrección de errores que se reparten rotando entre todos los discos del array). A diferencia de RAID 4, donde la paridad siempre reside en el mismo disco creando un cuello de botella de escritura, en RAID 5 los bloques de paridad se distribuyen cíclicamente entre todos los miembros del array.
Para entender la mecánica, imagina un array RAID 5 de 4 discos (D1, D2, D3, D4) con un stripe size de 64 KB. En la primera franja de escritura, el sistema escribe datos en D1, D2, D3 y almacena el bloque de paridad en D4. En la siguiente franja, los datos van a D1, D2, D4 y la paridad a D3. En la siguiente, los datos van a D1, D3, D4 y la paridad a D2. Así sucesivamente. El resultado es que la carga de paridad se reparte equitativamente y no hay un único disco que reciba todas las escrituras de paridad.
El cálculo de paridad: XOR como base de la tolerancia
La paridad en RAID 5 se calcula mediante la operación lógica XOR (OR exclusivo) aplicada bit a bit a todos los bloques de datos de la misma franja. La propiedad fundamental de XOR es que es reversible: si conoces el resultado de XOR y todos los operandos menos uno, puedes recalcular el operando que falta. Eso es exactamente lo que hace RAID 5 cuando pierde un disco: usa los bloques de datos de los discos supervivientes y el bloque de paridad correspondiente para recalcular en tiempo real los datos que había en el disco fallido. Este cálculo ocurre en la controladora RAID (hardware o software) de forma transparente para el sistema operativo.
Parámetros críticos del array
Para que un laboratorio pueda reconstruir un RAID 5 degradado o destruido, necesita conocer con exactitud tres parámetros: el stripe size (tamaño del bloque de datos, habitualmente 64 KB o 128 KB), el orden de los discos en el array (qué posición ocupa cada disco físico), y la dirección de rotación de la paridad (si avanza hacia adelante, hacia atrás o con rotación inversa). Estos parámetros los almacena la controladora; cuando la controladora falla o se cambia, se pierde esta información y la reconstrucción manual requiere análisis forense de los bloques de datos.
Tolerancia a un disco fallido: por qué el array sigue vivo (pero en peligro)
Cuando uno de los discos del RAID 5 falla —ya sea por un error de firmware, daño físico, fallo eléctrico o simplemente por desgaste— la controladora RAID detecta el fallo y pone el array en modo degradado. En este estado, el array sigue montado y accesible: el sistema operativo puede leer y escribir datos con normalidad. Sin embargo, cada operación de lectura de un bloque que residía en el disco fallido obliga a la controladora a recalcularlo al vuelo mediante XOR con los datos de los otros discos.
El modo degradado tiene dos consecuencias importantes que muchos administradores subestiman. Primera: el rendimiento cae drásticamente, porque cada lectura que involucra al disco fallido requiere leer todos los discos supervivientes para recalcular el bloque perdido. Segunda, y más grave: el array ha perdido toda su tolerancia a fallos. En modo degradado, un segundo fallo en cualquier disco del array —aunque sea un error de lectura puntual en un único sector— puede provocar la pérdida total e irrecuperable de los datos.
El riesgo del rebuild: URE y el segundo disco que falla durante la reconstrucción
El proceso de reconstrucción del RAID 5 —también llamado rebuild— consiste en insertar un disco de sustitución y dejar que la controladora regenere en él todos los bloques del disco fallido calculándolos mediante XOR con los datos de los discos supervivientes. Durante este proceso, la controladora lee cada sector de cada uno de los discos supervivientes del array. En un array de 4 discos de 4 TB cada uno, eso equivale a leer aproximadamente 12 TB de datos de manera secuencial. Este proceso puede durar entre 6 y 48 horas dependiendo del tamaño del array, la velocidad de los discos y la carga de trabajo del servidor.
Qué son los URE y por qué destrozan los arrays RAID 5 durante el rebuild
Los discos duros mecánicos tienen una especificación técnica llamada URE (Unrecoverable Read Error, error de lectura irrecuperable). El estándar de la industria para discos de clase desktop (Seagate Barracuda, WD Blue, Toshiba P300) es 1 URE por cada 1014 bits leídos. Esto significa que estadísticamente, por cada 12,5 TB leídos, se producirá un error de lectura que el disco no puede corregir internamente.
Ahora conecta esto con el rebuild: si tu array tiene discos de 4 TB y necesita leer 12 TB durante la reconstrucción, la probabilidad estadística de que al menos uno de los discos supervivientes encuentre un URE es superior al 50 % para discos de clase desktop. Cuando la controladora RAID encuentra un URE durante el rebuild, no puede completar la reconstrucción de ese bloque. En muchas configuraciones, esto provoca que la controladora marque el disco superviviente como fallido y deje el array en estado Failed con dos discos marcados como caídos, lo que en RAID 5 equivale a pérdida total de datos.
Discos NAS vs discos desktop: la diferencia importa
Los discos diseñados para uso en NAS y servidores —Seagate IronWolf/IronWolf Pro, WD Red/Red Pro, WD Gold, Toshiba MG series— tienen una especificación URE de 1 URE por cada 1015 bits leídos, diez veces mejor que los discos de escritorio. Esto reduce significativamente (aunque no elimina) el riesgo de URE durante el rebuild. Adicionalmente, estos discos incluyen funcionalidades como TLER (Time-Limited Error Recovery) en WD o ERC (Error Recovery Control) en Seagate, que limitan el tiempo que el disco intenta recuperar un sector defectuoso antes de reportar el error a la controladora, evitando así que la controladora RAID descarte el disco por timeout.
Escenarios de fallo en RAID 5: del modo degradado a la catástrofe
Escenario 1: Un disco fallido — array degradado
El array sigue accesible pero sin ninguna tolerancia a fallos adicionales. El sistema operativo puede leer y escribir, aunque con menor rendimiento. Acción correcta: (1) Haz una imagen forense o backup completo del array antes de cualquier otra operación. (2) Verifica el estado S.M.A.R.T. de todos los discos supervivientes. (3) Solo si todos los supervivientes están sanos, inicia el rebuild con un disco de sustitución nuevo del mismo modelo y capacidad. (4) No apagues el servidor durante el rebuild. Este es el único escenario donde el rebuild estándar es razonablemente seguro — pero sigue requiriendo un backup previo.
Escenario 2: Dos discos fallidos — pérdida catastrófica
Con dos discos del array marcados como fallidos, el volumen RAID 5 queda en estado Failed y ya no puede montarse por ninguna vía convencional. Los datos no se han borrado físicamente — los bloques siguen estando en los discos supervivientes — pero la matemática de XOR con dos incógnitas no tiene solución. La controladora no puede recalcular los datos faltantes. La recuperación requiere laboratorio especializado con herramientas forenses que analicen los bloques disponibles y determinen qué datos se pueden reconstruir parcialmente. En este escenario, la tasa de recuperación parcial oscila entre el 40 y el 65 %, dependiendo de cuáles eran los discos fallidos y si sus fallos son físicos o lógicos.
Escenario 3: Fallo de la controladora RAID hardware
Las tarjetas RAID hardware (Dell PERC, HP Smart Array, Adaptec, LSI/Broadcom MegaRAID) almacenan la configuración del array —stripe size, orden de discos, dirección de rotación de paridad— en su propia memoria NVRAM o en los metadatos de los propios discos (en formato propietario). Cuando la controladora falla y se sustituye por una de diferente modelo, versión de firmware o incluso número de serie diferente, los discos se presentan al sistema como medios sin inicializar. Los datos siguen físicamente en los discos pero la controladora nueva no puede interpretar los metadatos de la antigua. La recuperación requiere análisis forense para determinar los parámetros del array y reconstruirlo virtualmente.
Escenario 4: Formato accidental del array o de un volumen
Uno de los accidentes más frecuentes en administración de sistemas: un técnico formatea el volumen RAID por error, o el NAS ofrece "reinicializar" los discos y el administrador acepta sin saber las consecuencias. El formato rápido (quick format) solo sobrescribe las estructuras del sistema de archivos (tabla MFT en NTFS, tabla de inodos en ext4), pero no borra los bloques de datos. En RAID 5, siempre que el format no haya iniciado una sobreescritura masiva de datos, la recuperación de archivos es técnicamente posible mediante análisis forense del volumen lógico reconstruido.
Escenario 5: Rebuild iniciado sin disco de sustitución adecuado
Un error habitual: ante el fallo de un disco, el administrador inserta un disco de capacidad ligeramente inferior (por ejemplo, un disco de 2 TB anunciado como tal pero con geometría que lo hace unos MB más pequeño que el disco fallido), o un disco con sectores defectuosos previos. La controladora inicia el rebuild y lo interrumpe a mitad cuando detecta el problema, dejando el array en un estado inconsistente: ni degradado de un solo disco ni en modo normal. Los bloques del disco en reconstrucción están parcialmente escritos con datos nuevos y parcialmente vacíos. Este estado "rebuild interrumpido" es uno de los más complejos de tratar en laboratorio.
Escenario 6: Rebuild completado pero array corrupto
El rebuild termina con éxito según la controladora, pero el sistema de archivos del volumen está corrupto o el array no se puede montar. Esto ocurre cuando durante el rebuild algún URE pasó desapercibido y la controladora lo marcó como bloque no legible en lugar de abortar el rebuild. El volumen se monta pero los directorios y archivos afectados por esos bloques están corrompidos. La recuperación requiere análisis del sistema de archivos con herramientas forenses.
RAID 5 no es un backup: el principio más ignorado en administración de sistemas
Esta afirmación se repite desde los años 90 en cualquier manual de administración de sistemas, y aun así el error de confundir RAID con backup sigue siendo la causa número uno de pérdidas de datos catastróficas en empresas. RAID 5 protege frente a un único tipo de amenaza: el fallo físico de un disco del array. No protege —en absoluto— frente a ninguno de los siguientes escenarios:
- Borrado accidental de archivos o directorios: el borrado se replica en tiempo real en todos los discos del array. No hay versión anterior.
- Ransomware: el cifrado se realiza sobre el sistema de archivos del sistema operativo, que ve el volumen RAID como un único disco lógico. El ransomware cifra todos los archivos del volumen y el RAID propaga cada escritura cifrada sin ningún filtro.
- Corrupción de datos por software: un bug en la aplicación, una base de datos que escribe datos incorrectos, una actualización que corrompe archivos de configuración. Todos estos cambios se replican inmediatamente.
- Desastres físicos: incendio, inundación, robo del servidor o del NAS. Si el array completo desaparece físicamente, no hay datos que recuperar.
- Fallo simultáneo de dos o más discos: por sobretensión, por discos del mismo lote que fallan casi a la vez, o por un segundo fallo durante el rebuild.
Qué NO hacer cuando falla un RAID 5
Las intervenciones erróneas en las horas siguientes al fallo son la principal causa de que un caso con alta probabilidad de recuperación se convierta en irrecuperable. Estas son las acciones que nunca debes tomar:
- No inicialices ni reinicialices el array — La opción "Initialize" o "Delete Array + Create" en la controladora RAID o en el NAS sobrescribe los metadatos del RAID en todos los discos y destruye la posibilidad de recuperación forense.
- No inicies el rebuild sin antes verificar el estado de todos los discos supervivientes — Si algún superviviente tiene sectores defectuosos o errores S.M.A.R.T. crecientes, el rebuild puede provocar un segundo fallo y convertir un escenario recuperable en catastrófico.
- No ejecutes chkdsk ni fsck sobre el volumen degradado — Estas herramientas intentan "reparar" la estructura del sistema de archivos realizando escrituras en el volumen. Sobre un array degradado, cada escritura es una amenaza adicional y puede destruir metadatos críticos para la recuperación.
- No instales ni uses software de recuperación de datos directamente sobre los discos del array — Herramientas como Recuva, PhotoRec o TestDisk no entienden la estructura RAID y pueden realizar escrituras que reducen las probabilidades de recuperación posterior.
- No insertes un disco de sustitución de diferente capacidad o modelo — Especialmente si la capacidad es ligeramente inferior. Un rebuild abortado a mitad es uno de los estados más difíciles de tratar.
- No reemplaces la controladora RAID por una de modelo diferente — Los metadatos RAID son propietarios de cada fabricante y modelo. Una controladora nueva no puede interpretar los metadatos de la controladora original.
- No apagues y enciendas el servidor repetidamente — Cada ciclo de arranque en un disco con problema físico incipiente aumenta el daño. Si escuchas ruidos en algún disco, apaga el sistema y no lo vuelvas a encender.
- Apaga el sistema de forma ordenada si el array está en modo degradado y no necesitas acceso inmediato a los datos.
- Documenta el estado del array: captura de pantalla del panel de la controladora, estado S.M.A.R.T. de cada disco, último mensaje de error, modelo y posición de cada disco en el backplane.
- Fotografía el interior del servidor o NAS: el orden físico de los discos en las bahías es imprescindible para la reconstrucción en laboratorio.
- Llama a un especialista antes de cualquier acción: el diagnóstico en RecuperaTusDatos es gratuito y orientamos sobre si el rebuild es seguro o si conviene esperar.
Proceso de recuperación profesional de un RAID 5 en laboratorio
La recuperación de un RAID 5 en laboratorio es un proceso más complejo que la recuperación de un disco individual, porque requiere combinar la recuperación física de cada disco con la reconstrucción virtual del array y el análisis del sistema de archivos del volumen resultante. El proceso sigue siempre estas fases en estricto orden:
- Diagnóstico individual de cada disco. Antes de intentar cualquier reconstrucción, evaluamos el estado físico y lógico de cada disco por separado mediante PC-3000 UDMA. Leemos los registros S.M.A.R.T. extendidos, detectamos sectores defectuosos, evaluamos el estado de los cabezales y la electrónica, y estimamos la viabilidad de clonado sin intervención física adicional. El diagnóstico completo de un array de 4 discos tarda entre 4 y 8 horas. Este diagnóstico es gratuito.
- Imagen forense de cada disco sin modificar los originales. Creamos copias bit a bit de cada disco mediante hardware de clonado forense (PC-3000 Portable III, DeepSpar Disk Imager). Las imágenes se generan sobre medios propios del laboratorio; los discos originales quedan almacenados y no se vuelven a conectar. Si un disco tiene sectores defectuosos, el proceso de clonado intenta releer cada sector defectuoso múltiples veces antes de marcar el bloque como no legible, maximizando la cantidad de datos recuperados.
- Reparación física en sala limpia ISO 5 si hay daño mecánico. Si algún disco tiene fallo mecánico —cabezales dañados, motor gripado, platos rayados, PCB quemada— el técnico de sala limpia realiza la intervención necesaria antes de continuar. Esta fase puede añadir 2 a 5 días laborables al proceso pero es imprescindible para obtener imágenes completas de todos los discos.
- Identificación de los parámetros RAID. Con todas las imágenes disponibles, el ingeniero de RAID analiza las cabeceras y los bloques de datos para determinar: stripe size, orden exacto de los discos en el array, dirección de rotación de la paridad (left-symmetric, right-symmetric, left-asymmetric, etc.), offset de datos, y si la controladora aplicaba alguna transformación adicional. En arrays con controladora propietaria (Dell PERC, HP Smart Array) este análisis puede requerir ingeniería inversa de los metadatos propietarios almacenados en los discos.
- Reconstrucción virtual del array sobre las imágenes. Con los parámetros identificados, el software de reconstrucción RAID (PC-3000 RAID, ReclaiMe Pro, UFS Explorer RAID Recovery) ensambla las imágenes en un array virtual. Si falta un disco (escenario de 1 disco fallido), el bloque faltante se recalcula mediante XOR a partir de los bloques disponibles. En este punto se verifica si el volumen lógico resultante tiene un sistema de archivos coherente y puede montarse.
- Extracción, verificación y entrega. Con el volumen virtual montado, extraemos los archivos a un soporte nuevo. Verificamos la integridad de los archivos críticos que el cliente indique como prioritarios. El cliente recibe un listado completo de archivos recuperados antes de que se emita cualquier factura. Si no hay recuperación, no hay coste.
Cuánto cuesta recuperar datos de un RAID 5
El precio de la recuperación de un RAID 5 depende principalmente del número de discos del array, del tipo de fallo (lógico vs. físico) y de si alguno de los discos requiere intervención en sala limpia. La tabla siguiente recoge los rangos habituales en nuestro laboratorio:
| Escenario | Precio estimado | Plazo estimado |
|---|---|---|
| Fallo lógico (array eliminado, FS corrupto, parámetros borrados) — discos sanos | 600–1.000 € | 2–5 días laborables |
| Un disco con fallo físico + rebuild interrumpido o array degradado | 900–1.600 € | 4–12 días laborables |
| Dos discos fallidos (lógicamente), array en estado Failed | 1.200–2.000 € | 5–12 días laborables |
| Dos discos con daño físico — requiere sala limpia | 1.800–2.500 € | 8–18 días laborables |
| RAID 5 en NAS (Synology, QNAP, NETGEAR ReadyNAS) | 800–1.800 € | 3–12 días laborables |
| RAID 5 con controladora Dell PERC o HP Smart Array fallida | 900–1.800 € | 4–10 días laborables |
Los precios indicados son orientativos e incluyen todos los discos del array. El diagnóstico es siempre gratuito y sin compromiso. El presupuesto definitivo se facilita antes de iniciar ningún trabajo. RecuperaTusDatos aplica política de no recuperación, sin coste: si no se recuperan los datos que el cliente necesita, no se cobra nada.
Preguntas frecuentes sobre recuperación de RAID 5
¿Tu RAID 5 ha fallado? Actuamos hoy mismo
Diagnóstico gratuito en 4–8 horas. Especialistas en RAID con PC-3000, sala limpia ISO 5 propia y más de 15 años de experiencia. Sin recuperación, sin coste.
Recogida urgente de discos en toda España. Confidencialidad garantizada — NDA disponible para empresas.
Solicitar diagnóstico gratuitoO llámanos: 900 899 002