Qué hacer ante un fallo doble en RAID 5: recuperación de emergencia

Resumen del artículo

Un RAID 5 solo tolera el fallo de 1 disco. Si falla un segundo mientras el array está degradado, todos los datos quedan expuestos. Explicamos los riesgos del URE, la reconstrucción forzada y cómo actuamos en laboratorio (600-2.500 €).

Compartir:

Recuperación de Datos de RAID 5 con Fallo Doble de Disco

El RAID 5 es la configuración más usada en NAS domésticos y servidores de empresa por su equilibrio entre rendimiento, capacidad y tolerancia a fallos. Sin embargo, solo tolera el fallo de un único disco. Cuando un segundo disco falla mientras el array está degradado, o cuando dos discos fallan simultáneamente, el RAID 5 queda offline y los datos son inaccesibles. En muchos casos un laboratorio especializado puede recuperar la totalidad o la mayoría de los datos, pero el proceso es complejo y el resultado no está garantizado.

Por qué el RAID 5 solo tolera un fallo: la matemática de la paridad

En un RAID 5 con N discos, los datos se distribuyen en franjas (stripes) entre todos los discos, y para cada franja se calcula un bloque de paridad que se almacena de forma rotativa en todos los discos del array (paridad distribuida). La paridad se calcula mediante la operación XOR: para cualquier franja, si conoces los bloques de N-1 discos, puedes calcular el bloque del disco que falta.

Esta es la razón exacta por la que solo funciona con un fallo: si falta un disco, tienes N-1 discos con datos y paridad, suficientes para reconstruir el disco que falta. Pero si faltan dos discos, tienes N-2 discos y necesitas reconstruir dos bloques desconocidos usando solo XOR entre los bloques conocidos y la paridad, lo cual es matemáticamente imposible: tienes una ecuación con dos incógnitas y solo un operador disponible.

Ejemplo con RAID 5 de 4 discos (D1, D2, D3, P):

  • Franja 1: D1=A, D2=B, D3=C, P=A XOR B XOR C
  • Si falta D2: B = P XOR A XOR C (reconstruible)
  • Si faltan D2 y D3: B = ?, C = ?, P = A XOR B XOR C. Dos incógnitas, sin solución determinista.

El RAID 6, por contrast, usa doble paridad (dos bloques de paridad por franja, calculados con algoritmos Reed-Solomon además de XOR), lo que permite reconstruir cualquier combinación de dos discos fallidos. Este es el motivo por el que los arrays de más de 4 discos deberían usar RAID 6 o superior en entornos de producción.

Causas del fallo doble: por qué ocurre con más frecuencia de lo esperado

La mayoría de los fallos de RAID 5 que llegan a laboratorio no son el resultado de dos fallos independientes y simultáneos (eso es estadísticamente improbable), sino de una cadena de eventos que comienza con un fallo detectado y empeora durante la respuesta a ese fallo:

URE durante la reconstrucción: el asesino silencioso

El escenario más frecuente es el siguiente: un disco falla y se marca como degradado. El sistema inicia una reconstrucción (rebuild) que consiste en leer todos los bloques de los discos supervivientes para reconstruir el disco fallido o el nuevo disco de sustitución. Durante esta lectura exhaustiva, uno de los discos supervivientes genera un URE (Unrecoverable Read Error), es decir, un sector que no puede leerse correctamente.

Un URE no es un fallo catastrófico del disco, sino un sector defectuoso puntual. En uso normal, el sistema operativo puede enmascararlos con el mecanismo de remapeo automático (SMART Reallocated Sectors). Pero durante una reconstrucción RAID, el software RAID necesita leer absolutamente todos los sectores del disco para reconstruir el array. Cuando encuentra un URE, no puede completar la franja afectada y, dependiendo de la controladora o el software RAID, puede marcar el disco como fallido, deteniendo la reconstrucción con el array en estado de doble fallo.

La probabilidad de encontrar al menos un URE durante una reconstrucción depende de la tasa de error del disco y de su capacidad. Los discos SATA tienen una tasa de URE especificada de 1 error en 10^14 bits leídos (para discos de gama enterprise; los discos domésticos SATA suelen tener 1 en 10^14 también, aunque con menor consistencia en la práctica). Para un disco de 4 TB (4 × 10^12 bytes = 3.2 × 10^13 bits), la probabilidad de encontrar al menos un URE en una lectura completa es aproximadamente:

P(URE) ≈ 1 - (1 - 1/10^14)^(3.2×10^13) ≈ 1 - e^(-0.32) ≈ 27%

En un RAID 5 de 4 discos de 4 TB, la probabilidad de que al menos uno de los tres discos supervivientes genere un URE durante la reconstrucción supera el 60%. En arrays más grandes con discos de mayor capacidad, la probabilidad se acerca a la certeza. Este cálculo es la razón fundamental por la que los administradores de sistemas recomiendan RAID 6 para arrays con discos de más de 2-3 TB.

Discos envejecidos del mismo lote

Muchos NAS y servidores se construyen con discos del mismo modelo y lote de fabricación, comprados simultáneamente. Estos discos han sufrido exactamente el mismo desgaste durante el mismo período. Cuando uno falla por desgaste, los demás están estadísticamente en el mismo punto de su curva de vida y tienen una probabilidad significativamente mayor de fallar en los días o semanas siguientes. Es el efecto "lote": el segundo fallo no es una coincidencia, es una consecuencia previsible del diseño del array.

Fallo de la controladora RAID

Una controladora RAID con problemas (mal contacto, fallo de firmware, problema de alimentación) puede marcar incorrectamente uno o más discos como fallidos aunque los discos físicamente estén en buen estado. En estos casos, el "doble fallo" es en realidad un fallo de la controladora más un fallo real de un disco, o incluso dos marcados como fallidos por error del firmware.

Sobretensión o corte de corriente

Un evento de alimentación brusco (sobretensión, corte repentino) puede dañar la electrónica de varios discos simultáneamente, especialmente si están en el mismo backplane y comparten la misma rama de alimentación. Este es uno de los pocos escenarios de doble fallo verdaderamente simultáneo.

RAID 5 vs RAID 6: diferencias de tolerancia en la práctica

CaracterísticaRAID 5RAID 6
Discos mínimos34
Fallos tolerados12
Overhead de paridad1 disco equivalente2 discos equivalentes
Capacidad útil (4 discos)75%50%
Capacidad útil (6 discos)83%67%
Rendimiento escrituraMejorAlgo peor (doble paridad)
Seguridad con discos grandesBaja (URE)Alta
Recomendado para discos >4 TBNo

Synology, QNAP y la mayoría de fabricantes de NAS recomiendan explícitamente en su documentación usar SHR-2 (equivalente a RAID 6) o RAID 6 cuando los discos superan los 4 TB. Muchos usuarios ignoran esta recomendación para aprovechar la mayor capacidad útil del RAID 5.

¿Cuándo son los datos recuperables tras un fallo doble?

La recuperación de datos de un RAID 5 con doble fallo no siempre es posible, pero hay escenarios donde se puede salvar la mayoría o la totalidad de los datos:

Fallo lógico de uno de los discos (disco físicamente sano)

Si uno de los dos "discos fallidos" fue marcado como tal por la controladora de forma incorrecta (firmware buggy, mal contacto, evento temporal), y el disco físicamente está en perfecto estado, el laboratorio puede leer todos sus sectores sin problema. Con dos discos sanos y uno real fallido, se aplican las técnicas estándar de reconstrucción RAID 5 para recuperar el tercero.

URE en un único sector del segundo disco

Si el segundo disco no está completamente muerto sino que tiene un URE en un único sector (o pocos sectores), los datos de la mayoría de las franjas del array son recuperables. Solo las franjas que incluyen el sector dañado del segundo disco son irrecuperables; el resto del array puede reconstruirse. Dependiendo de los archivos afectados y su distribución en el array, esto puede significar recuperar el 95-99% de los datos.

Disco con fallo electrónico (PCB dañada) pero plato intacto

Si uno de los discos HDD tiene el circuito impreso (PCB) dañado pero los platos están intactos, el laboratorio puede sustituir la PCB por una compatible o leer los platos directamente. Con los datos de ese disco recuperados, se tiene el array completo y la recuperación es total.

Doble fallo simulado (controladora defectuosa)

Cuando la controladora RAID es la causa del doble fallo aparente, los discos pueden estar todos en buen estado. El laboratorio trabaja directamente con los discos sin pasar por la controladora, analiza los metadatos RAID y reconstruye el array virtualmente. Esta es una de las recuperaciones más exitosas: 100% de datos recuperables con alta probabilidad.

Técnicas de recuperación de RAID 5 con doble fallo

El proceso en un laboratorio especializado combina varias técnicas según el caso concreto:

  1. Imagen forense de todos los discos: el primer paso inamovible es crear imágenes bit a bit de todos los discos del array antes de cualquier otra operación. Un disco con sectores defectuosos se clona con herramientas que gestionan los errores sin abortar (PC-3000, DeepSpar DDI), marcando los sectores no legibles para tratamiento posterior.
  2. Análisis de metadatos del array: los metadatos del software RAID (mdadm superblocks en Linux, metadatos propietarios de Synology/QNAP, MBR/GPT del disco virtual) revelan el stripe size, el orden de los discos en el array y la posición de la paridad. Este análisis evita errores de reconstrucción por parámetros incorrectos.
  3. Reconstrucción virtual del array: usando las imágenes y los metadatos, se reconstruye el array en un entorno virtualizado. Las herramientas como ReclaiMe RAID Recovery o el módulo RAID del PC-3000 permiten probar diferentes configuraciones hasta obtener una reconstrucción coherente (el sistema de archivos debe resultar consistente y sin errores estructurales).
  4. Identificación y mapeo de sectores irrecuperables: los sectores no legibles del segundo disco se mapean para determinar qué franjas del array están afectadas y, consecuentemente, qué archivos o partes de archivos son irrecuperables.
  5. Recuperación priorizada: conociendo qué franjas son irrecuperables, el técnico puede priorizar la extracción de los archivos no afectados por esas franjas. En la práctica, si los sectores irrecuperables son pocos y dispersos, la mayoría de los archivos se recuperan íntegros.
  6. Análisis de integridad post-recuperación: los archivos recuperados se verifican para confirmar que son completos y abribles. Las bases de datos (SQL Server, MySQL) requieren verificación adicional de integridad interna.

Qué hacer (y qué no hacer) ante un RAID 5 con doble fallo

Las acciones incorrectas en los primeros momentos pueden reducir significativamente las posibilidades de recuperación:

  • No intentar reconstruir el array desde la NAS o el servidor: iniciar una reconstrucción con un disco defectuoso en el array puede sobreescribir datos en los discos sanos y reducir irremediablemente lo que puede recuperarse.
  • No reemplazar discos y forzar la reconstrucción: si el array ya tiene doble fallo, insertar un disco nuevo y forzar la reconstrucción desde la controladora RAID producirá un array lleno de datos incorrectos (calculados a partir de bloques erróneos de los discos defectuosos).
  • No formatear ni reinicializar el array: aunque la solución de "empezar de cero" parezca atractiva cuando el array no responde, destruye los metadatos RAID que el laboratorio necesita para la reconstrucción.
  • No encender y apagar repetidamente el sistema: cada arranque puede causar nuevos intentos de acceso a los discos defectuosos, potencialmente empeorando su estado físico.
  • Apagar el sistema y contactar con el laboratorio antes de cualquier acción: es la recomendación más importante. Cuanto antes se detenga la situación y se ponga en manos de especialistas, mayor es la probabilidad de recuperación exitosa.

¿Necesitas recuperar datos?

Nuestro equipo técnico puede ayudarte. Diagnóstico gratuito en 4 horas, sin compromiso.

  • Precio: Desde 250€ + IVA — sin recuperación, sin coste
  • Plazo: 4–12 días laborables (urgente: 24–48 h)
  • Teléfono: 900 899 002
  • Certificación: ISO 9001 e ISO 27001 (AENOR)

Escrito por

Técnico Especialista

Técnico en Recuperación de Datos — RecuperaTusDatos

Técnico certificado con más de 12 años de experiencia en recuperación de datos de discos duros, SSD, RAID, memorias flash y dispositivos móviles. Laboratorio propio con sala limpia ISO Clase 5, sin intermediarios.

ISO 9001 ISO 27001 Certificado
Publicado: 28/11/2025 7 min de lectura

Servicio disponible en toda España — Recogida gratuita en 24h

Recibe consejos y alertas de recuperación de datos

Guías prácticas, novedades y consejos para proteger tus datos. Sin spam.

Entérate de todo lo nuevo

Técnica Ingeniería y Robótica Aplicada S.L. como responsable del tratamiento tratará tus datos con la finalidad de dar respuesta a tu consulta o petición. Puedes acceder, rectificar y suprimir tus datos, así como ejercer otros derechos consultando la información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

Prometemos enviarte sólo información interesante.

Diagnóstico gratuito 900 899 002 WhatsApp WhatsApp
Llamar Te llamamos Diagnóstico

¿Necesitas recuperar datos?

Diagnóstico 100% gratuito y sin compromiso.
Si no recuperamos tus datos, no cobramos.

Solicitar diagnóstico gratuito