Recuperar datos de servidor RAID para empresas: RAID 0, 1, 5, 6 y 10
Un RAID fallido puede paralizar una empresa en minutos. Los servidores con RAID protegen los datos frente a determinados fallos de disco, pero cuando el fallo supera la tolerancia del nivel RAID —o cuando el propio controlador se corrompe— todos los datos quedan completamente inaccesibles. Esta guía técnica está dirigida a responsables de TI y directores de sistemas: explica cómo funciona cada nivel RAID, qué lo hace fallar, qué errores críticos deben evitarse y cuál es el proceso profesional de recuperación en laboratorio con herramientas forenses especializadas.
Datos clave — Recuperación de servidor RAID empresarial
800 € – 6.000 € + IVA según nivel RAID, nº de discos y tipo de fallo
Diagnóstico en 2 h · Recuperación en 24 – 72 h en casos prioritarios
RAID 1/10: 75 – 95 % · RAID 5/6 un disco: 70 – 90 % · RAID 0: 40 – 70 %
Gratuito y sin compromiso. NDA disponible para empresas.
¿Cómo funciona RAID y por qué puede fallar?
RAID (Redundant Array of Independent Disks) es una tecnología que combina varios discos físicos para comportarse como una única unidad lógica. Según el nivel RAID elegido, el objetivo puede ser aumentar el rendimiento (RAID 0), aumentar la redundancia (RAID 1), o equilibrar rendimiento y tolerancia a fallos con eficiencia de almacenamiento (RAID 5, RAID 6, RAID 10).
El malentendido más peligroso en entornos empresariales es confundir RAID con backup. RAID protege frente a ciertos fallos de hardware, pero no protege frente a borrado accidental, corrupción lógica, ransomware, error humano ni fallo simultáneo que supere la tolerancia del nivel. Muchas empresas descubren esta distinción en el peor momento posible.
¿Por qué falla un RAID si es redundante?
Los niveles RAID con redundancia (1, 5, 6, 10) toleran el fallo de uno o más discos, pero con condiciones. Las causas reales de pérdida de datos van mucho más allá del simple fallo de disco:
- Fallo del controlador RAID: La controladora hardware almacena los metadatos del array. Si falla, los discos ya no son reconocidos por otra controladora aunque estén perfectamente sanos.
- Corrupción de metadatos del array: Una actualización de firmware, un corte de luz en mitad de una escritura o un error lógico pueden corromper la tabla de configuración del RAID sin que falle ningún disco físico.
- Fallo en cascada: Los discos del mismo lote envejecen al mismo ritmo. Cuando uno falla durante la reconstrucción, el esfuerzo adicional puede provocar el fallo de otro disco del mismo lote antes de que termine el proceso.
- Error humano: Comandos de reinicialización del array, asignación incorrecta de un disco de repuesto o borrado accidental de la configuración de la controladora.
- RAID 0: sin margen de error: No existe redundancia. Un único disco fallido implica pérdida total de todos los datos del array.
Cuando se supera la tolerancia del array o cuando el fallo no es de disco sino de controlador o metadatos, el sistema operativo no puede montar el volumen, el servidor no arranca o el almacenamiento aparece como no inicializado. En ese punto, solo un laboratorio especializado puede recuperar los datos.
Tabla comparativa: RAID 0, 1, 5, 6, 10
La siguiente tabla resume las características técnicas más relevantes de los niveles RAID más utilizados en entornos empresariales, incluyendo la dificultad de recuperación cuando se produce el fallo crítico.
| Nivel RAID | Mínimo de discos | Discos que puede perder | Eficiencia de almacenamiento | Uso habitual | Recuperabilidad en laboratorio |
|---|---|---|---|---|---|
| RAID 0 | 2 | 0 — cualquier fallo = pérdida total | 100 % | Edición de vídeo, workstations de alto rendimiento | Media (40–70 %) — depende del estado de los discos |
| RAID 1 | 2 | 1 (espejo completo) | 50 % | Sistemas críticos, servidores de arranque | Alta (75–95 %) — solo falla si ambos discos están dañados |
| RAID 5 | 3 | 1 (paridad distribuida) | (n-1)/n | Servidores de ficheros, NAS empresarial, ERP | Buena (70–90 %) si falla 1 disco; compleja (40–65 %) con 2 fallos |
| RAID 6 | 4 | 2 (doble paridad) | (n-2)/n | Arrays grandes (+8 TB), entornos donde la reconstrucción tarda días | Buena (65–85 %) con 2 fallos; posible con 3 si son fallos distintos |
| RAID 10 | 4 | Varios, no del mismo par espejo | 50 % | Bases de datos, virtualización, servidores de correo | Alta (75–93 %) — solo catastrófico si falla el par espejo completo |
Causas de fallo más frecuentes en servidores RAID
En el laboratorio recibimos semanalmente servidores RAID de empresas españolas. Los patrones de fallo se repiten con alta frecuencia. Conocerlos permite anticiparse y actuar correctamente cuando se produce la alerta.
1. Fallo en cascada de discos del mismo lote
Es la causa más habitual de pérdida de datos en RAID 5. Los discos de un servidor típicamente provienen del mismo lote de fabricación, se instalan el mismo día y acumulan exactamente las mismas horas de operación. Cuando uno falla y el sistema inicia la reconstrucción con un disco de repuesto, el proceso somete a los discos restantes a una lectura intensiva sostenida durante horas. Si alguno de esos discos tiene sectores defectuosos o está próximo al final de su vida útil, el proceso de reconstrucción puede desencadenar su fallo antes de que termine. El resultado: RAID en estado crítico o pérdida total de datos.
2. Fallo o corrupción de la controladora RAID hardware
Las controladoras RAID hardware (Dell PERC, HPE Smart Array, LSI MegaRAID, Adaptec) almacenan la configuración del array —tamaño de stripe, orden de discos, algoritmo de paridad, nivel RAID— tanto en la memoria de la controladora como en metadatos escritos en los propios discos. Si la controladora falla físicamente, los discos no son reconocidos correctamente por otra controladora del mismo modelo. Si la configuración se corrompe por una actualización de firmware defectuosa o un corte de luz, el array puede aparecer como "foreign configuration" o directamente como discos independientes no inicializados.
3. Corte de alimentación durante escritura (write hole)
El "write hole" o agujero de escritura es un problema conocido del RAID 5: si el sistema se apaga bruscamente en mitad de un ciclo de escritura que ya ha modificado algunos discos pero no ha actualizado la paridad, el array queda en un estado inconsistente. El siguiente arranque puede detectar la inconsistencia y marcar el array como degradado, o directamente rechazar montarlo. En RAID 6 este problema está más mitigado, y en RAID 10 no existe al ser un espejo simple.
4. Ransomware y borrado accidental
El ransomware moderno dirigido a empresas no solo cifra los ficheros: antes de lanzar el cifrado elimina las shadow copies, desactiva los servicios de backup y en muchos casos detecta y cifra los volúmenes RAID accesibles en red. El resultado es un array físicamente intacto pero con todos los datos cifrados. Por otro lado, los errores administrativos —formateo accidental del volumen, reinicialización del array, eliminación de particiones— son más frecuentes de lo que parece, especialmente en procesos de migración o durante el alta de nuevo personal de TI.
5. Degradación silenciosa: sectores defectuosos no detectados
Los discos de servidor de gran capacidad pueden acumular sectores defectuosos durante meses sin que el sistema lo notifique, especialmente si el monitoreo SMART no está activo o si la controladora RAID enmascara los errores de lectura. Cuando el array intenta acceder a esos sectores —durante una reconstrucción, durante una lectura de verificación de paridad o simplemente por acceso normal de datos—, los errores se acumulan y pueden hacer inaccesibles bloques enteros de datos o desestabilizar el array completo.
Lo que NUNCA debes hacer si falla tu RAID
Los errores cometidos en las primeras horas tras un fallo RAID son responsables de una parte significativa de los casos en que la recuperación resulta imposible o parcial. El instinto de "hacer algo para arreglarlo" es el peor consejo en estas situaciones.
- NO inicies una reconstrucción del array sin verificar antes el estado SMART de todos los discos restantes. Una reconstrucción con un disco en mal estado puede desencadenar un segundo fallo antes de terminar.
- NO reemplaces el disco fallido y pulses "reconstruir" de forma refleja. Si la causa del fallo no es el disco sino el controlador o los metadatos, reemplazar el disco y reconstruir sobreescribirá los datos del array con el proceso de rebuilding.
- NO inicialices el array ("Initialize" en las interfaces de controladoras Dell/HPE). Esta operación sobreescribe todos los metadatos y datos de todos los discos de forma irrecuperable.
- NO ejecutes
chkdsk,fsckni herramientas de reparación de sistema de ficheros directamente sobre el volumen RAID degradado. Estas herramientas modifican la estructura del sistema de ficheros asumiendo que el disco está sano, agravando la corrupción. - NO ejecutes software de recuperación de datos de consumo (Recuva, EaseUS, etc.) sobre un RAID degradado. Estas herramientas no entienden la estructura RAID y pueden sobreescribir datos al intentar leer.
- NO apagues y enciendas el servidor repetidamente esperando que "se corrija solo". Cada ciclo de encendido puede agravar el daño en discos con sectores defectuosos o corrupción de metadatos.
- NO intercambies discos entre arrays distintos ni conectes los discos a otras controladoras o PCs sin orientación técnica previa. Los discos SAS de servidor no se comportan igual que los discos SATA en un PC estándar.
¿Qué SÍ puedes hacer?
La acción más valiosa que puede tomar un administrador cuando detecta el fallo es detener el servidor de forma ordenada (si aún es posible), anotar el estado exacto del array tal como lo muestra la controladora (capturas de pantalla de la interfaz de gestión RAID, número de serie de cada disco, posición en el chasis) y contactar con el laboratorio antes de cualquier otra intervención. Esta información es fundamental para el proceso de recuperación.
Proceso de recuperación de RAID en laboratorio
La recuperación profesional de un servidor RAID sigue un protocolo estricto diseñado para garantizar que en ningún momento se modifica el estado de los discos originales. Cada paso está documentado y el cliente recibe un informe técnico al cierre del caso.
Fase 1: Evaluación inicial y diagnóstico
Al recibir el servidor o los discos individuales, el técnico realiza una evaluación inicial no invasiva: lectura de parámetros SMART de cada disco, identificación de la controladora y del nivel RAID configurado, análisis de los metadatos del array visibles en los primeros y últimos sectores de cada disco. Con esta información se elabora el diagnóstico técnico que incluye la viabilidad de recuperación, el porcentaje estimado de datos recuperables y el presupuesto cerrado. El diagnóstico es gratuito y sin compromiso.
Fase 2: Clonado forense de cada disco
Antes de cualquier intervención sobre los datos, se realiza un clonado forense sector a sector (bit-by-bit) de cada disco del array utilizando hardware especializado (PC-3000 UDMA, DeepSpar, o equivalente). El proceso gestiona los sectores defectuosos con reintentos adaptativos y registra un mapa de sectores legibles e ilegibles para cada disco. El trabajo de recuperación se realiza exclusivamente sobre las imágenes clonadas, nunca sobre los discos originales. Esto garantiza que siempre existe una copia íntegra del estado inicial para relanzar el proceso si es necesario.
Fase 3: Análisis y reconstrucción virtual del RAID
Con las imágenes de todos los discos disponibles, se procede a reconstruir virtualmente el array. Usando herramientas como PC-3000 RAID, se determinan o verifican los parámetros del array original: tamaño de stripe (habitualmente 64 KB, 128 KB o 256 KB en controladoras empresariales), orden exacto de los discos en el array, algoritmo de rotación de paridad (left-symmetric, right-asymmetric, etc. para RAID 5/6), offset de inicio de los datos, y nivel RAID real (algunos sistemas RAID 5 configurados en controladoras HPE o Dell pueden tener comportamientos no estándar). Un error en cualquiera de estos parámetros produce datos incoherentes al leer el volumen reconstruido.
Fase 4: Recuperación del sistema de ficheros
Una vez reconstruido el array virtual, se analiza el sistema de ficheros del volumen lógico (NTFS en Windows Server, ext4/XFS en Linux, VMFS en datastores VMware). Si el sistema de ficheros está íntegro, la extracción de datos es directa. Si está corrompido —por el fallo que desencadenó el problema o por intervenciones previas— se utilizan técnicas de recuperación forense de estructuras de directorio y tabla de asignación de ficheros para extraer el máximo número de ficheros posible.
Fase 5: Verificación, entrega e informe
Los datos recuperados se verifican mediante suma de comprobación y se entrega al cliente en soporte nuevo (disco externo cifrado o acceso a servidor seguro para descarga). Se emite un informe técnico completo del caso incluyendo el diagnóstico, el proceso realizado, el porcentaje de recuperación conseguido y las recomendaciones para evitar futuras pérdidas. Para clientes empresariales se incluye también el documento de cadena de custodia.
RAID 5 degradado: la situación más peligrosa
El RAID 5 en estado degradado —con un disco fallido pero antes de completar la reconstrucción— es la situación de mayor riesgo que existe en almacenamiento empresarial. El sistema sigue funcionando y sirviendo datos porque la paridad permite reconstruir los datos del disco fallido al vuelo, pero no existe ninguna redundancia: cualquier error adicional de lectura en cualquiera de los discos restantes puede hacer inaccesibles bloques de datos.
El comportamiento del controlador RAID en este estado es particularmente traicionero: el sistema operativo no notifica ningún problema al usuario final, las aplicaciones siguen corriendo con normalidad aparente, y el rendimiento puede ser significativamente inferior (porque cada lectura requiere recalcular los datos del disco fallido) sin que nadie lo identifique como señal de alarma. Mientras tanto, el array está a un único error de lectura de la pérdida total.
La trampa de la reconstrucción automática
Cuando se inserta un disco de repuesto (hot spare) y la controladora inicia automáticamente la reconstrucción, el proceso lee todos los sectores de todos los discos restantes del array de forma intensiva y sostenida durante horas o días dependiendo de la capacidad. Este proceso de reconstrucción es el momento de mayor riesgo de fallo en cascada. Si alguno de los discos tiene sectores que hasta ese momento no habían sido leídos —lo cual es habitual en discos con datos relativamente estáticos— el proceso de reconstrucción los descubrirá, y si no puede releerlos con éxito, el array pasa de degradado a estado crítico o irrecuperable.
- Detener todas las escrituras en el servidor si es posible (modo solo lectura o detención de servicios).
- Verificar el estado SMART completo de todos los discos del array, no solo del fallido.
- Si algún disco muestra sectores reasignados (
Reallocated_Sector_Ct> 0), errores de lectura (Current_Pending_Sector> 0) o tiempo de encendido elevado para el modelo, no iniciar la reconstrucción sin consultar al laboratorio. - Realizar un backup completo del volumen degradado antes de cualquier otra acción si los datos son accesibles.
- Contactar con el laboratorio para un diagnóstico antes de insertar el disco de repuesto.
RAID 5 con dos discos fallidos: no es pérdida definitiva
Cuando el RAID 5 pierde el segundo disco y el sistema declara el array como irrecuperable, la controladora no puede reconstruir los datos porque la paridad solo protege contra un único fallo simultáneo. Sin embargo, esto no significa que los datos estén destruidos: los datos siguen en los discos físicamente. La recuperación requiere determinar por análisis forense todos los parámetros del array original (stripe size, orden de discos, algoritmo de paridad) sin disponer de la configuración del controlador, reconstruir el array virtualmente y extraer los datos del sistema de ficheros. La tasa de éxito en estos casos es del 40-65%, dependiendo principalmente del estado físico de los discos y del porcentaje de sectores ilegibles.
Fabricantes: Dell PowerEdge, HP ProLiant, IBM, Lenovo ThinkSystem
La mayoría de los servidores RAID empresariales en España utilizan controladoras de un número reducido de fabricantes. Cada plataforma tiene sus particularidades técnicas que afectan directamente al proceso de recuperación.
Dell PowerEdge con PERC (PowerEdge RAID Controller)
Las controladoras Dell PERC (H330, H730, H740, H755 y series anteriores) son las más habituales en el parque de servidores de PYMEs españolas. Los servidores Dell PowerEdge almacenan la configuración del array en la memoria NVRAM de la controladora y en los primeros bloques de cada disco del array. Un fallo de la controladora PERC puede dejar los discos con la configuración visible pero sin controladora que la interprete. En estos casos, el laboratorio realiza la reconstrucción virtual del array analizando los metadatos PERC almacenados en los discos y simulando el comportamiento de la controladora original. Los RAID creados con controladoras PERC H730 y superiores pueden utilizar configuraciones RAID 50 o RAID 60 no estándar que requieren análisis específico.
HPE ProLiant con Smart Array
Las controladoras HPE Smart Array (P408i, P816i, Gen10/Gen10 Plus) son tecnología de gama alta con características como capacitor de respaldo para la caché de escritura, aceleración de lectura adaptativa y soporte para discos SAS a 12 Gb/s. Los sistemas HPE utilizan un formato de metadatos propietario (ORCA) que es incompatible con otras controladoras. La recuperación de arrays HPE Smart Array requiere herramientas específicas capaces de parsear el formato ORCA y reconstruir la topología del array. Los discos HPE suelen estar formateados con tamaños de sector 512e o 4K que añaden una capa adicional de complejidad a la clonación.
IBM System x y Lenovo ThinkSystem
IBM System x (ahora Lenovo ThinkSystem tras la adquisición en 2014) utiliza controladoras ServeRAID basadas en hardware LSI/Broadcom. La buena noticia es que los arrays LSI MegaRAID y ServeRAID utilizan formatos de metadatos relativamente bien documentados que facilitan la recuperación cuando la controladora falla. La complicación más habitual en estos servidores es la combinación con discos IBM certificados que incorporan firmware propietario de control de acceso: si los discos se conectan a una controladora diferente o a un sistema de clonado estándar, el firmware del disco puede bloquear el acceso o reportar capacidades incorrectas.
Servidores con software RAID (mdadm, Windows Spaces, ZFS)
Los servidores Linux con mdadm y los sistemas Windows Server con Espacios de almacenamiento son significativamente más transparentes en cuanto a metadatos: la configuración del array se almacena en los propios discos en formatos bien documentados y puede reconstruirse sin acceso al sistema original. ZFS (utilizado en TrueNAS, FreeNAS y servidores Oracle) añade ventajas adicionales como sumas de verificación a nivel de bloque que permiten detectar y en muchos casos corregir la corrupción silenciosa de datos. Sin embargo, cuando la corrupción afecta a los metadatos del pool ZFS, la recuperación puede ser significativamente más compleja que en otros sistemas de ficheros tradicionales.
Servicio urgente y SLA para empresas
El coste de inactividad de un servidor RAID en producción puede medirse en centenares o miles de euros por hora, dependiendo de la actividad de la empresa y de la criticidad del sistema afectado. Nuestro servicio para empresas está diseñado para minimizar ese tiempo de inactividad con plazos garantizados y modalidades de intervención adaptadas a cada situación.
- Diagnóstico técnico en 2 horas desde recepción
- Recuperación en 24 – 72 horas para la mayoría de casos
- Atención telefónica y WhatsApp 24 h los 7 días del año
- Recogida urgente con mensajero el mismo día en toda España
- Diagnóstico en 24 – 48 horas
- Recuperación en 5 – 15 días laborables
- Presupuesto cerrado antes de iniciar el trabajo
- Sin recuperación = sin coste
- Para servidores blade en rack o SAN que no pueden transportarse
- El técnico se desplaza con equipamiento completo
- Clonado y diagnóstico en las instalaciones del cliente
- Consulte disponibilidad geográfica
- NDA disponible antes del inicio del trabajo
- Cadena de custodia documentada para cada dispositivo
- ISO 9001:2015 · Sala limpia Clase 100
- Informe técnico forense al cierre del caso
Para sectores especialmente sensibles —sanidad, finanzas, defensa, infraestructuras críticas— el servicio incluye cláusulas adicionales de confidencialidad adaptadas a la normativa sectorial y la posibilidad de acompañamiento de representante de seguridad del cliente durante todo el proceso de recuperación en laboratorio.
Costes de recuperación RAID
El coste de recuperación de un servidor RAID depende de varios factores: el nivel RAID y el número de discos del array, el tipo y gravedad del fallo (lógico vs. físico), el estado de los discos individuales, la capacidad total del array y la urgencia del servicio. La siguiente tabla refleja los rangos orientativos para los casos más habituales.
| Escenario | Modalidad | Plazo estimado | Coste orientativo (+ IVA) |
|---|---|---|---|
| RAID 1 — fallo lógico (ambos discos sanos) | Estándar | 3 – 5 días | 800 € – 1.500 € |
| RAID 5 (3–4 discos) — 1 disco fallido, fallo lógico | Estándar | 5 – 8 días | 1.200 € – 2.500 € |
| RAID 5 (3–4 discos) — 1 disco con daño físico (sala limpia) | Estándar | 8 – 15 días | 2.000 € – 4.500 € |
| RAID 5/6 (+6 discos) — fallo múltiple o controladora | Estándar/Urgente | 10 – 20 días | 2.500 € – 6.000 € |
| RAID 10 — fallo de un par espejo completo | Estándar | 5 – 12 días | 1.500 € – 4.000 € |
| RAID 0 — 1 o 2 discos con fallo físico | Estándar | 8 – 15 días | 2.000 € – 5.000 € |
| Cualquier nivel RAID — servicio urgente 24/7 | Urgente | 24 – 72 horas | Recargo urgente sobre tarifa estándar |
Artículos relacionados: Guía de emergencia para RAID fallido en empresa · Recuperar datos de RAID 5 con fallo de dos discos · Recuperar datos de RAID 6 con fallo múltiple · Recuperar datos de RAID 10 fallido
Preguntas frecuentes
¿Su servidor RAID ha fallado? Actuamos ahora.
Servicio urgente 24/7 para empresas. Diagnóstico gratuito en 2 h. NDA disponible. Sin recuperación = sin coste.
Solicitar diagnóstico gratuito 622 736 989 — Urgencias 24/7O escríbanos por WhatsApp. Un técnico especializado en recuperación de servidores RAID le atenderá en menos de 15 minutos.