Migración y recuperación de datos para Cantabria24Horas
Imagen de cabecera del proyecto de migración de datos para Cantabria24Horas, con manos trabajando
Imagen de cabecera del proyecto de migración de datos para Cantabria24Horas, con manos trabajando

Extracción estructurada de cerca de 60.000 artículos desde una web obsoleta

Resumen del proyecto

Cantabria24Horas es una publicación digital con cerca de 60.000 artículos publicados. El objetivo del proyecto era extraer todo su contenido desde una instalación obsoleta y poco accesible, para migrarlo a una nueva plataforma WordPress más moderna, funcional y mantenible.

Reto

La web original estaba construida con un sistema antiguo, sin panel de control moderno, sin acceso a base de datos limpia, y con enlaces internos caóticos. El reto consistía en extraer la información sin acceso estructurado, conservando texto, títulos y fechas de cada artículo, para luego preparar su importación.

Logotipo original de Cantabria24Horas.com, medio digital de noticias regionales en Cantabria.
Logotipo original de Cantabria24Horas.com, medio digital de noticias regionales en Cantabria.
Solución técnica

Se desarrolló un sistema personalizado de scraping basado en Python y Selenium, con reintentos automáticos ante errores de conexión, guardado en HTML local y posterior parsing a CSV limpio. El proceso se estructuró por bloques secuenciales para asegurar el control sobre la cantidad y la integridad de los datos extraídos.

Script en Python desarrollado para automatizar la extracción masiva de artículos de Cantabria24Horas
Script en Python desarrollado para automatizar la extracción masiva de artículos de Cantabria24Horas
Resultados

Se logró recuperar cerca de 60.000 artículos de forma estructurada, generando un archivo preparado para importación en WordPress con formato limpio, etiquetas, fechas y títulos originales. El proceso, ejecutado por fases, incluyó validaciones manuales, optimización de tiempos de carga y trazabilidad completa de la operación.

Ejecución del scraper en PowerShell con control por bloques durante el proceso de extracción.
Ejecución del scraper en PowerShell con control por bloques durante el proceso de extracción.
Impacto

El trabajo ha permitido a Cantabria24Horas planificar su relanzamiento con base tecnológica moderna y datos históricos preservados, ahorrando miles de euros en desarrollo personalizado o licencias externas. Una migración crítica resuelta de forma ágil, eficiente y escalable.

Vista del archivo CSV estructurado con los artículos procesados para su migración a WordPress
Vista del archivo CSV estructurado con los artículos procesados para su migración a WordPress