LuciaVitores / Automatizacion_PDF_scraping

Automatización de extracción de datos de informes de secuenciación masiva del software Oncomine Reporter.
1 stars 0 forks source link
automation data-extraction massive-sequencing pathological-anatomy pdfscraping python

Logo

Automatización de extracción de datos de informes de secuenciación masiva del software Oncomine Reporter.

Trabajo de fin de grado de Ingeniería de la Salud de la Universidad de Burgos. Escuela Politécnica Superior.

Tutor: Antonio Jesús Canepa Oneto.

Alumna: Lucía Vítores López.

Julio de 2023.

Resumen.

Este Trabajo de Fin de Grado se centra en la automatización de la extracción de datos provenientes del software Oncomine Reporter, del servicio de anatomía patológica del Hospital universitario de Burgos (HUBU).

La extracción manual de datos es un proceso muy costoso donde es muy probable que se cometan errores. Sin embargo, el uso de automatización puede mejorar tanto la eficiencia como la precisión del proceso. El estudio se basa en implementar un sistema automático para la extracción de una serie de datos de especial interés de distintos archivos, utilizando técnicas de PDFscraping.

Los resultados muestran que la automatización proporciona muchas ventajas y mejoras a la hora de trabajar con los resultados, aportando información más precisa, concreta y exacta sobre el cáncer para estudiar los distintos tipos y genes y no perder tiempo escogiendo los datos.

Objetivos.

El objetivo general del presente proyecto es solucionar el problema de obtención manual de los datos del software Oncomine Reporter del servicio de Anatomía Patológica en el Hospital Universitario de Burgos (HUBU) mediante la automatización de la extracción de los datos.

Para conseguir este objetivo general, se ha dividido en distintos objetivos más específicos que al unirlos permiten la correcta ejecución del proyecto.

Objetivos marcados por software, hardware o análisis.

  1. Desarrollo de un código capaz de facilitar la extracción de datos de ficheros PDF.
  2. Lograr una interfaz sencilla para que cualquier persona sea capaz de usarla correctamente y obtener los resultados esperados, con el fin de facilitar el estudio.

Objetivos técnicos.

  1. Revisión bibliográfica sobre PDFscraping.
  2. Determinar y localizar las variables de interés.
  3. Creación de código para la lectura de todos los PDF proporcionados.
  4. Código para la selección de las variables de interés de un PDF usando técnicas de PDFscraping.
  5. Separación de la información en tablas específicas.
  6. Creación de varias tablas exportables a archivos .xlsx con los resultados.
  7. Creación de material complementario para ayudar a su implementación en otros dispositivos.

Objetivos de aprendizaje.

  1. Mejora del entendimiento de los análisis más comunes en anatomopatología.
  2. Aumento del conocimiento en el ámbito de programación, enfocado en la extracción de datos mediante la técnica PDFscraping.
  3. Comprensión de la información biológica para su aplicación en el desarrollo del código.
  4. Selección de las herramientas informáticas más aptas para la realización del proyecto.