Entendimiento del Negocio (Primera Entrega)

1.1 Trasfondo del proyecto

El desarrollo del proyecto se encuentra en el marco del área de la salud, más específicamente se enfoca en el análisis de datos bioestadísticos. Este es un campo que, como se describe en el articulo Chicco y Jurman, intenta encontrar correlaciones y patrones en los datos que no son fácilmente detectables por los especialistas de la salud, paso seguido construyen modelos predictivos para determinar el posible estado de los pacientes basándose en sus características.

El enfoque del proyecto se inclina por la búsqueda de relaciones entre las diferentes variables que componen la historia clínica electrónica (EHR por sus siglas en ingles). Lo anterior se fundamenta en las herramientas y metodologías del análisis y visualización de datos, particularmente se implementará en la metodología CRISP-DM.

Los beneficios del proyecto están orientados a la caracterización de aquellos factores de riesgo (o denominados características clínicas) que presentan una alta relación con la supervivencia de pacientes que presenten fallos cardíacos.

El desafió al que este proyecto se enfrenta esta bien descrito en el articulo que presenta los datos, y es encontrar la manera de generar diagnostico precisos acerca de pacientes con fallas cardíacas, ya que al rededor del mundo se presentan cerca de 17 millones de muertes al año relacionadas con enfermedades cardiovasculares. Este reto ha sido tratado desde diferentes perspectivas, pero las herramientas de machine learning y bioestadistica han presentado deficiencias en generar modelos predictivos de alta precisión (comentado en el articulo).

1.2 Alcance

Nuestra proyección se limita al objetivo del modulo (recordar que el modulo es meramente de visualización y análisis de datos, a diferencia del articulo que implementó metodologías de ML, nosotros solo debemos realizar la fase de análisis :/ ), la idea es poder procesar los datos y encontrar los patrones y relaciones entre las variables y el estado final del paciente. En otras palabras vamos a replicar el objetivo del articulo esperando tener nuestros propios hallazgos (ya sabemos que el resultado de la investigación fue que los niveles de creatinina y el porcentaje de bombeo del corazón son los factores de riesgo clave, pero no debemos dejarnos sesgar por este resultado, busquemos nuestro propio resultado).

En cuanto a las limitaciones debemos tener en cuenta tanto limitaciones propias, como las limitaciones presentadas en el articulo:

En el articulo se menciona que los modelos creados anteriormente tienen un problema de reproducibilidad en el entorno, y tiene como resultado un disenso en cuanto a los factores que son considerados causa de muerte en fallos cardiacos. Adicionalmente, el intento por mejorar la reproducibilidad de los modelos y los analisis impactan fuertemente su rendimiento, ya que se tiende a VALIDAR la eficacia de los modelos probandolos con diferentes datasets, lo cual concluye en una baja taza de presición del modelo. LA SOLUCIÓN que propone el articulo es reproducir el modelo en entornos altamente delimitados y precisos, es por ello que este dataset es tan pequeño y preciso (299 pacientes entre 45 y 95 con fallas cardiacas recolectadas en 2015 en tan solo 2 centros de salud de Pakistan), con ello las conclusiones SOLO aplicarían a la predicción de pacientes de una población muy similar. No podemos combinar datos de mas pacientes a menos que sean de una población similar, sino no tendremos consenso sobre las conclusiones.

El set de datos como lo conseguimos esta muy bien depurado y limpio, no presenta valores nulos, todos pertenecen a la misma población, esto nos deja una limitante en el proyecto y es que una de las fases se refiere a la PREPARACIÓN DE LOS DATOS, por lo que esta fase parece que no la podremos aplicar muy bien. Esto es algo que debemos dejar claro y preguntar para saber si hay algún problema.

El proyecto es de análisis y visualización de datos, como ya se menciono antes NO vamos a hacer ML, por lo que nuestra metodología es limitada frente al avance que ya existe en el paper.

Creo que el resultado del proyecto, más allá de tener una conclusión sobre los factores de riesgo identificados en este dataset (lo cual ya esta hecho en el paper), debe ser la creación de una herramienta que realice el proceso de datos y tenga como resultado una conclusión según el set de datos que se le proporcione. Es decir que el código reciba el set de datos, lo analice, y de respuesta a que criterios son los que afectan para la población del set proporcionado, y así podemos resolver el problema de reproducibilidad.

1.3 Plan

No creo que tengamos que tener la estructura de cada actividad y fase del proyecto, aunque sabemos que el joven Robert ya es un especialista en este tipo de proyectos, debemos recordar que solo aquellas persona que hallan desarrollado experticia en este tipo de proyectos puede preparar sin problema un cronograma de actividades detallado. Propogo que se haga el gantt como lo esta haciendo Daniela en Github pero como una predicción basada en las fases del modulo, es decir que se tenga el desarrollo de cada fase con base en la unidad que hayamos visto en la semana:

Semana 1. Entendimiento de los datos: actividades de la semana: Implementar las herramientas de exploración de los datos como los metodos pandas .describe(), .sample(), .info(), clasificación de variables categoricas y cuantitativas, graficas exploratorias del conjunto de datos como histogramas, tablas de contingencia y todo lo que vimos esta semana.

Semana 2.... misma estructura según los temas previstos en la siguiente unidad.

Cualquier comentario y discusión es bienvenida, me pondré al tanto de lo que se haya discutido en la sesión de esta noche.

Robert-Gomez-AI / HeartFailure

Entendimiento del Negocio (Primera Entrega) #1