ComunidadBioInfo / cdsb2019

Taller CDSB 2019: Cómo Crear y Ordenar Herramientas 'Tidy' (CDSB Workshop 2019: How to Build and Create Tidy Tools )
https://comunidadbioinfo.github.io/post/building-tidy-tools-cdsb-runconf-2019/
1 stars 1 forks source link

GENERACION DE CLUSTERS Y CROSS VALIDATION #4

Open CarlosBarronG opened 4 years ago

CarlosBarronG commented 4 years ago

Actualmente trabajo con herramientas genomicas y por medio de las caracteristicas genomicas de los pacientes intento agruparlos en categorias. Para ello realizo pruebas y graficos como los heatmap, PCA, regresiones logisticas, LDA, t-SNE, curvas ROC y cross-validation. Cada una de estas pruebas da resultados y modelos diferentes, ademas se tienen que hacer con paquetes separados en R. En este sentido propongo realizar un paquete en R que ayude a analizar los datos probando los diferentes analisis y validando cada uno de los modelos que proponga para poder obtener cual es la prueba a emplear que mejor ayude a agrupar nuestros datos con los resultados de las validaciones. Esto no solo podria servir para mi area, si no que podria ser utilizada en otras areas, como ejemplo en la industria para saber quien va a comprar un producto y quien no va a comprar basandose en las caracteristicas de las personas.

areyesq89 commented 4 years ago

Suena bien, pero tenemos que aterrizar un poco la idea para que la podamos hacer en 2 días. Una opción puede ser la siguiente, un paquetito de R que dada una matriz de datos, haga reducción de dimensiones usando diferentes métodos (PCA, MDS, t-SNE, UMAP, etc). Podríamos imaginarnos un objeto "ReducedDimensions", que guarde los resultados relevantes de cada método de reducción de dimensiones. Un método de ReducedDimensions podría ser el típico scatterplot de dimension 2 vs dimensión 1. ¿Qué piensas @CarlosBarronG?

CarlosBarronG commented 4 years ago

Suena buena esa idea @areyesq89 para un primer abordaje, despues de ello podriamos hacer que la funcion lanze de los resultados relevantes, cuales son las variables que mas aportan al metodo para tomarlas como punto de partida para posteriores analisis. ¿que opinas?