LA-CoNGA / WP5-Dissemination

0 stars 5 forks source link

Organización de seminario de Data Science #11

Closed crangelsmith closed 4 years ago

crangelsmith commented 4 years ago

Este issue es para organizar el seminario de data science que se dará el 17 de Julio. Entre los ponentes tengo entendido que estarán @artfisica , @jal70 y yo (me falta alguien más)?

Cosas que necesitamos acordar (porfa comentemos en este issue y nos ahorramos los correos):

Seria bueno tener un draft mas o menos listo para final de la semana próxima, para no estar pegando carreras.

artfisica commented 4 years ago

Hola!

Pues no sabía/recordaba que era exponente :)

Por acá podemos hacerlo? https://docs.google.com/presentation/d/1AfdXXGyi2KXGseWpSvzgkvyJuJoCn87C4t7OFz3vDso/

(ni @jal70 ni yo utizamos pptx)

crangelsmith commented 4 years ago

Pues no logré encontrar el documento con los ponentes, pero creo recordar los nombres de ustedes (que de todas formas tiene sentido).

Chévere, usemos ese template. He estado pensando en cómo podría ser el outline de la presentación y este es mi propuesta (por supuesto que puede y debe cambiar):

  1. Introducción a la Ciencia de Datos
    • Qué es, con que se come, etc.
  2. Inteligencia artificial y/o aprendizaje supervisado (o como lo queramos llamar)
    • Algoritmos básicos, una mención al deep learning.
  3. Ciencia de datos en sistemas complejos
    • Buen lugar para hablar de un ejemplo en la industria, hay un montón que usan network modelling.
  4. Ciencia de datos en física de altas energías
    • Un ejemplo de ATLAS
  5. La reproducibilidad como principio de la ciencia de datos
    • Hablar la conexión importante entre ingeniería de software, computación de alto rendimiento y la ciencia de datos. Esto para motivar la forma que hemos construido el curriculum del módulo.
  6. El currículo de ciencia de datos de LA-CoNGA.
    • Me imagino que esto es la ultima lámina de la presentación de hoy.

Qué opinan? Yo me siento cómoda (y ya tengo material) para hablar de 1, 2, 3 y 5, pero soy totalmente flexible.

jal70 commented 4 years ago

Hola

Estoy atento a mi parte, que en realidad es muy pequeña: Preparar algunos ejemplos de problemas en el área de Física Médica. Tal vez sería un punto 4.5 en la lista de Camila.

Soy lo menos parecido a una autoridad en el área, pero estoy pendiente de ayudar en cualquier otra tarea necesaria.

crangelsmith commented 4 years ago

Chévere, quizás podemos reemplaza4 el punto 3. con el ejemplo de física médica, y los ejemplos de DS en sistemas complejos se podrían mencionar de pasada en la introducción.

Entonces el outline (un poco más compacto) quedaría así:

  1. Introducción a la ciencia de datos e inteligencia artificial (speaker: @crangelsmith )
  2. Ciencia de datos en física medica (@jal70)
  3. Ciencia de datos en física de altas energías (@artfisica, @caredg )
  4. La reproducibilidad como principio de la ciencia de datos (?)
  5. El currículo de ciencia de datos de LA-CoNGA. (?)

Qué opinas @artfisica? Alguna preferencia entre los puntos 4 o 5?

camachoreina commented 4 years ago

Hola! Excelente que empiecen a organizar el seminario con tiempo!

Hace falta agregar a Edgar Carrera (@caredg) de la USFQ Quito en el loop. Aquí pueden ver quienes son los responsables de cada seminario: https://github.com/LA-CoNGA/InformationMeetings/blob/master/WP5_Meetings/Webinar%20meetings/20200609_WP5_Reunion_seminarios/20200609_minuta_WP5_EncuentrosVirtuales.md

Y veo que Arturo ya creó el documento compartido con el formato presentación. Confirmo que es el formato que hemos estado usando para las presentaciones LA-CoNGA physics.

Buen inicio de semana, Reina

crangelsmith commented 4 years ago

Hola @caredg, disculpa por no haberte incluido inicialmente en el issue.

Qué opinas de la lista de temas propuestos, tienes algún tema en particular que te gustaría presentar en el seminario? Por favor, siéntete libre de proponer, cambiar, comentar :)

artfisica commented 4 years ago

Hola!

@crangelsmith

Qué opinas @artfisica? Alguna preferencia entre los puntos 4 o 5?

Yo estaré honestamente contento con cualquiera de los dos. Por favor, toma el que más te guste :) Y claro, @caredg, concuerdo con Camila. Y gracias de nuevo

Arturo

crangelsmith commented 4 years ago

Hola todos, el esquema propuesto está ahora forma de slides en el documento compartido: https://docs.google.com/presentation/d/1AfdXXGyi2KXGseWpSvzgkvyJuJoCn87C4t7OFz3vDso/edit#slide=id.p4

También puse los nombres bajo cada tema para que cada quien vaya desarrollando el material como le apetezca -pareciera que yo tengo muchas láminas pero es que ya desarrollé un poco la introducción en distintas partes-, por favor añadan las láminas necesiten y luego vemos como hacemos con el tiempo.

@artfisica te dejo para que hables del punto de reproducibilidad y las herramientas que se usan en ese sentido (github, jupyter notebooks, binder, etc), creo haber visto que ya tenias material al respecto. Sería bueno que esa parte sea un poco general para que no parezca que son herramientas solo usadas en física, si no en todo desarrollo de software y ciencia con datos.

Yo puedo luego discutir cómo LA-CoNGA planea desarrollar el módulo.

caredg commented 4 years ago

Hola @caredg, disculpa por no haberte incluido inicialmente en el issue.

Qué opinas de la lista de temas propuestos, tienes algún tema en particular que te gustaría presentar en el seminario? Por favor, siéntete libre de proponer, cambiar, comentar :)

Hola, perdón por no responder más temprano. Siempre ando retrasado. Me parecen bien los temas. En HEP, al menos en las áreas de reprodubibilidad y preservación de datos, es cada vez más importante la tecnología de contenedores Docker, Singularity, etc. Además, de los sistemas de orquestamiento, como Kubernetes, etc. Si se trata de motivar a los asistentes, se podría incluir ejemplos de investigaciones de primer nivel con datos abiertos de CMS: https://inspirehep.net/literature?sort=mostrecent&size=25&page=1&q=references.reference.dois%3A10.7483%2FOPENDATA.CMS%2A Es un claro mensaje de que no necesariamente ahora se tiene que pertenecer a una colaboración del LHC para hacer física de primer orden. Además, sería bueno mencionar que el CERN está en muy buena ruta de lograr una estrategia conjunta (entre todos los experimentos) para liberar datos sistemáticamente.

crangelsmith commented 4 years ago

Hola @caredg me parece muy bien, seria bueno entonces que coordinaras con Arturo en cómo abordar estos temas en la sección de física de altas energías.

Creo que se puede usar el tema de investigación datos abiertos de CMS para hablar del movimiento mas global de Open Data y mencionar otros campos y plataformas que ofrecen datos abiertos (la NASA, Kaggle, Our World in Data, etc). De hecho creo que seria muy interesante hablar sobre como la open data ha permitido avances mucho mas rápidos en la investigación del COVID19 (desde compartir el secuenciación genética, los movimientos de personas entre hubs, a la competencia que esta corriendo Kaggle).

Creo que esto puede ser una sección más en nuestra presentación, que opinan? Alguien que tenga interés particular en desarrollar esta sección? @jal70 ? (si nadie quiere yo podría hacerlo).

jal70 commented 4 years ago

Colegas

Aprendido en la reunión de consorcio de hoy, al revisar las láminas de HEP. Es muy conveniente hacer alguna mención a las posibilidades de pasantía en alguno de los socios científicos e industriales en LA-CoNGA. Dejo por aquí los dos que tengo en la mente en este momento:

http://frontierx.co/ http://www.dbaccess.com/

No tengo idea de qué tipo de actividad en DS puedan ofrecer, pero es un action item a completar.

Y los socios científicos? Otros industriales? Hay que agrandar la lista?

jal70 commented 4 years ago

Hola @caredg me parece muy bien, seria bueno entonces que coordinaras con Arturo en cómo abordar estos temas en la sección de física de altas energías.

Creo que se puede usar el tema de investigación datos abiertos de CMS para hablar del movimiento mas global de Open Data y mencionar otros campos y plataformas que ofrecen datos abiertos (la NASA, Kaggle, Our World in Data, etc). De hecho creo que seria muy interesante hablar sobre como la open data ha permitido avances mucho mas rápidos en la investigación del COVID19 (desde compartir el secuenciación genética, los movimientos de personas entre hubs, a la competencia que esta corriendo Kaggle).

Creo que esto puede ser una sección más en nuestra presentación, que opinan? Alguien que tenga interés particular en desarrollar esta sección? @jal70 ? (si nadie quiere yo podría hacerlo).

Puedo intentar algo.

artfisica commented 4 years ago

Y los Open Data para training con los de LA-CoNGA (ATLAS Open data, cuña aparte... :)

artfisica commented 4 years ago

último comentario del día, pero de recordar que con datasets como esos, see puede hacer mucha ciencia. Quizás no física, pero si ciencia o ingeniería. Nosotros, por ejemplo, hemos usaos los AOD para evaluar las prestaciones de diversos computadores y ayudar así a una universidad a decidir que comprar.

crangelsmith commented 4 years ago

último comentario del día, pero de recordar que con datasets como esos, see puede hacer mucha ciencia. Quizás no física, pero si ciencia o ingeniería. Nosotros, por ejemplo, hemos usaos los AOD para evaluar las prestaciones de diversos computadores y ayudar así a una universidad a decidir que comprar.

Buen ejemplo! Yo añadiría que uno de los valores de Open Science es también publicar tus datos y código en conjunto con los papers, eso permite a otros investigadores construir sobre lo que ya existe y le añade transparencia y confianza a los resultados.

jal70 commented 4 years ago

Y los Open Data para training con los de LA-CoNGA (ATLAS Open data, cuña aparte... :)

Correcto. Esa actividad está entrelazada con la oferta académica.

crangelsmith commented 4 years ago

Hola todos! Creo que ya incluí todo lo que me correspondía, solo me toca hacer unas ediciones menores a mis láminas pero no planeo añadir mas material. Avísenme si estoy cubriendo algo que otros querían desarrollar, no tengo problema en reducir mi sección.

Creo que podré cubrir las primeras 10 láminas en unos 7 (+/- 2) minutos.

caredg commented 4 years ago

Buenas. He colocado 3 slides tratando de resumir lo esencial del uso de ciencia de datos en HEP, así como el impacto frente desafíos de la sociedad (como el covid) y las principales tecnologías utilizadas por ahora. Por favor, siéntanse en completa libertad de modificarlos completamente, borrarlos, enmendarlos, etc.

crangelsmith commented 4 years ago

Gracias @caredg, dejé un comentario menor en el orden de una de las láminas, de resto se ve chevere. Yo no planeo cambiar más nada hoy. El último que haga sus cambios entre @jal70 y @artfisica que le mande las laminas al consorcio.

artfisica commented 4 years ago

Gracias @crangelsmith, todos.

Yo estoy trabajando en las slides en las siguientes horas. Enviamos el link al Google Doc al consorcio (en la noche Europea) Le he cambiado los permisos para que sólo nosotros 4 seamos editores, y todo aquel con el link puede comentar.

Saludos!

jal70 commented 4 years ago

Hola

Mi contribución será ~ 6 slides, para el mismo número de minutos.

Estoy agregando algo sobre COVID y el posible enlace con Ciencia Ciudadana en el proyecto. Creo que seré el último que agregue sus láminas. Así que estaré pendiente de compartir o actualizar la información al resto del consorcio.

caredg commented 4 years ago

Hola. ¿Cómo será la presentación de prueba? Lamentablemente mañana tengo la última clase del verano (antes de exámenes finales la próxima semana) justo a las 15GMT. Es una clase importante que no la puedo mover por ser la última. Lo que puedo hacer es recortarla, para poder estar al menos media hora en la práctica. Por cierto, asumí que esos 3 slides estuvieron reservados para HEP (supongo que nos llevará unos 3 a 5 min exponer). @artfisica, no sé si eso es lo que tenías en mente; por fa, siéntete en la completa libertad de modificar cualquier cosa (incluso, como dije, borrar todo). También, no sé si es necesario que los dos hablemos algo, supongo que no. Para mí estaría bien si sólo @artfisica presenta la parte de HEP; por supuesto, yo voy a estar conectado y atento cuando sea la presentación oficial (y como digo, trataré de estar mañana el mayor tiempo posible). ¿Estaría bien ese plan?

crangelsmith commented 4 years ago

Hola todos. La presentación se ve muy bien! Ya después de ver todo el material decidí agregar un par de slides a mi sección (no puedo dar una charla de ciencia de datos sin incluir algunas figuras del The Turing Way 😊!) También puse unos separadores de sección para hacer las transiciones menos bruscas.

@artfisica como mencioné en uno de los comentarios, creo que tú deberías cerrar la charla hablando de cómo será el módulo de CD en la-conga, creo que la presentación se sentirá más fluida de esa forma.

jal70 commented 4 years ago

Hola colegas

Luego de la revisión con el grupo, que tendremos en breve, puede ser conveniente que hagamos un ensayo general. Lo más lógico es hacerlo mañana.

Qué opinan ustedes? Mi horario es flexible. Me puedo adaptar a los suyos.

caredg commented 4 years ago

Hola colegas

Luego de la revisión con el grupo, que tendremos en breve, puede ser conveniente que hagamos un ensayo general. Lo más lógico es hacerlo mañana.

Qué opinan ustedes? Mi horario es flexible. Me puedo adaptar a los suyos.

Yo también estoy flexible mañana jueves luego de las 14H (CET).

crangelsmith commented 4 years ago

Yo también soy flexible durante el día, pero tengo que desconectarme a las 18h (CET), 17h (UK time).

jal70 commented 4 years ago

Listo. Nos reunimos a las 16:00 CET (@artfisica está de acuerdo con esa hora).

Alguien enviará un enlace.

crangelsmith commented 4 years ago

Hola todos,

Acabo de modificar mi material (quité par de slides para reducir tiempo) y dado los comentarios de ayer, también agregué unos ejemplos de DS en sistemas complejos de proyectos en los que he trabajado en los últimos años.

Aun creo que hay muchísimo material para una charla de 30-35 minutos, deberíamos pensar antes de rehearsal cómo reducir un poco cada una de nuestras secciones (ya sea quitar material, o reducir la profundidad con la que lo abordamos) para que la charla no sea tan larga.