Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa

pln-fing-udelar / covid19-qa

COVID-19 Question Answering

5 stars 4 forks source link

Diseñar los experimentos (qué evaluar? si extracto con la respuesta aparece en la salida de ES? F1? Exact Match? Con qué dataset? cuántas preguntas hay para evaluar?) @aialarosa #17

Open aialarosa opened 4 years ago

aialarosa commented 4 years ago

Usar este conjunto de preguntas: https://docs.google.com/spreadsheets/d/16JEUMr9mKcKIsL8CH-52cbTRb_5OQyOsh_sgIcglT5w/edit#gid=0
Evaluar diferentes configuraciones de ES: con/sin diccionario cantidad de documentos a pasarle a beto: 10, 20, 30 ** efecto de la flexibilización de la consulta (entre las preguntas ya hay algunas variantes que van a permitir evaluar esto)
Revisar el log para ver si el fragmento que ya tenemos identificado es recuperado por ES.
No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

bryant1410 commented 4 years ago

Demás.

No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

¿Pero exact match de strings o F1 no pueden capturar esto? Por ejemplo, si la respuesta aparece en un documento nuevo y dice "en Abril", cuando la correcta era "Abril" en otro doc.

aialarosa commented 4 years ago

En ese caso sí, pero en otros casos la respuesta puede estar escrita con palabras completamente diferentes en un documento que no es el que usamos para anotar respuestas. La vamos a considerar incorrecta cuando puede ser correcta.

El mié., 27 may. 2020 a las 13:14, Santiago Castro (< notifications@github.com>) escribió:

Demás.

No calcular exact match, evaluar a mano las salidas, porque ahora hay muchos documentos más y la respuesta correcta puede aparecer en diferentes textos.

¿Pero exact match de strings o F1 no pueden capturar esto? Por ejemplo, si la respuesta aparece en un documento nuevo y dice "en Abril", cuando la correcta era "Abril" en otro doc.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/pln-fing-udelar/covid19-qa/issues/17#issuecomment-634774048, or unsubscribe https://github.com/notifications/unsubscribe-auth/AO633NY7EKMMDOH6XG5B2NDRTU34VANCNFSM4NKZE47Q .

bryant1410 commented 4 years ago

¿Qué tal si medimos el maximo exact match para las respuestas que mostramos en el sitio (hasta un máximo de 10)? El documento verdadero debería aparecer ahí, y creo que deberían ser pocos los casos en los que no y que además hay una buena respuesta en otro doc.

Digo para intentar automatizar la evaluación.

aialarosa commented 4 years ago

Sí, puede ser, es cierto que difícilmente la respuesta que tenemos anotada no aparezca entre las correctas. Igual no estaría mal detectar cualquier otra respuesta correcta, si es que hay alguna.

El mié., 27 may. 2020 a las 13:45, Santiago Castro (< notifications@github.com>) escribió:

¿Qué tal si medimos el maximo exact match para las respuestas que mostramos en el sitio (hasta un máximo de 10)? El documento verdadero debería aparecer ahí, y creo que deberían ser pocos los casos en los que no y que además hay una buena respuesta en otro doc.

Digo para intentar automatizar la evaluación.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/pln-fing-udelar/covid19-qa/issues/17#issuecomment-634793079, or unsubscribe https://github.com/notifications/unsubscribe-auth/AO633N4ZLFUGI2NVNQIIGKLRTU7TBANCNFSM4NKZE47Q .