LamDang commented 3 years ago

Hello,

Je crée cette issue pour lister les tâches techniques à faire pour livrer l'algorithme final. On peut en discuter et faire évoluer cette liste au fur et à mesure:

Tâches génériques

[ ] Proposer un tron commun de code pour intégrer plusieurs briques NLP dans le pipeline
[ ] Implémenter le logging : input, output, temps pour avoir des feedbacks sur la plateforme de soumission
[x] Investiguer sur la plateforme Puzzle: combien de CPU? combien de RAM? espace disque?

Tâches NLP - @adnaneh

Tronc commun

[x] Pipeline de preprocessing : Segmenter le fichier en phrases , nettoyer les éléments non linguistique (saut à la ligne, etc) (Adnane)
[ ] Parfois les questions sont liées : comment implémenter les règles logiques

Détection des phrases pertinentes par question - @Ryosaeba8

[ ] Approches par mot clés: BM25ranker
[ ] Approches sémantique: (Joel)
- Sentence BERT (check doc Toolbox)
- USE (Universal Sentence Encoder) + MUSE (Multilingual Universal Sentence Encoder)

Question réponse boolean: - @syrinecheriaa

[ ] Approche mot clé: regex et mot clés si possible (@adnaneh )
[ ] Approche sémantique:
- Model question réponse boolean T5 : cf. Toolbox
- Model textual entailment (NLI) pour vérification des constat

Question sur les pays:

[ ] Approches mots clés: vs la list des pays (@adnaneh )
[ ] Approches QA extractive: cf. models entrainer sur des datasets types Squad

LamDang commented 3 years ago

@adnaneh @Ryosaeba8 @syrinecheriaa Il faudrait que vous voyez la répartition des tâches dessus. Ensuite ce serait bien de créer des issues pour chaque tâches pour pouvoir discuter des détails et se montrer des ressources.

N'hésitez pas si vous avez des questions.

adnaneh commented 3 years ago

Je prend : Tronc commun: Pipeline de preprocessing : Segmenter le fichier en phrases , nettoyer les éléments non linguistique (saut à la ligne, etc)

LamDang commented 3 years ago

@adnaneh tu peux créer une issue dédiée? comme ça je te pousse qq idées pour te faire gagner du temps

Ryosaeba8 commented 3 years ago

Moi je fonce sur les approches sémantiques pour la détection des phrases pertinentes. je vais aussi créer une issue. Merci @LamDang !

LamDang commented 3 years ago

J'ai pu vérifier avec les organisateurs. Sur la plateforme de soumission il y a 4CPU et 13Gb RAM

adnaneh commented 3 years ago

Another constraint: The algorithm needs to run below 7 min.

LamDang commented 3 years ago

@adnaneh @Ryosaeba8 @syrinecheriaa Pour avoir une vision globale je vous propose de regarder https://github.com/deepset-ai/haystack pour en inspirer. Nous n'avons pas assez de temps pour l'intégrer ou créer qq chose de ce niveau mais ça permet de comprendre ce qu'on fait dans l'ensemble

LamDang commented 3 years ago

Hello, vous en êtes où sur la partie regex sur les pays? Vous arrivez à avancer?

adnaneh commented 3 years ago

Hello @LamDang, c'est moi qui suit responsable de cette partie mais j'ai dû préparer ma soutenance que je viens de finir, du coup je vous update la dessus dans l'après-midi normalement si je ne suis pas sur la partie sustainable. Dans le même temps Joël et Syrine travaillent sur la partie sustainable.

adnaneh / bnp-hackathon

Listing des tâches - v0.1 #2

Tâches génériques

Tâches NLP - @adnaneh

Tronc commun

Détection des phrases pertinentes par question - @Ryosaeba8

Question réponse boolean: - @syrinecheriaa

Question sur les pays: