Regexp countries - Githubissues

adnaneh commented 3 years ago

Results for question 11/12 for countries, getting there !

adnaneh commented 3 years ago

Also for question 18,19,20 most documents have the results set up in a csv format inside the document --> if we can find the tables inside the document we can find the countries of contractors 💯

adnaneh commented 3 years ago

On obtient un score au dessus de toutes les autres équipes. Jusque là je n'ai pas du tout utilisé les données de validation pour construire les regexp donc ce n'est pas un overfit. Demain je me consacre à faire d'autres améliorations, la qualité du code et les phrases de justification.

LamDang commented 3 years ago

@adnaneh j’ai qq suggestions qui pourrait améliorer le temps de calcul si tu y travailles encore:

dans tes boucles, au lieu de faire any() essaie de sortir de la boucle dès que un élément est True
au lieu de scanner le document pour chaque questions x mots cles. Scanne une fois et garde un reverse index: un dict de mot clés -> liste des phrases avec ce mot clés. Ensuite chaque recherche est très rapide.

adnaneh commented 3 years ago

@LamDang Peut etre que je n'ai pas compris ce que tu veux dire sur any, mais j'ai les éléments suivants:

any s'arrête lorsqu'un élément est True: https://stackoverflow.com/questions/16505456/how-exactly-does-the-python-any-function-work/16505590
Pour les pays, il faut boucler sur toutes les phrases pour avoir tous les pays (on ne peut pas s'arrêter)

Pour la deuxième remarque je ne suis pas sûr qu'on y gagne car on cherche plusieurs mots clés par questions donc on doit faire des opérations d'ensemble en O(n) ,même complexité que bouclé sur les phrases, de toute façon? (n le nombre de phrases)

De toute façon notre CO2 reste assez bas du coup je vais améliorer l'accuracy dans la soirée.

Merci pour les conseils :)

adnaneh commented 3 years ago

Même si ça reste O(n) on devrait avoir un gain pas mal vu que la recherche de mots clés dans une liste a autant d'opérations que de mots dans la liste... Par contre ça vient de me donner l'idée de hacher les phrases, ce qui devrait régler cette différence. Normalement cela devrait donner un gain de performance assez facilement

LamDang commented 3 years ago

Ah je savais pas que any fonctionne comme ça. Tant mieux! Pour la 2e idée enfaite une fois tu fais la reverse index chaque recherche de mot clés n’est plus O(N) mais O(1). Du coup la complexité global au lieu de n x k devient n+k, n est le nombre de phrases et k le nb de recherches

adnaneh commented 3 years ago

Oui je suis d'accord la recherche de mots clé individuellement sera O(1), mais pour rechercher les phrases avec plusieurs mots clés, il faut faire des opérations entre les ensembles de chaque mots clé pour trouver les phrases qui contiennent tout les mots clés. Vu que chaque ensemble est de taille O(N), chaque opération d'ensemble sera O(N)

adnaneh commented 3 years ago

Après c'est vrai que mettre un O(N) pour le nombre de phrases pour chaque mot clé est un peu sévère. On aurait certainement un gain de performance comme cela.

adnaneh commented 3 years ago

Mais je ne pense pas pouvoir implémenter cette approche car ça implique beaucoup de changement dans le code, je pense qu'il vaut mieux que je continue d'améliorer l'accuracy vu qu'on reste assez bon en CO2

LamDang commented 3 years ago

D’ailleurs j’ai un peu du mal à comprendre la formule de score. Je retrouve pas acc^3/co2*100. J’ai loupé qq chose?

adnaneh commented 3 years ago

Je ne saurai pas te dire, je n'étais pas au courant de cette formule ^^'

adnaneh commented 3 years ago

Ils ont dit qu'il y'avait une limite de CO2 en dessous de laquelle il n'y a pas de gain en score, mais je n'en sais pas plus.

adnaneh / bnp-hackathon

Regexp countries #8