Open adnaneh opened 3 years ago
Also for question 18,19,20 most documents have the results set up in a csv format inside the document --> if we can find the tables inside the document we can find the countries of contractors đź’Ż
On obtient un score au dessus de toutes les autres équipes. Jusque là je n'ai pas du tout utilisé les données de validation pour construire les regexp donc ce n'est pas un overfit. Demain je me consacre à faire d'autres améliorations, la qualité du code et les phrases de justification.
@adnaneh j’ai qq suggestions qui pourrait améliorer le temps de calcul si tu y travailles encore:
@LamDang Peut etre que je n'ai pas compris ce que tu veux dire sur any, mais j'ai les éléments suivants:
Pour la deuxième remarque je ne suis pas sûr qu'on y gagne car on cherche plusieurs mots clés par questions donc on doit faire des opérations d'ensemble en O(n) ,même complexité que bouclé sur les phrases, de toute façon? (n le nombre de phrases)
De toute façon notre CO2 reste assez bas du coup je vais améliorer l'accuracy dans la soirée.
Merci pour les conseils :)
Même si ça reste O(n) on devrait avoir un gain pas mal vu que la recherche de mots clés dans une liste a autant d'opérations que de mots dans la liste... Par contre ça vient de me donner l'idée de hacher les phrases, ce qui devrait régler cette différence. Normalement cela devrait donner un gain de performance assez facilement
Ah je savais pas que any fonctionne comme ça. Tant mieux! Pour la 2e idée enfaite une fois tu fais la reverse index chaque recherche de mot clés n’est plus O(N) mais O(1). Du coup la complexité global au lieu de n x k devient n+k, n est le nombre de phrases et k le nb de recherches
Oui je suis d'accord la recherche de mots clé individuellement sera O(1), mais pour rechercher les phrases avec plusieurs mots clés, il faut faire des opérations entre les ensembles de chaque mots clé pour trouver les phrases qui contiennent tout les mots clés. Vu que chaque ensemble est de taille O(N), chaque opération d'ensemble sera O(N)
Après c'est vrai que mettre un O(N) pour le nombre de phrases pour chaque mot clé est un peu sévère. On aurait certainement un gain de performance comme cela.
Mais je ne pense pas pouvoir implémenter cette approche car ça implique beaucoup de changement dans le code, je pense qu'il vaut mieux que je continue d'améliorer l'accuracy vu qu'on reste assez bon en CO2
D’ailleurs j’ai un peu du mal à comprendre la formule de score. Je retrouve pas acc^3/co2*100. J’ai loupé qq chose?
Je ne saurai pas te dire, je n'Ă©tais pas au courant de cette formule ^^'
Ils ont dit qu'il y'avait une limite de CO2 en dessous de laquelle il n'y a pas de gain en score, mais je n'en sais pas plus.
Results for question 11/12 for countries, getting there !![image](https://user-images.githubusercontent.com/28924186/101259735-f431f180-372a-11eb-9f01-79e6c01503f8.png)