Avancement - Githubissues

Si on écrivait au fur et a mesure nos avancements respectifs dans ce fil ?

Aujourd'hui, j'ai ajoute le module python qui se charge de créer des trigrams a partir d'une liste de fichiers. Il suffit d'appeler le script ainsi : ./3-grams_construction.py random_book* Pour afficher le dictionnaire, rajouter dans la main pprint(dic) J'ai laissé la place a l’entrée de la base de donnée dans le jeu en utilisant des stubs a la place des fonctions de la base de données. Pour l'instant, les fonctions setWordTrigram(storage, word, trigramsList) et getWordTrigram(storage, word) utilisent de bêtes dictionnaires, mais ils constituent une couche a part entière qu'on peut modifier sans avoir a changer les fonctions index.

Une question qu'on devrait se poser concerne le "lissage" du fichier avant de l'indexer : comment gérer toute la ponctuation ? Les majuscules etc ? Les laisser entrer dans des trigrams ou non ? Ce ne serait pas complètement erronée dans la mesure ou ils peuvent aussi créer des erreurs, mais dans ce cas-la, la base de donnée sera plus lourde si on veut avoir toutes les combinaisons de fin de mot virgule, fin de mot point, fin de mot, point d'interrogation etc...

Sinon, je me mets a présent aux bases de donnes...

Bonne journée !

rcharb1 / OCR_corrector

Avancement #2

Si on écrivait au fur et a mesure nos avancements respectifs dans ce fil ?