rcharb1 / OCR_corrector

intended to automatically correct an Optical Character Recognition document
GNU General Public License v2.0
0 stars 0 forks source link

Avancement #2

Open rcharb1 opened 8 years ago

rcharb1 commented 8 years ago

Si on écrivait au fur et a mesure nos avancements respectifs dans ce fil ?

Aujourd'hui, j'ai ajoute le module python qui se charge de créer des trigrams a partir d'une liste de fichiers. Il suffit d'appeler le script ainsi : ./3-grams_construction.py random_book* Pour afficher le dictionnaire, rajouter dans la main pprint(dic) J'ai laissé la place a l’entrée de la base de donnée dans le jeu en utilisant des stubs a la place des fonctions de la base de données. Pour l'instant, les fonctions setWordTrigram(storage, word, trigramsList) et getWordTrigram(storage, word) utilisent de bêtes dictionnaires, mais ils constituent une couche a part entière qu'on peut modifier sans avoir a changer les fonctions index.

Une question qu'on devrait se poser concerne le "lissage" du fichier avant de l'indexer : comment gérer toute la ponctuation ? Les majuscules etc ? Les laisser entrer dans des trigrams ou non ? Ce ne serait pas complètement erronée dans la mesure ou ils peuvent aussi créer des erreurs, mais dans ce cas-la, la base de donnée sera plus lourde si on veut avoir toutes les combinaisons de fin de mot virgule, fin de mot point, fin de mot, point d'interrogation etc...

Sinon, je me mets a présent aux bases de donnes...

Bonne journée !

rcharb1 commented 8 years ago

Update : je viens de creer un module de lissage de fichier configurable pour filtrer la ponctuation, les lettres majuscules, les chiffres etc... Effectivement, rien qu'en enlevant la ponctuation, le nombre d'entrees du dictionnaire passe de 36000 a 21000 et si on met toute la casse en minuscule, on descend jusqu'a 17000 entrees ! Reste a discuter ensemble de ce qui est souhaitable...