rcharb1 / OCR_corrector

intended to automatically correct an Optical Character Recognition document
GNU General Public License v2.0
0 stars 0 forks source link

Reunion d'aujourd'hui #1

Open rcharb1 opened 8 years ago

rcharb1 commented 8 years ago

Je suis vraiment désolée et j'espère qu'on ne va pas être coupés au milieu... Si c'est le cas, je ne veux pas te faire perdre du temps, on remettra la réunion et je trouverai un moyen d'avoir un débit un peu moins capricieux!!!

tuxcy17 commented 8 years ago

No problem ^^

tuxcy17 commented 8 years ago

je suis en train de finir la data de l'OCR plus deux trois configuration de base de donnée sur mon ordi ^^'

rcharb1 commented 8 years ago

Ah, génial ! Me voici ! On peut commencer en espérant ne pas s'arrêter toutes les 2 min !!

tuxcy17 commented 8 years ago

yep :)

rcharb1 commented 8 years ago

Donc où en sont les choses et quels sont les projets pour cette semaine ?

rcharb1 commented 8 years ago

Pour résumer : ...

rcharb1 commented 8 years ago

On a les données de base pour les statistiques, les bigrams de mots anglais et un corpus de textes anglais pour fabriquer les 3-grams de lettres. Il reste à discuter des str de données dans lesquelles mettre tout ça

tuxcy17 commented 8 years ago

Déjà je n'ai pas encore eu le retour de la prof d'ingénierie des langues donc... en stand by de ce côté. Pour la donnée ocr faite à la main, je suis en train de la finir. en volume c'est 40 pages de texte dans deux polices différentes. Donc une donnée relativement facile à traiter et l'autre carrément plus dur ! Je n'ai pas eu le temps de regarder trop le cours ni de voir ce que tu avais envoyé... j'ai beaucoup de travail à côté en ce moment (la semaine pro ce sera pareil ^^')

rcharb1 commented 8 years ago

Pas de problème, c'est déjà très bien pour les données, j'ai mis un dossier data à la racine du projet, donc tu peux tout mettre dedans.

tuxcy17 commented 8 years ago

Oki je commiterai dès que ce sera fini... cet aprem.

tuxcy17 commented 8 years ago

Alors sur ta donnée je vois qu'il y a surtout des dictionnaires avec en gros deux données : le type de donnée (par exemple letter) + une valeur dans cet ensemble.

tuxcy17 commented 8 years ago

(En même temps que je te parle je regarde pour configurer une base NoSQL..; vu l

rcharb1 commented 8 years ago

L'OCR de la police dure est vraiment catastrophique ?

rcharb1 commented 8 years ago

ouf!! Encore une fois ! je crois qu'on va remettre ça !!

tuxcy17 commented 8 years ago

parfois oui c'est hard, mais bon il y a quand même moyen de faire quelque chose... le plus simple sera que tu jettes un oeil sur la donnée.

tuxcy17 commented 8 years ago

Pour moi on va partir sur une "petite" base de donnée, pas temps parce que c'est nécessaire (quoi que le fichier des bigrams est assez volumineux) mais parce que ça nous permet de faire un projet dans une configuration plus réel (on a toujours des bases de données etc...). donc je pense partir sur du NoSQL vu que la donnée n'est pas très structuré : donc pourquoi pas la référence : mongodb ?

tuxcy17 commented 8 years ago

Pas de problème si tu veux remettre ça ... on peut communiquer par mail quand tu as un peu de dispo et de réseau. L'important c'est que l'on reste en contact et que l'on avance même si on discute de manière plus épisodique :)

tuxcy17 commented 8 years ago

https://fr.wikipedia.org/wiki/MongoDB http://harry-wanki.developpez.com/tutoriels/mongodb/debuter-mongodb-introduction-base-donnees-nosql/

rcharb1 commented 8 years ago

D'accord, alors je pars sur mongodb ? J'essaie de lire un tutoriel dessus pour être fonctionnelle et on en construit 2 : une pour les mots et une pour les lettres ?

rcharb1 commented 8 years ago

Super! Je propose qu'on en construise une chacun, parce que c'est important que j'aprenne à me servir de ces outils... Laquelle tu choisis ?

tuxcy17 commented 8 years ago

Pas besoin on construit une base, et dedans on met tout ce que l'on veut. Pour faciliter le boulot, je vais essayer quelque chose.. je vais monter un serveur chez moi et on verra pour que tu es accès depuis chez toi. Comme ça on évite que la donnée soit éparpillé

tuxcy17 commented 8 years ago

En construire une chacun sa complique la tache. Par contre ce que tu peux faire, c'est avoir une base de test et "commité" les modifs sur une base prod.. c'est plus simple comme ça on se branche systématiquement sur la même donnée prod.

rcharb1 commented 8 years ago

ok, entre temps, je me mets à jour sur la techno et peut-être crée un programme python avec un stub à la place du travail de la DB ?

rcharb1 commented 8 years ago

En gros un module qui prend en entrée une liste de fichier et sort en sortie une liste de 3-grams

tuxcy17 commented 8 years ago

Yep c'est une bonne idée. Je pense que le plus simple c'est que je me fasse déjà un peu la main sur la techno et que tu commences à regarder des tutos sur les bdd en général et sur mongodb en particulier. Pas besoin de plonger dans le technique, comprendre les principes c'est déjà bien.

tuxcy17 commented 8 years ago

Nickel. Moi je vais voir pour faire la comparaison des deux texts.

rcharb1 commented 8 years ago

très bien! Merci beaucoup et encore désolée ! Effectivement, on n'est pas obligés de travailler en synchro, le mail marchera aussi bien dans la plupart des cas !!

rcharb1 commented 8 years ago

Bonne journée !!

tuxcy17 commented 8 years ago

Une fois que j'aurais pris la main sur la techno je te fais un retour plus technique. Comme ça tu auras pas à galérer au début. C'est un vaste sujet les bdd ^^'

tuxcy17 commented 8 years ago

De rien on fait comme ça :) Bonne journée !