Open rcharb1 opened 8 years ago
No problem ^^
je suis en train de finir la data de l'OCR plus deux trois configuration de base de donnée sur mon ordi ^^'
Ah, génial ! Me voici ! On peut commencer en espérant ne pas s'arrêter toutes les 2 min !!
yep :)
Donc où en sont les choses et quels sont les projets pour cette semaine ?
Pour résumer : ...
On a les données de base pour les statistiques, les bigrams de mots anglais et un corpus de textes anglais pour fabriquer les 3-grams de lettres. Il reste à discuter des str de données dans lesquelles mettre tout ça
Déjà je n'ai pas encore eu le retour de la prof d'ingénierie des langues donc... en stand by de ce côté. Pour la donnée ocr faite à la main, je suis en train de la finir. en volume c'est 40 pages de texte dans deux polices différentes. Donc une donnée relativement facile à traiter et l'autre carrément plus dur ! Je n'ai pas eu le temps de regarder trop le cours ni de voir ce que tu avais envoyé... j'ai beaucoup de travail à côté en ce moment (la semaine pro ce sera pareil ^^')
Pas de problème, c'est déjà très bien pour les données, j'ai mis un dossier data à la racine du projet, donc tu peux tout mettre dedans.
Oki je commiterai dès que ce sera fini... cet aprem.
Alors sur ta donnée je vois qu'il y a surtout des dictionnaires avec en gros deux données : le type de donnée (par exemple letter) + une valeur dans cet ensemble.
(En même temps que je te parle je regarde pour configurer une base NoSQL..; vu l
L'OCR de la police dure est vraiment catastrophique ?
ouf!! Encore une fois ! je crois qu'on va remettre ça !!
parfois oui c'est hard, mais bon il y a quand même moyen de faire quelque chose... le plus simple sera que tu jettes un oeil sur la donnée.
Pour moi on va partir sur une "petite" base de donnée, pas temps parce que c'est nécessaire (quoi que le fichier des bigrams est assez volumineux) mais parce que ça nous permet de faire un projet dans une configuration plus réel (on a toujours des bases de données etc...). donc je pense partir sur du NoSQL vu que la donnée n'est pas très structuré : donc pourquoi pas la référence : mongodb ?
Pas de problème si tu veux remettre ça ... on peut communiquer par mail quand tu as un peu de dispo et de réseau. L'important c'est que l'on reste en contact et que l'on avance même si on discute de manière plus épisodique :)
D'accord, alors je pars sur mongodb ? J'essaie de lire un tutoriel dessus pour être fonctionnelle et on en construit 2 : une pour les mots et une pour les lettres ?
Super! Je propose qu'on en construise une chacun, parce que c'est important que j'aprenne à me servir de ces outils... Laquelle tu choisis ?
Pas besoin on construit une base, et dedans on met tout ce que l'on veut. Pour faciliter le boulot, je vais essayer quelque chose.. je vais monter un serveur chez moi et on verra pour que tu es accès depuis chez toi. Comme ça on évite que la donnée soit éparpillé
En construire une chacun sa complique la tache. Par contre ce que tu peux faire, c'est avoir une base de test et "commité" les modifs sur une base prod.. c'est plus simple comme ça on se branche systématiquement sur la même donnée prod.
ok, entre temps, je me mets à jour sur la techno et peut-être crée un programme python avec un stub à la place du travail de la DB ?
En gros un module qui prend en entrée une liste de fichier et sort en sortie une liste de 3-grams
Yep c'est une bonne idée. Je pense que le plus simple c'est que je me fasse déjà un peu la main sur la techno et que tu commences à regarder des tutos sur les bdd en général et sur mongodb en particulier. Pas besoin de plonger dans le technique, comprendre les principes c'est déjà bien.
Nickel. Moi je vais voir pour faire la comparaison des deux texts.
très bien! Merci beaucoup et encore désolée ! Effectivement, on n'est pas obligés de travailler en synchro, le mail marchera aussi bien dans la plupart des cas !!
Bonne journée !!
Une fois que j'aurais pris la main sur la techno je te fais un retour plus technique. Comme ça tu auras pas à galérer au début. C'est un vaste sujet les bdd ^^'
De rien on fait comme ça :) Bonne journée !
Je suis vraiment désolée et j'espère qu'on ne va pas être coupés au milieu... Si c'est le cas, je ne veux pas te faire perdre du temps, on remettra la réunion et je trouverai un moyen d'avoir un débit un peu moins capricieux!!!