lafranceinsoumise / jlm-video-subtitles

Initiative citoyenne pour le sous-titrage des vidéos de la chaîne Youtube de Jean-Luc Mélenchon, porte-parole de la France Insoumise.
http://jlm2017.fr
16 stars 14 forks source link

Proposition reçue par mail #208

Open LucileDT opened 7 years ago

LucileDT commented 7 years ago

Bonjour à tou.te.s !

Un insoumis nous a envoyé par mail il y a quelque temps une proposition de méthode de transcription, je vous note ici nos échanges :

Maxime

Bonjour,

Etant Handicapé ( malentendant ) j'attend avec impatience le livret sur le handicap.

En attendant, je constate une bonne transcription écrite des vidéos disponibles sur la chaîne JLM. C'est parfait toutes les vidéos sont lisibles. ( je rattrape mon retard )

Sauf celle qui sont émisse par les médias. Difficile de suivre les débats sur ces médias qui ne fond pas l'effort de transcription.

Hors 10% de la population sont toucher part un problème d'audition, en ajoutant le sous-titre systématique sur les vidéos JLM, c'est une augmentation de +10% d'impacts sur les concitoyens.

Voila ma proposition très simple et impitoyable. A partir du moment ou un média invite notre futur président JLM, ce média, s'engage systématiquement a sous-titrer correctement la vidéo ou l'émissions issus du discours de JLM , ça leurs feras un exemple a suivre, et s'il refuse et bien pas de débat …… ( non c'est trop radicale, je dirais trouvons des volontaires pour le faire a leurs place) . Que ce soit fait après le directe soit , mais cela doit être fait . ( sinon je suis dehors )

Sourd , malentendant , nous sommes invisible et silencieux a force d'être isolés, mais nous savons encore lire …… alors donnée nous de l'écrit .

Bien cordialement * **

( NOTE : Mon projet en cours, voila ce qu'ont peu faire avec un budget de 0 Euros : www.***.ovh )

Maxime

Bonjour, je me permet un détail svp . Je me propose d'aider au sous titrage des vidéos JLM2017. Ma solution de transcription automatique prend en compte la synchronisation de la parole sur une vidéo de type YouTube. Etant malentendant, je ne peu pas vérifier le contenu de la vidéo, mais seulement le timing a 200 millis secondes prés. C'est a dire que la parole de Mr JLM : "Bonjours a tous , bien venue a ce forum " sera exactement au bon timing, mais la reconnaissance automatique n'étant pas fiable a 100%, il convient de relire le texte : " Bonjour, aplus velour a ce forum " . Etant partie prenante ( je serais volontaire le 6 Février a LYON 8H00/20h00) le sous titrage permet de toucher 10% de la population en plus , c'est le nombre de malentendantes /sourd systématiquement oubliées par les autres candidats a la présidentielle ( c'est un signe ) . Le mode opératoire reste très simple : Vous m'envoyer le lien de la vidéo a transcrire : exemple : https://www.youtube.com/watch?v=6HG7IsmGD38 a mon adresse personnel : @gmail.com Une fois le fichier texte au format YouTube généré ( compter un jour maxi soit 24H ) Je vous renvoi un mail avec le texte avec timing. ( ne pas le poser en spam svp ;-) A vous de l'intégré a la vidéo et surtout de corriger les erreurs, mais le travaille sera déjà bien avancer 80% a 95%. Mr JLM , ayant une bonne diction, la reconnaissance vocale fonctionne bien sur son timbre de voie: 80% a 95 % de mot corrects . Pour les vidéo avec les médias , la performance risqu ede baissé , mais pas le timming qui resteras fiable quoi qu'il arrivent. En plus de l’hologramme ;- , le sous titrage dans les 48 Heures pour les sourds/malentendant, ça c'est une première mondiale. (je ne demande absolument rien en échange de ce service, ce sera ma contribution ) A très bientôt , Un insoumis de naissance, *. ( infos projet www..ovh ) NOTE , Ma solution permet aussi de faire du direct live en temps réel ( dans la secondes ) mais la c'est une autre histoire .. il faut une autre organisation plus complexe, mais j'ai la technologie pour le faire ( je peu vous en faire la démo ), manque la volontés.

Lucile

Bonjour,

Nous sous-titrons les vidéos à la main aussi vite que possible. Les vidéos qui possèdent des sous-titres propres sont indiquées par l'icône CC juste en dessous de la pastille de la vidéo :

​> Pour les revues de la semaine, nos sous-titres sortent effectivement en français dans les 48h, en anglais ça peut être un peu plus long mais pas excessivement :) Nous travaillons sur la chaîne depuis la fin du mois de novembre 2016.

Vous pouvez regarder notre mode opératoire ici : https://github.com/jlm2017/jlm-video-subtitles

Il serait peut-être possible de désactiver les sous-titres automatiques, ce n'est pas le premier retour que nous avons sur leur médiocrité. De plus, plusieurs personnes ne savent pas qu'ils sont automatiques, ce qui décrédibilise le travail des transcripteurs... car dans les commentaires des vidéos, plusieurs personnes nous disent qu'ils ne comprennent pas pourquoi nous écrivons n'importe quoi (alors que ce n'est pas nous qui rédigeons les sous-titres automatiques).

Merci pour le transfert de mail !

Maxime

Bonjour,

Merci pour vos informations, mais vous n'avez pas lue mon propos ....

Je travail sur la reconnaissances vocale automatique depuis plus d'un ans, et je connais parfaitement la problématique des CC Youtube. (avec ou sans correction humaine )

Mon propos est : J'ai une solution efficace pour sous titrer en mode semi automatique pour JLM2017 chaque vidéo possible.

Le principe est qu'une fois cette vidéo passé dans ma moulinette automatique et bien 85 % du travail est fais , et la synchronisation est parfaite. ( a 200 milis secondes près )

Le correcteur des CC , doit corriger en effet les erreurs mais seulement sur les 15 % restant .

Bref, je peu concrètement vous aider a distance ( Lyon ) , avez vous besoin de moi ? www.handi-speech.ovh

Amicalement un insoumis de naissance. * ** ( Malentendant )

NOTE , Le sous titrage de la réunion sur LYON ( j’étais a la vente ) est parfait merci

Lucile

Bonjour,

Vous pouvez nous rejoindre si vous le souhaitez ! Plusieurs personnes dans notre équipe travaillent avec la reconnaissance vocale. Voulez-vous que je vous explique comment nous travaillons pour que vous ayez une piste de réflexion sur comment vous investir avec nous ? Je ne sais pas si ce que vous proposez correspond très exactement à notre mode de fonctionnement, peut-être qu'avec plus de détails vous pourriez nous donner des idées pour travailler plus efficacement ?

Nous ne gérons pas les sous-titres lors des réunions, c'est une initiative qui vient de plus haut : les personnes qui se chargent de ces sous-titres sont des professionnels. Ce qu'ils font s'appelle la vélotypie, c'est également utilisé au Parlement pour prendre en note directement les débats.

Maxime

Bonjour,

Ok , ont est en phase, j'ai parcouru le GITHUB, il nous faut en effet un petit temps de compréhension réciproque.

Si vous le permettez, je vous prépare un petit document qui explique en détail ma démarche technique et les outils utilisés, bref le mode opératoire pas à pas.

Après lecture de ce document ont pourrais simplement faire un essai sur une petite vidéo jlm2017 de 30 minutes prise au hasard )

Etant malentendant, je ne peu pas faire de la correction de CC, donc impossible pour moi de faire autre chose que du FULL automatique.

Je reviens vers vous avec le document et ont avisera après.

A très bientôt. * **

Lucile

Bonjour,

Pas de soucis, j'attends votre document avec impatience, merci à vous pour votre patience et votre implication !

Maxime

Bonjour voila , a lire sans stresser . ;-)

mini_doc_v01.docx A très bientôt * **

Maxime

Bonjour, pas de nouvelle de votre part ?

Voila un test en live sur France24 https://bubbly-dominion-850.appspot.com/speech/france24demo.html

A très bientôt. * **

Goutte commented 7 years ago

C'est étrange ; les autres malentendants que je connais ont en général une orthographe irréprochable (et pour cause !).

Je résume la démarche pour ceux qui comme moi ont mal aux mirettes :

  1. Générer un fichier de sous-titres via un algorithme tiers-parti
  2. Le corriger "à la main"
  3. L'uploader, et le faire synchroniser par un algorithme de youtube

J'ai tout compris ?

quidam34 commented 7 years ago

Bonjour, j'aimerais entré en relation avec ce garçon @LucileDT

LucileDT commented 7 years ago

Je lui ai demandé de passer ici.

maximerinna commented 7 years ago

Bonjour,

Mes excuses pour le retard ( mais je me suis un peu perdu dans le github) et mon orthographe qui reste un problème pour moi .( chacun ça croix ;-)

Le sous titrage reste indispensable pour plus de 10 % de la population (et cela ne vas pas diminuer ) avec les techniques de compression MP3 sans amplitude, l'oreille soufre sur des fréquences très restreinte.

Pour le sous titrage de vidéo YouTube et en particulier les vidéo Jlm2017.

Il existe trois approches.

A) En mode patch : A peu près comme la explique : Goutte . 1) Générer un fichier de sous-titres via un algorithme tiers-parti avec une synchronisation parfaite. 2) L'uploader au format svb directement dans le gestionnaire video youtube 3) Corriger a la main les 5% d'erreur sans modifier la synchronisation qui est correct.

Ce principe permet de gagner du temps et de rendre la transcription plus facile puis ce que plus de 95 % des mots sont ok ( c'est très relatif , si l'audio est ok ou pas )

En direct live avec ou sans correction : B) Avec correction : C'est un exercice difficile mais pas impossible, la correction doit s'effectuer en même temps que la transcription automatique a 3 mots près , le décalage maximum ne doit pas excéder 6 mots. ( actuellement mes outils fonctionne sur la dernière ligne , j'ai donc une bonne marge de progression a finalisé pour y parvenir )

C) Sans correction . (la c'est facile ... ) Avantage ; on a rien a faire, Inconvénient : l'exactitude du texte laisse a désiré, mais reste intelligible. Et de ce fait, si vous coupez l 'audio de votre PC , vous vous retrouvez dans mon monde, c'est a dire dans la situation d'une personne malentendante, les erreur de transcription représente exactement la non compréhension de l'audio qui arrive a mon cerveau mal foutu.

Voila un exemple de live sans correction : www.menu-scribovox.ovh ( clic droit sur chargement du script https) et mon site ( avec mon mail de contact sous : http://scribovox.strikingly.com/

A très bientôt ,

quidam34 commented 7 years ago

Bonjour, en fait si j'ai bien compris vous nous proposez un service à 100 euros par mois ? Vous savez nous sommes nous même bénévole ! Quand au service gratuit il est inutile dans notre cas. Ou bien je me trompe.

maximerinna commented 7 years ago

Bonjour,

Q1"je me trompe."

R1 : Oui, Je propose de générer les sous-titre a la demande sur des vidéos youtube, rien de plus. C'est dans mes premiers messages, je ne vend rien.

Le reste du projet, scribovox.ovh avance, et concerne plus les ERPs qui ne respecte pas la loi 2005 sur l’accessibilité des lieux public. . J'ai donc crée l 'interface gratuite scribo-public pour pallier ce point par un accueil en mode face a face ( et une payante, erp-scribovox pour poursuivre le projet ) , mais cela est un autre sujet. (rien a voir avec les sous titre de vidéo youtube.

Pour les sous titre, je n'est pas d'interface a proposer, ce qui nous ramène a ma proposition de départ. Soit 16 jours en arrière. A ce rythme les élections serons terminées avant que j'appuis sur un bouton...

PS : Pour qu il y est un service payant, il conviens d'abord de faire un bon de commande et une facture en bonne et dus forme , rien de ce type dans mes mails .....

Bon , je vais prendre une vidéo au hasard de moins de 20 minutes de JLM , a qui j'envoi le fichier SVB ? Après, advienne que pourras. soit vous y voyer un avantage , soit la messe est dite.

Amicalement Maxime

Goutte commented 7 years ago

@maximerinna Tu peux téléverser le SBV directement sur youtube ; prends soin de faire une vidéo qui n'ait pas déjà de sous-titres ! ;)

quidam34 commented 7 years ago

@maximerinna Bonjour, tu peux aussi me confier ton fichier via le forum que j'ai créer . C'est un lieux de rencontre comme ici mais de type forum. Je l'ai créer car comme toi je trouvais compliqué ici et surtout tout en Français. je te laisse l'adresse , inscrit toi . Par contre si c'est pas déjà fait , je te propose cette vidéo : https://youtu.be/Yau84m-XpJg Inscrit toi sur le forum ta manière de travailler est bien plus proche de la méthode de travail qu'on utilise sur le forum. J'ai utilisé ta méthode dernièrement ; parfois YouTube la propose quand la vidéo n'est pas trop longue et bien audible. Mais cela restait décevant par moment ! Ta technologie et peut-être bien plus efficace ? Inscrit dans la journée sur le forum je validerais ton inscription manuellement. http://www.sous-titreur.forum-insoumis.fr/ Bonne journée a toi

maximerinna commented 7 years ago

Bonjour,

Parfait , je vais actionner sur : https://youtu.be/Yau84m-XpJg

Pour la performance de transcription en effet , il a de quoi faire.

Après quelques années expérience, j'arrive a ceci : www.info-scribovox.ovh ( sans le budget de 100 euros ;-) toute la difficulté est de récupéré une audio parfaite ( ubuntu en Temp réel , audiopulse optimisé 192000hz etc... ) il me manque une VM puissante pour diminuer la latences. au niveau envoi du texte de 3s à 1s et le scintillement est très perturbant, modif encours. ( manque une licence ) ( dans les deux mois qui arrivent je devrais trouver la solution )

Je m'inscrit au forum ( je n'est pas de compte face-de-book c'est obligatoire ????

Amicalement Maxime RINNA

Le jeu. 9 mars 2017 à 05:56, Paroche notifications@github.com a écrit :

@maximerinna https://github.com/maximerinna Bonjour, tu peux aussi me confier ton fichier via le forum que j'ai créer . C'est un lieux de rencontre comme ici mais de type forum. Je l'ai créer car comme toi je trouvais compliqué ici et surtout tout en Français. je te laisse l'adresse , inscrit toi . Par contre si c'est pas déjà fait , je te propose cette vidéo : https://youtu.be/Yau84m-XpJg Inscrit toi sur le forum ta manière de travailler est bien plus proche de la méthode de travail qu'on utilise sur le forum. J'ai utilisé ta méthode dernièrement ; parfois YouTube la propose quand la vidéo n'est pas trop longue et bien audible. Mais cela restait décevant par moment ! Ta technologie et peut-être bien plus efficace ? Inscrit dans la journée sur le forum je validerais ton inscription manuellement. http://www.sous-titreur.forum-insoumis.fr/ Bonne journée a toi

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/jlm2017/jlm-video-subtitles/issues/208#issuecomment-285254778, or mute the thread https://github.com/notifications/unsubscribe-auth/AHa80EwN1lu19uuPZYa-vb7qDV6GF6stks5rj4aTgaJpZM4MHJIR .

Goutte commented 7 years ago

@maximerinna Si tu t'occupes de #235, n'hésite pas à commenter sur l'issue pour nous faire savoir où tu en es et indiquer aux autres contributeurs que tu travailles dessus.

Très intéressant, http://www.info-scribovox.ovh.

Peux-tu nous donner plus de détails sur ta technique de reconnaissance vocale ?

En vrac, questions et remarques :

  1. Tes algorithmes seront-ils libres de droits ?
  2. Pourquoi une machine virtuelle ?
  3. Peux-tu "entraîner" ton algo sur mesure pour JLM, afin de réduire encore le WER (Word Error Rate) ?
  4. Il est fort pour les noms propres, ce qui est assez surprenant !
  5. bubbly-dominion-850 :open_mouth: :rofl:
  6. Travailles-tu aussi sur la ponctuation ?
  7. On dirait vraiment que quelqu'un est en train de vélotyper france inter !

Je n'ai pas facebook non plus (par insoumission), ce qui m'a retenu de m'inscrire sur le forum susmentionné. Tu n'y es absolument pas obligé (et je ne le recommande pas, pour beaucoup de raisons), tu peux nous tenir au courant ici. Tu y trouveras le lien vers l'éditeur de sous-titres.


J'ai regardé de près les sous-titres générés par Youtube (ASR = Automatic Speech Recognition), et ils requièrent encore une bonne dose de retouches. Mais chaque fichier de sous-titres que nous publions, c'est des données de plus pour entraîner et améliorer l'outil ! Bref, je choisis de ne pas être déçu que les alouettes qui me tombent dans la bouche ne soient pas rôties, et simplement d'être exalté par cette pluie de volatiles !

quidam34 commented 7 years ago

Ok maxime j'ai validé ton inscription. Amusant , je te répond après plusieurs jours de non réponse ici , tout d'un coup, l’intérêt est suscité.

ps : on s'en fou de comment il fait ! Si cela marche c'est le principal !

Goutte commented 7 years ago

Amusant , je te répond après plusieurs jours de non réponse ici , tout d'un coup, l’intérêt est suscité.

@maximerinna a publié un lien vers son site. Un peu de biais égocentrique, @quidam34 ?

on s'en fou de comment il fait ! Si cela marche c'est le principal !

Faux. C'est votre opinion, pas la mienne, ni obligatoirement celle des autres ; utilisez "je", plutôt que "on", pour que ça soit vrai.

maximerinna commented 7 years ago

Bonjour, Une question == une réponse.

Q1 : Tes algorithmes seront-ils libres de droits ? oui et non : oui : c'est déja le cas depuis 2012 : https://www.google.com/intl/fr/chrome/demos/speech.html : et https://cloud.google.com/speech/docs/ non : Car rien ne fonctionne comme je le souhaite, donc il faux créer du code pour y arrivé. (mais je ne suis pas le plus fort) ya qua faut que je doit d'abord payer mes fraix mensuels.

Q2 : Pourquoi une machine virtuelle ? Pour la maîtrise de la carte audio, en fait le son qui entre dans l'api.( ajout de filtre etc.) Et aussi pour travailler le texte généré ( envoi dans firepad , relecture , CC automatique , majuscule ) Sans une VM, je ne sais pas faire grand chose .

Q3 : Peux-tu "entraîner" ton algo sur mesure pour JLM, afin de réduire encore le WER (Word Error Rate) ? non : C'est le boulot de goolge INC qui récupéré les écoutes pour améliore leur API ( modéle lingustique FR). oui : Dans le sens ou sur un mot précis ( par exemple " cul ") je peu le substituer par " cruel " mais ca ralentie un max.

Q4 : Il est fort pour les noms propres, ce qui est assez surprenant ! l'API google est equipée d'une préemption comme sur les SmartPhones ( c'est pas moi, c'est google )

Q5 : bubbly-dominion-850 : C'est un conteneur fermer app-engine de google pour être au plus près réseau de leurs API speech-to-text De plus c'est en https ( sans certificat a payer ) ( voir le budget de 100 euros plus haut ;-)

Q6: Travailles-tu aussi sur la ponctuation ? non : c'est un gros problème ou commence la phrase et ou elle ce termine , c'est un mistére intélectuel. Une idée que j'ai eu une nuit, c'est d'analysé l'image et qaund le contexte change ( plus de clair plus sombre ) on fait un saut de ligne. Ou bien sur les mots cle " je " " bonjour" "bon alors" ca rejoint la question précédentes.

Q7 : On dirait vraiment que quelqu'un est en train de vélotyper france inter ! oui : Sur mon site : il y a une partie du projet qui porte sur la correction en live : L'écran www.info-scribovox.ovh peut passer en mode ecriture et la si tu change l emot en ligne et bien tout le monde en profite. C'est de la correction automatique assité . les nombre de ligne 1 2 3 4 corespond a 4 correcteurs. Exempel 1 Martin Lyon 2 Louis à Paris 3 Bertrans et 4 il n'es tpas dispo c'est Benard en corse. Et bien en live chaqun écoute et corrige ca ligne ( projet : http://produit-speech.strikingly.com/ )

Q8: Un peu de biais égocentrique https://fr.wikipedia.org/wiki/Biais_%C3%A9gocentrique ? j'accepte toutes les critiques, quand je pourrai arriver dans une mairie et avoir la transcription du texte au guichet ou allez dans un forum en étant sourds, ou lire une vidéo YouTube, alors je ne m’occuperais plus de ce truc .... Voila a plus : A terme www.menu-scribobox.ovh ( accepter le script pour y voir plus clair )

A+ maxime

Le jeu. 9 mars 2017 à 09:22, Antoine Goutenoir notifications@github.com a écrit :

@maximerinna https://github.com/maximerinna Si tu t'occupes de #235 https://github.com/jlm2017/jlm-video-subtitles/issues/235, n'hésite pas à commenter sur l'issue pour nous faire savoir où tu en es et indiquer aux autres contributeurs que tu travailles dessus.

Très intéressant, http://www.info-scribovox.ovh.

Peux-tu nous donner plus de détails sur ta technique de reconnaissance vocale ?

En vrac, questions et remarques :

  1. Tes algorithmes seront-ils libres de droits ?
  2. Pourquoi une machine virtuelle ?
  3. Peux-tu "entraîner" ton algo sur mesure pour JLM, afin de réduire encore le WER (Word Error Rate) ?
  4. Il est fort pour les noms propres, ce qui est assez surprenant !
  5. bubbly-dominion-850 😮 🤣
  6. Travailles-tu aussi sur la ponctuation ?
  7. On dirait vraiment que quelqu'un est en train de vélotyper france inter !

Je n'ai pas facebook non plus (par insoumission), ce qui m'a retenu de m'inscrire sur le forum susmentionné. Tu n'y es absolument pas obligé (et je ne le recommande pas, pour beaucoup de raisons), tu peux nous tenir au courant ici https://github.com/jlm2017/jlm-video-subtitles/issues/235. Tu y trouveras le lien vers l'éditeur de sous-titres.

J'ai regardé de près les sous-titres générés par Youtube (ASR = Automatic Speech Recognition), et ils requièrent encore une bonne dose de retouches. Mais chaque fichier de sous-titres que nous publions, c'est des données de plus pour entraîner et améliorer l'outil ! Bref, je choisis de ne pas être déçu que les alouettes qui me tombent dans la bouche ne soient pas rôties, et simplement d'être exalté par cette pluie de volatiles !

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/jlm2017/jlm-video-subtitles/issues/208#issuecomment-285285493, or mute the thread https://github.com/notifications/unsubscribe-auth/AHa80PR_M2sttd6YdVG6MqYQfjTXRIKSks5rj7bKgaJpZM4MHJIR .

Goutte commented 7 years ago

Merci pour ces explications ! Je vois, si c'est le logiciel de Google, alors c'est normal que ça soit aussi balèze ! J'aimerais le comparer aux ASR générés directement par YouTube, tiens, juste pour voir !

j'accepte toutes les critiques

Elle ne t'était pas adressée, mais le fait que tu la prennes pour toi... C'est un biais égocentrique ! :dancer:

boozaa commented 7 years ago

Bonjour,

je me permet de me glisser dans la conversation qui a attiré ma curiosité. Le passage à la moulinette fournis donc le texte avec le timing, serait-il possible de construire la "sortie" au format .srt de type par ligne:

1

00:00:51,343 --> 00:00:52,969 La nuit va tomber. 2 00:00:53,762 --> 00:00:55,263 C'est plus très loin.

Si celle est faisable d'avoir ce formatage des lignes avec timings dans un fichier .srt je peux revenir vers vous avec un outil que j'ai personnellement développé permettant le travail collaboratif (en même temps) sur traduction et correction de ce genre de fichier.

Merci pour votre réponse,

Amitiés insoumises,

Le 9 mars 2017 à 11:14, Antoine Goutenoir notifications@github.com a écrit :

Merci pour ces explications ! Je vois, si c'est le logiciel de Google, alors c'est normal que ça soit aussi balèze ! J'aimerais le comparer aux ASR générés directement par YouTube, tiens, juste pour voir !

j'accepte toutes les critiques

Elle ne t'était pas adressée, mais le fait que tu la prennes pour toi... C'est un biais égocentrique ! 💃

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/jlm2017/jlm-video-subtitles/issues/208#issuecomment-285311036, or mute the thread https://github.com/notifications/unsubscribe-auth/AAm-FoydaRwvOBEq_15ypV-4a1JrFpbTks5rj9DygaJpZM4MHJIR .

maximerinna commented 7 years ago

Question 1 : str VS svb 1 00:00:51,343 --> 00:00:52,969 La nuit va tomber. 2 00:00:53,762 --> 00:00:55,263 C'est plus très loin.

R: il existe deux formats , pour l'instant je sort en svb ( c'est presque pareil sans les numéros de ligne )

svb : 00:00:51,343 --> 00:00:52,969 La nuit va tomber.

00:00:53,762 --> 00:00:55,263 C'est plus très loin.

str 1 00:00:51,343 --> 00:00:52,969 La nuit va tomber. 2 00:00:53,762 --> 00:00:55,263 C'est plus très loin.

Mais oui bien sur je peu sortir avec le format qui conviens , l’avantage du svb c'est le format proposé par défaut sur le gestionnaire youtube . donc ...

Question 2 : travail collaboratif

Pour le live : l’écran de visualisation est aussi l'écran de correction donc oui c'est fait pour.

Pour le batch : correction sur vidéo, idem il suffit de la posé en boucle et de récupéré les corrections collaboratives.

Amicalement Maxime .

Goutte commented 7 years ago

@boozaa Je pense que je parle pour la plupart d'entre nous si je dis que nous sommes intéressés et que nous aimerions beaucoup en savoir plus !

boozaa commented 7 years ago

Merci pour ta réponse, youtube accepte aussi .srt en import de sous-titres. Les numéros de ligne me permettent d'en connaitre l'ordre de passage pour avoir une cohérence si avoir à traiter les timings que je laisse tel quels dans les cas comme:

Dans mon cas cela nécessite donc des débuts et fins de phrase et donc de la ponctuation surtout les "." finaux. Serait il possible d'avoir un fichier de sortie pour que je regarde de mon coté ?

Le 9 mars 2017 à 13:36, RINNA notifications@github.com a écrit :

Question 1 : str VS svb 1 00:00:51,343 --> 00:00:52,969 La nuit va tomber. 2 00:00:53,762 --> 00:00:55,263 C'est plus très loin.

R: il existe deux formats , pour l'instant je sort en svb ( c'est presque pareil sans les numéros de ligne )

svb : 00:00:51,343 --> 00:00:52,969 La nuit va tomber.

00:00:53,762 --> 00:00:55,263 C'est plus très loin.

str 1 00:00:51,343 --> 00:00:52,969 La nuit va tomber. 2 00:00:53,762 --> 00:00:55,263 C'est plus très loin.

Mais oui bien sur je peu sortir avec le format qui conviens , l’avantage du svb c'est le format proposé par défaut sur le gestionnaire youtube . donc ...

Question 2 : travail collaboratif

Pour le live : l’écran de visualisation est aussi l'écran de correction donc oui c'est fait pour.

Pour le batch : correction sur vidéo, idem il suffit de la posé en boucle et de récupéré les corrections collaboratives.

Amicalement Maxime .

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/jlm2017/jlm-video-subtitles/issues/208#issuecomment-285340089, or mute the thread https://github.com/notifications/unsubscribe-auth/AAm-FtYrnpJHgA9vlhEiyzt8zAppvtUZks5rj_JlgaJpZM4MHJIR .

quidam34 commented 7 years ago

"Faux. C'est votre opinion, pas la mienne, ni obligatoirement celle des autres ; utilisez "je", plutôt que "on", pour que ça soit vrai."

ce que je vois c'est que cela traine depuis des semaines cette histoire là

Goutte commented 7 years ago

@boozaa ça à l'air intéressant ; y aurait-il une petite démo à nous montrer ? :grin:

maximerinna commented 7 years ago

Bonsoir ,

Je part pour un week -end voila le fichier brut sans aucune modification . ( a la semaine prochaine )

il est possible qu il y est des coupure ou écart , et j'ai raté le démarrage un petit décalage ,

Mais c'est j'uste pour un premier essai . la CPU a été touché plusierus fois [image: pasted1]

sinon la taille des lignes est a la demande et le timer de silence ausi ( si 600 milli seconde de silence == un saut de ligne ) La j'ai laissé 2 secondes

En PJ le fichier a intégré au format svb . ( je l'est intégré a blanc pour être sur du format )

[image: pasted2]

Le jeu. 9 mars 2017 à 05:56, Paroche notifications@github.com a écrit :

@maximerinna https://github.com/maximerinna Bonjour, tu peux aussi me confier ton fichier via le forum que j'ai créer . C'est un lieux de rencontre comme ici mais de type forum. Je l'ai créer car comme toi je trouvais compliqué ici et surtout tout en Français. je te laisse l'adresse , inscrit toi . Par contre si c'est pas déjà fait , je te propose cette vidéo : https://youtu.be/Yau84m-XpJg Inscrit toi sur le forum ta manière de travailler est bien plus proche de la méthode de travail qu'on utilise sur le forum. J'ai utilisé ta méthode dernièrement ; parfois YouTube la propose quand la vidéo n'est pas trop longue et bien audible. Mais cela restait décevant par moment ! Ta technologie et peut-être bien plus efficace ? Inscrit dans la journée sur le forum je validerais ton inscription manuellement. http://www.sous-titreur.forum-insoumis.fr/ Bonne journée a toi

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/jlm2017/jlm-video-subtitles/issues/208#issuecomment-285254778, or mute the thread https://github.com/notifications/unsubscribe-auth/AHa80EwN1lu19uuPZYa-vb7qDV6GF6stks5rj4aTgaJpZM4MHJIR .

boozaa commented 7 years ago

Antoine, je viens de voir ta réponse. Alors je vais essayer d'expliquer ce dont je parle (l'outil), ce qui est ou n'est pas fonctionnel et surtout les pré requis.

J'ai développé un bot IRC en Java il y a quelques temps que j'ai un peu mis de coté pour justement permettre de la traduction avec étapes de correction de sous-titres de manière collaborative. Initialement j'avais commencé ce projet pour faciliter la traduction collaborative de sous-titres originaux de séries télévisées étrangères.

Le Fonctionnement

Ce bot IRC se connecte donc à un canal (chan) IRC, il est pilotable via messages privées.

Connexion au serveur

Il sait gérer les permissions par utilisateur et avec une sorte de gestion de groupes. Un groupe (exemple: traducteur) contient des permissions particulières nécessaires pour interagir avec le bot. Une liste de commandes disponibles selon les permissions est obtenue en envoyant en message privé avec le bot: .help

Commandes

Donc selon les permissions qu'un utilisateur a il a le droit aux commandes associées.

Commande help

Le responsable avec la permission peut démarrer un nouveau projet:

Commande help

Les utilisateurs peuvent ensuite démarrer leur boulot conjointement en lançant la commande de démarrage: .trad ou .corr suivit de l'identifiant du projet souhaité:

Commande trad ​ Quand un utilisateur a lancé une tâche de traduction ou de correction avec la commande qui va bien alors un dialogue en message privé s'installe entre le bot et lui même. Le bot lui envoiit un block composé de plusieurs lignes et le tout formant une seule phrase. Donc si une phrase est décomposée en plusieurs lignes l'utilisateur les recoit toutes.

En réponse l'utilisateur doit entrer le numéro de ligne du block concernée suivi de sa proposition de traduction ou de corrections. Il sait donc sur combien de lignes timées la phrase qu'il est en train de traduire/corriger tiendra. Quand il a terminé un block le bot lui envoit un nouveau etc etc.

Chaque utilisateur travaille sur des blocks différents donc et peuvent donc travailler en même temps sans se géner les uns les autres.

L'avancée du travail par tâche (traduction et correction) permet de savoir quand elle est terminée. Les deux sont complémentaires et donc le travail d'un projet est terminé quand la tâche de traduction ET de correction sont finis. A la fin d'un projet le bot doit générer un fichier exploitable pour youtube et il ne reste qu'à donner ce fichier en sous-titre de la vidéo concernée.

Critiques

Avancées du projet

L'ayant un peu de coté par manque de personnes volontaires pour tester à différents moments de son avancée je devrais m'y replonger et cela nécessitera un peu de temps pour fournir l'outil. Si ce projet retiens votre attention un besoin de testeurs se fera sentir.

Voila, j'ai essayé succinctement de présenter l'outil dans un langage neutre en espérant ne pas être trop flou. J'attends vos retours.

Edit: @maximerinna je ne trouve pas trace de pièce jointe vers le fichier de sortie.

Goutte commented 7 years ago

@maximerinna Bon week-end ! L'envoi des fichiers via PJ ne fonctionne pas avec les notifications ; viens le faire sur la page web !

@boozaa Merci pour ces explications détaillées ! Tu m'as donné⋅e à réfléchir, je vois comment tu as fait. C'est malin ! (ha! j'ai vu apparaître ton dernier post bien formaté en écrivant ce message !)

boozaa commented 7 years ago

Je ne sais pas si cela te parlera. Quand le bot analyse le fichier .srt lors de la création d'un projet il découpe donc en block qui peut contenir plusieurs lignes avec leurs propres timings donc. Voici par exemple le block 77 d'un projet test:

timings:
  start:
    long: -3342242
    string: 00:04:17,758
  end:
    long: -3333775
    string: 00:04:26,225
lines:
  '84':
    id: 84
    sentence: Suivons la tradition jusqu'au bout en rapportant ces chaussures
    timings:
      start_long: -3342242
      start_string: 00:04:17,758
      end_long: -3338154
      end_string: 00:04:21,846
  '85':
    id: 85
    sentence: dans la chambre de papy
    timings:
      start_long: -3337779
      start_string: 00:04:22,221
      end_long: -3336069
      end_string: 00:04:23,931
  '86':
    id: 86
    sentence: et en oubliant ce qu'on a vu.
    timings:
      start_long: -3335693
      start_string: 00:04:24,307
      end_long: -3333775
      end_string: 00:04:26,225

Le bot utilise la ponctuation pour savoir quand une phrase est terminée et pour pouvoir donc former un block. Cela nécessite donc d'avoir de la ponctuation, pour le moment d'avoir le numéro de ligne que fournit le format .srt.

Goutte commented 7 years ago

@maximerinna Je vois que tu as fait des tests avec vQ6VRi0smIo ! (Est-ce bien toi ?)

Est-ce que tu as comparé ce que tu obtiens avec les sous-titres générés par ASR de Youtube (qui sont maintenant introuvables) ?

maximerinna commented 7 years ago

Bonjour,

Q1:Comparaison: non plus le temps de réfléchir on fonce , plus que quelques jours avant le vote, donc .... Mais l'ASR ne fonctionne pas car l'audio est médiocre.

https://youtu.be/vQ6VRi0smIo#t=0m3s je pose un décalage de 3s en fin de vidéo pour récupérer le temps de transcription du coût ont est pile poil e sur l'audio ( enfin presque ) je ne sais pas si 3s ou 4s sont plus pratique a l'usage?

Q2:Est-ce bien toi ? Oui voici la liste brut de tout ce que j'ai toucher : j'ajoute le texte suivant sur la première ligne a supprimer bien sur , comme cela, le correcteur est bien informé, de l'automatisme qui est a vérifier. ( dite moi si ca vas ou je change un truc ?

"Moulinette CC de www.scribovox.ovh : Merci de corriger ce texte par une simple relecture pour les 10% de la population de sourd et malentendant ( un insoumis anonyme de naissance ;-) vérifier bien les mots injurieux ou inappropriée , mais la synchro est correct , sans cette transcription je reste exclus :=>"

Le principe c'est que chaque semaines ( ou qund je peu ) j'essai de lire une vidéo jlm, si je constate qu 'il ny a pas de sous titre et que j'ai les droits en écriture sur la vidéo alors seulement je fait passé ma moulinette. et je poste directement les sous titres.

https://youtu.be/fFyqL7DrESw https://youtu.be/oBk63rLd7kE https://youtu.be/T7b67QCjibc https://youtu.be/KFi2kVCEbww https://youtu.be/3w1yr6Eie3g https://youtu.be/vqnzMG7mie4 https://youtu.be/0RjL1w62IGI https://youtu.be/TV4KhI16KaA https://youtu.be/hvTWfGVnfxo https://youtu.be/GSxTrpViZno https://youtu.be/L0zosTKacRs https://youtu.be/pFlHwR-OYLk https://youtu.be/LMg4wHtzu0Y https://youtu.be/sektMcC_PAk https://youtu.be/p5EohchmQl8 https://youtu.be/VBP1OKu7xz8 https://youtu.be/FlFxvge2AKw https://youtu.be/khBQRZXMLTQ https://youtu.be/LcTES8fuM1o https://youtu.be/P9RRsNgCxF4
https://youtu.be/Vd36B_0TRDw https://youtu.be/9Yri3_Z6LFs https://youtu.be/vQ6VRi0smIo https://youtu.be/mTPwKdEBNsM

L'idéale serais que l'on me guide : par un simple mail de type fait cette video avec le lien et hop après X heures de moulinette c'est fait ... bref , le temps avance ...

Amicalement Maxime

Goutte commented 7 years ago

@maximerinna Merci pour ces clarifications !

Voilà ce que je mettrais, en intitulé automatique :

"Moulinette CC de www.scribovox.ovh : merci de corriger ce texte généré automatiquement par et pour les 10% de sourd⋅e⋅s et malentendant⋅e⋅s."


C'est la dernière ligne droite pour la campagne présidentielle de 2017, mais le mouvement Insoumis, lui, ne s'arrêtera que quand il n'aura plus raison d'être !

Je vais réfléchir à ta moulinette ; l'idéal pour l'instant est que tu t'occupes des anciennes vidéos pour ne pas écraser le travail collaboratif sur les RDLS récentes. En outre, j'aimerais comparer ce que tu obtiens avec l'ASR de Youtube (sur une vidéo dont la qualité du son le permet), qui devient plus intelligent à chaque fois que nous soumettons des sous-titres "faits main".

MenvussaG commented 7 years ago

sur la #285 j'écrase tout,je trouverai ça à la limite intéressant pour le découpage, mais même la dessus ce n'est pas au point  Jocelyn

  De : Antoine Goutenoir <notifications@github.com>

À : jlm2017/jlm-video-subtitles jlm-video-subtitles@noreply.github.com Cc : Subscribed subscribed@noreply.github.com Envoyé le : Samedi 1 avril 2017 10h57 Objet : Re: [jlm2017/jlm-video-subtitles] Proposition reçue par mail (#208)

@maximerinna Merci pour ces clarifications !Voilà ce que je mettrais, en intitulé automatique : "Moulinette CC de www.scribovox.ovh : merci de corriger ce texte généré automatiquement par et pour les 10% de sourd⋅e⋅s et malentendant⋅e⋅s."

maximerinna commented 7 years ago

Merci pour ce cadrage : Simplification du texte d'entête ok ( a supprimer bien sur .. ) après relecture.

"Moulinette CC de www.scribovox.ovh : merci de corriger ce texte généré automatiquement par et pour les 10% de sourdes et malentendantes."

80% de mot faux : j 'y travail, désolé...( en effet rien est simple ..)

Par contre la synchronisation devrais être ok ? j'ai posé 3 secondes , je vais voir avec 4 secondes ?

Q: Es ce que, je peu avoir une liste exhaustives des anciennes vidéos , a traitées svp?

Bien cordialement , Maxime

Bentham commented 7 years ago

@maximerinna Bonjour Maxime, Le travail va reprendre ici. Merci d'avoir voulu participer, malheureusement le résultat de ton scribovox est tout à fait contreproductif : par exemple, sur la dernière RDLS, il va falloir tout refaire, et supprimer chaque container à la main va prendre un temps infini. A partir de maintenant, peux-tu t'abstenir de rentrer de nouveaux sous-titres ? Je sais que tu veux bien faire, mais en l'état tes sous-titres ne sont malheureusement pas exploitables et il nous prendrait plus de temps de les améliorer que de recommencer de zéro.

maximerinna commented 7 years ago

Bonsoir, OK , je comprend bien, si d'aventure j'arrive a corriger mon code pour que les conteneurs soit bien synchronisés, je reviendrais vers vous. En effet, le but n'est surtout pas d'augmenter votre charge. mais bien de faire au mieux, Je reviens vers vous avec un outils qui marche ou pas .... pour moi travailler l'audio c'est une double peine ;-). Merci pour votre boulot de transcription , a très bientôt .

Bentham commented 7 years ago

Merci pour ta compréhension @maximerinna. Je t'invite à essayer de peaufiner ta technologie, qui est prometteuse mais malheureusement inutilisable en l'état. A bientôt !