betagouv / rdv-service-public

Prise de RDV pour les services publics
https://rdv.anct.gouv.fr
GNU Affero General Public License v3.0
18 stars 2 forks source link

Détecter les fautes de frappe dans le domaine des emails usagers #3406

Open francois-ferrandis opened 1 year ago

francois-ferrandis commented 1 year ago

En regardant la base, on peut voir que les fautes de frappes sur les domaines sont courantes.

Il serait facile d'éviter ce genre d'erreur en tenant une liste des domaines les plus fréquents, et en alertant l'agent (et l'usager ?) lorsque la distance de Levenstein entre sa saisie et l'une de ces valeur est faible.

Autre genre de solution : https://emailable.com/api/

Cette amélioration peut se faire dans le cadre de la problématique plus grande abordée dans #2639.

Ci-dessous, la liste des 200 domaines les plus utilisés par les usagers, précédés du nombre d'usagers concernés. j'ai mis en gras quelques fautes de frappes évidentes.

  • 63771, gmail.com
  • 16236, deleted.rdv-solidarites.fr
  • 15885, hotmail.fr
  • 5886, yahoo.fr
  • 5554, orange.fr
  • 5333, hotmail.com
  • 4614, outlook.fr
  • 4080, laposte.net
  • 3524, live.fr
  • 2138, yahoo.com
  • 1959, icloud.com
  • 1609, sfr.fr
  • 1216, free.fr
  • 949, wanadoo.fr
  • 943, outlook.com
  • 339, neuf.fr
  • 318, bbox.fr
  • 293, msn.com
  • 263, gmx.fr
  • 210, aol.com
  • 164, departement77.fr
  • 145, somme.fr
  • 144, gmail.fr
  • 112, mail.ru
  • 108, ymail.com
  • 104, le64.fr
  • 100, protonmail.com
  • 98, pasdecalais.fr
  • 90, hauts-de-seine.fr
  • 83, me.com
  • 82, live.com
  • 70, numericable.fr
  • 55, conseiller-numerique.fr
  • 53, gmx.com
  • 50, aol.fr
  • 48, var.fr
  • 48, gamil.com
  • 46, club-internet.fr
  • 45, laposte.fr
  • 37, assfam.meuse.fr
  • 37, netcourrier.com
  • 35, aliceadsl.fr
  • 33, hotmail.it
  • 30, hotmail.es
  • 29, gmai.com
  • 28, cegetel.net
  • 26, aveyron.fr
  • 25, dbmail.com
  • 25, cotesdarmor.fr
  • 24, mail.com
  • 23, email.com
  • 23, ladrome.fr
  • 22, lilo.org
  • 22, yahoo.co.uk
  • 21, yahou.fr
  • 21, outloock.fr
  • 20, hotmail.co.uk
  • 20, calvados.fr
  • 20, gamail.com
  • 19, yahoo.es
  • 19, gmail.co
  • 18, ville-baillif.fr
  • 17, mailo.com
  • 17, ccas-tampon.fr
  • 15, meuse.fr
  • 15, yahoo.it
  • 15, apsa62.fr
  • 15, gmal.com
  • 14, ardoiz.fr
  • 14, rocketmail.com
  • 14, glail.com
  • 14, hormail.fr
  • 14, bk.ru
  • 14, homail.fr
  • 14, gmail.con
  • 14, ac-lille.fr
  • 13, croix-rouge.fr
  • 13, mail.fr
  • 13, yahou.com
  • 13, hotlook.fr
  • 13, caramail.fr
  • 12, icloud.fr
  • 12, gmil.com
  • 12, orange.com
  • 11, ecloud.com
  • 11, tutanota.com
  • 11, proxima-mail.fr
  • 11, gmail.comm
  • 11, qq.com
  • 11, nordnet.fr
  • 11, riseup.net
  • 10, groupe-sos.org
  • 10, gail.com
  • 10, life.fr
  • 10, mac.com
  • 10, hotamail.fr
  • 10, googlemail.com
  • 10, yahoo.com.br
  • 10, noos.fr
  • 9, mailoo.org
  • 9, hotlook.com
  • 9, yahoo.ca
  • 9, hotmail.fe
  • 9, houtlook.fr
  • 9, vieactive.asso.fr
  • 9, proton.me
  • 9, libero.it
  • 8, live.be
  • 8, ntymail.com
  • 8, inbox.ru
  • 8, hotmai.fr
  • 8, bry94.fr
  • 8, iclood.com
  • 8, gmx.de
  • 8, hotamil.fr
  • 8, gemail.com
  • 8, gmail.col
  • 7, gmail.om
  • 7, my.com
  • 7, udafdrome.fr
  • 7, yopmail.com
  • 7, live.com.pt
  • 7, outlook.be
  • 7, live.it
  • 7, talence.fr
  • 7, asfam.calvados.fr
  • 6, ootlook.fr
  • 6, club.fr
  • 6, udaf80.org
  • 6, udaf57.fr
  • 6, neste-barousse.fr
  • 6, ancre08.fr
  • 6, netc.fr
  • 6, ac-creteil.fr
  • 6, ukr.net
  • 6, departement86.fr
  • 6, ats.asso.fr
  • 6, outlook.pt
  • 6, yandex.ru
  • 6, hmail.com
  • 6, apprentis-auteuil.org
  • 6, ac-amiens.fr
  • 6, no-log.org
  • 6, hotmail.be
  • 6, cd31.fr
  • 6, resideis.fr
  • 6, list.ru
  • 6, epdef.fr
  • 5, yaoo.fr
  • 5, paris.fr
  • 5, outlock.fr
  • 5, cc2so.fr
  • 5, outloo.fr
  • 5, ecomail.fr
  • 5, caramail.com
  • 5, wahoo.fr
  • 5, gmaim.com
  • 5, ozone.net
  • 5, outook.fr
  • 5, wp.pl
  • 5, coallia.org
  • 5, adoma.cdc-habitat.fr
  • 5, justice.fr
  • 5, cloud.com
  • 5, zaclys.net
  • 5, esperem.org
  • 5, test.fr
  • 5, yahoo.f
  • 5, etik.com
  • 5, assopleinsoleil.org
  • 5, interia.pl
  • 5, saint-etienne.fr
  • 5, orange.f
  • 5, residence-les-capucines.fr
  • 5, bibox.fr
  • 5, protonmail.ch
  • 5, posteo.net
  • 5, ville-gap.fr
  • 5, skema.edu
  • 5, ac-bordeaux.fr
  • 5, hotmail.f
  • 4, sosve.org
  • 4, pm.me
  • 4, tutelle.net
  • 4, seisaam.fr
  • 4, ac-grenoble.fr
  • 4, creer.fr
  • 4, atmp26.fr
  • 4, houtlook.com
  • 4, ccandainepassais.fr
  • 4, laposte.com
  • 4, wahoo.com
  • 4, accompagnement-resadotel.com
  • 4, gmail.com.com
  • 4, livre.fr
  • 4, outlook.es
  • 4, hootmail.fr
  • 4, o2.pl
  • 4, dgfip.finances.gouv.fr
mekaidmekaid commented 1 year ago

@mekaidmekaid à inclure dans une milestone dédiée aux champs d'erreurs

williamdes commented 1 year ago

A savoir que la validation par MX des emails de cette liste font que seulement ceux ci seront vus comme invalides:

hormail.fr est bien répandu (mais possède des MX !), y compris sur Google dans les résultats de sites webs

Je suis tombé ici par pur hasard car je cherche une liste des domaines invalides

Ce projet semble contenir une petite liste de domaines du genre: https://github.com/briefmnews/briefme-validator/blob/0.2.0/validator/constants.py#L42 (https://github.com/briefmnews/briefme-validator/issues/21)

D'autre typos: https://github.com/ericabouaf/webhookit/blob/13abf6f072e23d536432235da78fd3e4e5d742b6/public/javascripts/inputex/js/fields/EmailField.js#L38-L71