Open AurelienmartW opened 3 months ago
Champs utiles aux experts: Marque, modele, calibre, longueur canon, typologie
Champs à extraire via OCR: Marque, modele, calibre,
Attention les marques et modèles ne sont pas toujours ecrits de la même manière (ex & ou et ou and) De la même manière les calibres peuvent avoir différentes unitées
Experimentation in progress using the RGA as database and the RapidFuzz for fuzzy matching score to determine the brand and model of the weapon
Different matching ratio are available, a score threshold is necessary to determine if the matching is enough https://github.com/rapidfuzz/RapidFuzz
Piste:
Pour le calibre: Dossier classification legale arme, liste calibre
[Update] Dans le RGA il y 627 calibres différents, existence de "familles" de calibre ? correspondance avec ce qui est écrit sur les armes ?
Concernant le requetage automatique du RGA afin d'avoir toujours la dernière version:
Prévoir de poser la question aux experts de la méthode de mise à jour du RGA pour déterminer si une methode plus simple/robuste est possible
[Update] Experimentation de requeter le RGA lors du run de la fonction d'extraction, On regarde d'abord de quand date la dernière version, si elle date de plus d'1 semaine on recupère la nouvelle sinon on garde l'ancienne. Lors de la mise à jour du RGA, la requete prend ~1.2s (valeur indicative dépendante du réseau et de la machine)
Point avec les experts en arme Concernant la reconnaissance de marque et modèle:
Concernant la reconnaissance de calibre,
Concernant le RGA:
Possibles confusions entre marques et modèles, etude avec la metrique token_set-ratio de rapid fuzz pour la similitude croisée de tous les marques et modèles ( +14000 noms au total) Voir si dessous la plot box associée des valeurs de similitudes entre les noms (100 similitude max)
On peut voir que la mediane et le 3eme quartile sont assez faible (<20 et ~50) ce qui est rassurant pour le cas d'usage car cela signifie que la plupart des marques et modèles sont différents Cependant il existe de nombreux outliers proche de 100.
Etude complémentaire pour définir un seuil Afin de définir un seuil de similitude on veut etudier les précédents outliers afin d'éliminer le maximum de confusion entre les marques/modèles Pour cela on va étudier la fonction de répartition des similitudes afin de déterminer un seuil correct pour éliminer le plus possible de confusion entre les modèles
On remarque que la répartition est quasi nulle à partir d'une similitude de 50. Cependant il reste des confusions possibles. Prenons l'exemple d'un seuil de 80. A ce niveau il y a seuleument confusion de 0.06% de l'ensemble des marques modèles, cela peut sembler très peu. Cependant au vu du nombre de marque et modèles cela correspond à plus de 62000 couples de marque modèles qui sont confondus.
De plus même avec un seuil maximal de 100 des confusions persistent, cela vient du fait que certains noms de marques peuvent être inclu dans d'autres. En conclusion, des confusions seront toujours possibles mais avec un seuil de 80 on élimine la plupart de ces cas, les autres seront gérés par des vérifications en post traitement (accord marque modèle, accord typologie RGA...)
Il y a plus de 600 calibres différents dans le RGA, de plus certains peuvent avoir plusieurs dénominations. Cependant ces calibres ne sont pas tous autant fréquents sur des modèles d'armes. Une étude à été réalisée sur ces calibres pour les trier par occurence de fiche RGA. C'est à dire à combien d'armes différentes ils sont liés. Les résultats montrent qu'il y a des calibres beaucoup plus utilisées. Par exemple si on se limite au top 10 des calibres on traite 50% des fiches RGA, si on prend le top 100 on traite 92% Voici le tableau détaillé <html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:x="urn:schemas-microsoft-com:office:excel" xmlns="http://www.w3.org/TR/REC-html40">
Top X calibres | Armes associées | % RGA couvert -- | -- | -- 10 | 29128 | 50% 20 | 37831 | 64% 30 | 42979 | 73% 50 | 48320 | 82% 100 | 53915 | 92% 200 | 56863 | 97% 300 | 57853 | 99%
En tant que FSI je souhaite que lors d'une recherche dans le RGA depuis Basegun, certains champs puissent être remplis automatiquement.