ValentinDeCraene / Projet_Criminalithe

1 stars 0 forks source link

Possibilité d'enrichissement du projet : inclure de la NER. #1

Open ValentinDeCraene opened 2 years ago

ValentinDeCraene commented 2 years ago

Possibilité d'inclure de la NER avec le package Spacy (voir les vidéos suivantes : https://www.youtube.com/playlist?list=PL2VXyKi-KpYvuOdPwXR-FZfmZ0hjoNSUo). L'idée serait d'ajouter un script de reconnaissance d'entitées nommées activable par un button (en html) ou directement dans le formulaire et de les lier à un ensemble de (courtes) notices de définitions (surtout pour les termes en vieux flamand). Difficulté : 8/10.

mardub1635 commented 1 year ago

Est-ce qu'il faudrait entrainer un model ? Comme évoqué dans cette vidéo ? https://www.youtube.com/watch?v=1l3v2Zcgb3s&list=PL2VXyKi-KpYvuOdPwXR-FZfmZ0hjoNSUo&index=22 voici les entités retrouvées par Spacy si on applique le model par défaut (fr_core_news_sm): ent_transcriptions.txt et voici le corpus utilisé: amendes.txt

A titre indicatif voici le code avec lequel a été obtenu ces entités: $python -m spacy download fr_core_news_sm

import spacy
nlp = spacy.load('fr_core_news_sm')

#open the file amendend
f = open('amendes.txt','r')
text = f.read()
doc = nlp(text)
#find the entities
for ent in doc.ents:
    print(ent.text, ent.label_)