Sur la base de la discussion de #4, création de la fonction suivante:
# dans pdf_parser.py
def parse_dpef(input_file: pathlib.Path, dict_annotations: dict):
# cree le pandas DF contenant une ligne par phrase + metadonnées
return pandas.DataFrame
qui sera ensuite appelée dans le code Django (dans polls.admin ? dans webapp.manage.py ?)
def to_sentences(dataframe: pd.DataFrame, dict_annotations):
# Create models.Sentence objects from the dataframe and the dict_annotaions infos
# yield list(models.Sentences)
def import_sentences(filepath):
df = parse_dpef(...)
for sentence in to_sentences(...)
sentence.save()
def parallelize_import_sentence(dpef_path):
# lister les Path des pdfs depuis dpef_path
# Paralellisation de import_sentence à partir du répertoire des DPEFS
Ca semble possible, d'après https://stackoverflow.com/a/10684672/8086033, de paralléliser une tâche django : il suffit de laisser chaque worker recréer sa propre connexion à la BDD.
Sur la base de la discussion de #4, création de la fonction suivante:
qui sera ensuite appelée dans le code Django (dans polls.admin ? dans webapp.manage.py ?)
Ca semble possible, d'après https://stackoverflow.com/a/10684672/8086033, de paralléliser une tâche django : il suffit de laisser chaque worker recréer sa propre connexion à la BDD.