HTR-United / htr-united

Ground Truth Resources for the HTR of patrimonial documents
https://htr-united.github.io
Creative Commons Zero v1.0 Universal
39 stars 32 forks source link

Ajout jeu de données "Annuaire des propriétaires et des propriétés de Paris" #32

Closed PSIG-EHESS closed 3 years ago

PSIG-EHESS commented 3 years ago

Bonjour, je souhaiterais intégrer une nouvelle description d'un jeu de données. Ci-dessous le .yml produit à partir du formulaire.

schema: "https://htr-united.github.io/schema/2021-10-15/schema.json"
title: Données vérité de terrain HTR+ Annuaire des propriétaires et des propriétés de Paris et du département de la Seine (1898-1923)
url: 'http://dx.doi.org/10.34847/nkl.acb724xs'
project-name: >
    Groupe annuaires et adresses - Consortium Huma-num Paris Time Machine'
project-website: 'https://paris-timemachine.huma-num.fr/groupe-adresses-et-annuaires/'
authors:
    - name: 'Elgarrista'
      surname: 'Gabriela'
      roles:
      - 'transcriber'
      - 'quality-control'
    - name: 'Mélanie-Becquet'
      surname: 'Frédérique'
      roles:
      - 'project-manager'
      - 'quality-control'
    - name: 'Brando'
      surname: 'Carmen'
      roles:
      - 'project-manager'
      - 'quality-control'
description: >
  Annuaire des propriétaires et des propriétés de Paris et du département de la Seine. Lien dans le catalogue de la BNF : https://catalogue.bnf.fr/ark:/12148/cb32697229h. Crédits : Bibliothèque nationale de France.

Données vérité de terrain résultant de la transcription et la segmentation manuelle d’un échantillon de 169 pages des annuaires appartenant aux volumes 1898 et 1923. Un modèle de transcription HTR+ a été entrainé à partir de cet échantillon grâce à Transkribus et est disponible sur cette plateforme en mode public. Ce modèle est valable pour transcrire automatiquement les volumes de 1903 et 1913 et tout autre document imprimé à deux colonnes et en utilisant l'alphabet latin et particulièrement en français. Le choix de l'échantillon est fait par critère alphabétique car c'est le mode d'organisation de l'information dans ce document.
Les accolades présentes dans le document n'ont pas été segmentées. 118 pages pour entrainer et 51 pages pour validation.

Contexte et financement :
Subvention DAHN (Dispositif de soutien à l'archivistique et aux humanités numériques) par le MESRI.
Equipes :
Consortium Paris Time Machine - TGIR Humanum
EHESS / CNRS / LATTICE / INRIA
Contact si besoin d'anonymiser les noms de personnes : carmen.brando@ehess.fr.
language:
  - fra
script: 
  - Latn
script-type: 'only-typed'
time: 
  notBefore: "1898"
  notAfter: "1923"
hands: 
  count: 'less-than-11'
  precision: 'estimated'
license:
  - {name: 'Etalab', url: 'https://fr.wikipedia.org/wiki/Etalab'}
format: 'Alto-XML'

transcription-guidelines: >
    Transcription diplomatique.
    Les accolades n'ont pas été segmentées.'
PonteIneptique commented 3 years ago

Bonsoir ! merci pour la proposition ! J'ai préparé la Pull Request en #35 Si vous avez la possibilité de compter le nombre de lignes et de caractères pour la propriété volume, cela serait parfait !

PonteIneptique commented 3 years ago

Merci pour la contribution !

PSIG-EHESS commented 3 years ago

Merci Thibault ! bien à toi, Carmen

alix-tz commented 3 years ago

Merci beaucoup pour cette contribution !!