PSL-Chartes-HTR-Students / TNAH-2021-Expositions_Universelles

La transcription et l'océrisation d'un échantillon d'articles contenus dans le Compte-renu du congrès international des sciences ethnographiques de 1878
0 stars 1 forks source link

Définitions des caractères des texte #9

Closed baudbaudy closed 2 years ago

baudbaudy commented 2 years ago

Au sujet des fichiers XML, est-il nécessaire selon vous de rajouter des balises pour les caractères ayant une graphie particulière (mots en italiques, noms d'individus en petite capitale, etc...) ou ce n'est pas attendu dans le cadre de ce travail?

kat-kel commented 2 years ago

Bonjour,

C'est une très bonne question ! Et je n'ai pas de réponse, mais je voudrais y ajouter la question de l'XML à rendre.

J'ai tenté de poser une question l'avant dernier cours python pour demander au prof s'il faut qu'on rédige nous même l'XML de la transcription. Et je crois qu'il a répondu que l'XML sortant d'eScriptorium suffit. De plus, qu'il préfère qu'on utilise le format qui s'appelle « Alto », je crois. Est-ce que je me souviens bien ?

L'XML « Alto » peut être exporté d'eScriptorium et, par défaut, il ressemble à ci-dessous (le premier élément « TextLine » contient l'élément « String » dont l'attribut « CONTENT » transcrit le numéro de page ; le deuxième a la première ligne de texte) :

<?xml` version="1.0" encoding="UTF-8"?>
<alto xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xmlns="http://www.loc.gov/standards/alto/ns-v4#"
      xsi:schemaLocation="http://www.loc.gov/standards/alto/ns-v4# http://www.loc.gov/standards/alto/v4/alto-4-2.xsd">
  <Description>
    <MeasurementUnit>pixel</MeasurementUnit>
    <sourceImageInformation>
      <fileName>pages-kelly.pdf_page_1.png</fileName>

    </sourceImageInformation>
  </Description>

  <Layout>
    <Page WIDTH="2480"
          HEIGHT="3507"
          PHYSICAL_IMG_NR="0"
          ID="eSc_dummypage_">
      <PrintSpace HPOS="0"
                  VPOS="0"
                  WIDTH="2480"
                  HEIGHT="3507">

        <TextBlock HPOS="549"
                   VPOS="596"
                   WIDTH="1378"
                   HEIGHT="1061"
                   ID="eSc_textblock_75ebe2a0"
                   TAGREFS="BT">
          <Shape><Polygon POINTS="1146 596 1342 596 1380 654 1927 666 1915 1610 1248 1657 549 1645 549 666 1120 654 1087 631 1146 596"/></Shape>

          <TextLine ID="eSc_line_da3c7dbd"

                    BASELINE="1134 631 1339 625" 
                    HPOS="1125"
                    VPOS="575"
                    WIDTH="214"
                    HEIGHT="65">
            <Shape><Polygon POINTS="1134 631 1125 593 1222 575 1222 575 1225 575 1225 575 1333 587 1339 625 1339 634 1134 640"/></Shape>
        <String CONTENT="— 163 —"
                    HPOS="1125"
                    VPOS="575"
                    WIDTH="214"
                    HEIGHT="65"></String>
          </TextLine>

          <TextLine ID="eSc_line_59953560"

                    BASELINE="552 692 1918 698" 
                    HPOS="546"
                    VPOS="645"
                    WIDTH="1372"
                    HEIGHT="65">
            <Shape><Polygon POINTS="552 692 552 645 1918 651 1918 698 1912 710 546 704"/></Shape>
        <String CONTENT="avoir pour espérance de conclure l’avenir de l’humanité de son passé. Si du"
                    HPOS="546"
                    VPOS="645"
                    WIDTH="1372"
                    HEIGHT="65"></String>
          </TextLine>

Mais ta question reste importante. Est-ce qu'on rajoute des balises à cet XML d'eScriptorium, si on l'utilise ? Personnellement, je pense qu'il faut conserver quelque part le fait que certaines caractères ont une graphie particulière.

paulhectork commented 2 years ago

Coucou à vous, personellement j'ai pas mis de XML particulier pour les caractères spéciaux.

Ça pourrait avoir un intérêt de souligner les souligner les changements typographiques (gras, italique) si ce changement était lié au contenu intellectuel du texte (importance de ce qui est dit...). Dans notre cas, par contre, les changements typographiques sont surtout liés à la mise en page (nom d'intervenant.e.s en gras...). Là, je suis pas certain de l'utilité de souligner les changements typo.

J'ai eu un seul mot en grec ancien dans mon texte, je l'ai écrit en caractères grec sans problème. Je sais pas si/quelles balises spéciales sont possibles avec cet XML (graphies, gras, italique), le modèle peut être assez restrictif.

Pour le format de XML exporté: personnellement j'ai utilisé le modèle page, et pas alto. Si on part sur alto, je rééxporte tous mes fichiers de eScriptorium vers Github au nouveau format.

baudbaudy commented 2 years ago

Paul pour te répondre, je sais que dans notre texte les notions d' "Etat, de "Nation", de "peuple", etc..., sont souvent en italique donc je pense que peut être il serait intéressant de réfléchir à le souligner dans le fichier XML. Après je suis d'accord que pour ce qui est des changements de typographiques répondant à des questions d'esthétiques et de mises en page ce n'est peut être pas pertinent.

paulhectork commented 2 years ago

on dirait qu'il n'y ait pas moyen de transcrire les éléments de style dans les formats XML disponibles, ce qui règle la question je crois ?

baudbaudy commented 2 years ago

Oui mais ce que je veux dire c'est que justement ça devrait être à nous de rajouter les balises manuellement dans les fichiers xml

Oeconomo commented 2 years ago

Bonjour ! On a donc finalement opté pour Alto avec image ? Pour ma part, cela me dérage aussi de ne pas avoir des motes en italiques balisés, pour pur amour à la rigueur. Mais cela ne me semble pas fondamental dans le cadre de mes articles. Je m'adapterai à la décision prise en commun.

paulhectork commented 2 years ago

Alto avec image je confirme ! Il semblerait que c'est impossible d'indiquer l'utilisation d'italique, le changement de graisse etc :^/