DEFI-COLaF / metadata

0 stars 0 forks source link

TEI conversion for HTML element `<code>` #30

Open OrianeN opened 2 weeks ago

OrianeN commented 2 weeks ago

Bonjour Juliette,

Je suis tombée sur des posts qui contiennent du texte ou du code à afficher de manière brute, notamment: https://occitania.forumactif.com/t1156-dictada-ocictana#12286, https://occitania.forumactif.com/t1446-dividir-ua-citacion#14520, https://occitania.forumactif.com/t888-lo-bloguitge-malhum-de-blogs-occitans#8788

Floriane m'a parlé des balises <eg> et <egXML> qui sont utilisées dans le doc TEI, alors je m'en suis inspirée pour convertir ces posts.

Ma proposition serait de transformer le HTML suivant:

<dl class="codebox">
    <dt>Code:</dt>
    <dd class="cont_code">
        <code>&lt;object type="application/x-shockwave-flash" data="http://www.fileden.com/files/2008/5/21/1923420/dewplayer-multi.swf?mp3=XXX.mp3&amp;showtime=1&amp;volume=50" width="200" height="20"&gt;&lt;param name="wmode" value="transparent" /&gt;&lt;param name="movie" value="http://www.fileden.com/files/2008/5/21/1923420/dewplayer-multi.swf?mp3=XXX.mp3&amp;showtime=1&amp;volume=50" /&gt;&lt;/object&gt;</code>
    </dd>
</dl>

En TEI-COLAF comme suit:

<p rend="codebox">
    <lb/><label>Code:</label>
    <egXML>&lt;object type=&quot;application/x-shockwave-flash&quot; data=&quot;http://www.fileden.com/files/2008/5/21/1923420/dewplayer-multi.swf?mp3=XXX.mp3&amp;showtime=1&amp;volume=50&quot; width=&quot;200&quot; height=&quot;20&quot;&gt;&lt;param name=&quot;wmode&quot; value=&quot;transparent&quot; /&gt;&lt;param name=&quot;movie&quot; value=&quot;http://www.fileden.com/files/2008/5/21/1923420/dewplayer-multi.swf?mp3=XXX.mp3&amp;showtime=1&amp;volume=50&quot; /&gt;&lt;/object&gt;</egXML>
</p>

Et si le contenu n'est pas parsable en XML, j'utilise seulement la balise <eg>, par exemple:

<dl class="codebox">
    <dt>Code:</dt>
    <dd class="cont_code">
        <code>[quote="pseudo"]ta citacion en copiar-colar[/quote]</code>
    </dd>
</dl>

Deviendrait

<p rend="codebox">
    <lb/><label>Code:</label>
    <eg>[quote=&quot;pseudo&quot;]ta citacion en copiar-colar[/quote]</eg>
</p>

Qu'est-ce que tu en penses ?

(À noter aussi que ces éléments sont parfois repris dans des citations)

Juliettejns commented 1 week ago

Bonjour Oriane, Nous allons certainement avoir d'autres occurences de code dans les datasets à traiter donc c'est effectivement judicieux de trouver une balise pour représenter ça. Par contre, pour moi, eg et egXML sont utilisés pour présenter des exemples (comme on peut le voir dans la description des balises).... ça me semble mieux d'employer tout simplement la balise code dont tu as la documentation ici: https://tei-c.org/release/doc/tei-p5-doc/fr/html/ref-code.html. Du coup, pour reprendre ton exemple, je te propose quelque chose du type:

<p>
    <lb/><label>Code:</label>
    <code>[quote=&quot;pseudo&quot;]ta citacion en copiar-colar[/quote]</code>
</p>
OrianeN commented 1 week ago

Merci pour ta réponse, je ne connaissais pas la balise <code> mais ça semble parfaitement adapté !

Par contre j'ai quelques soucis dans l'implémentation, notamment avec cet exemple (https://occitania.forumactif.com/t888-lo-bloguitge-malhum-de-blogs-occitans#8788):

<p>
  <lb/><code>
    <a href="http://ieumaitot.nireblog.com" target="_blank">Ieu maitot !!!!</a>
    <br/>
    <a href="http://parpalhon.nireblog.com" target="_blank">lo parpalhon vagamond</a>
    <br/>
    <a href="http://lacabraelolop.canalblog.com" target="_blank">La cabra e lo lop</a>
    <br/>
    <a href="http://omidelafotografia.nireblog.com" target="_blank">Fotografias e mei…</a>
    <br/>
    <a href="http://loblogdeujoan.blogspot.com" target="_blank">Lo blòg deu Joan</a>
    <br/>
    <a href="http://lutz.nireblog.com" target="_blank">Sens títol</a>
    <br/>
    <a href="http://conselhamistos.blogspot.com/" target="_blank">Conselh amistós de lectura</a>
    <br/>
    <a href="http://melanizetofre.blogspot.com/" target="_blank">Ma vida amb ieu </a>
    <br/>
    <a href="http://dictonsoc.blogspot.com/" target="_blank">Marçau Peyrouny</a>
    <br/>
    <a href="http://taban.canalblog.com/" target="_blank">Mescladis e còps de gula</a>
    <br/>
    <a href="http://occitania.typepad.fr/" target="_blank">Resson d’Oc</a>
    <br/>
    <a href="http://rapieta.nireblog.com/" target="_blank">Un jorn t’i tornaràs far !</a>
    <br/>
  </code>
</p>

il semble que la balise code n'accepte pas d'autres balises à l'intérieur... ou bien est-ce qu'il faut que j'échappe toutes les balises ? (c'était un peu l'avantage de <eg>/<egXML> de pouvoir mettre n'importe quoi à l'intérieur sans que ce soit parsé comme du XML-TEI)

Juliettejns commented 1 week ago

Bonjour Oriane! Ah oui je vois le problème... Pour le moment je n'ai pas de solution, tu peux utiliser eg et egXML pour marquer les balises et on reviendra peut être dessus si je trouve une meilleure idée (ou comment utiliser code).

Juliettejns commented 1 week ago

Peux-tu vérifier si la modification fonctionne bien sur ton corpus? Merci d'avance