OpenEdition / lodel

Science publishing CMS
GNU General Public License v2.0
50 stars 27 forks source link

XML non valide après import Word #130

Closed ssonnet closed 3 years ago

ssonnet commented 3 years ago

Bonjour, Suite à quelques difficultés d'import avec quelques fichiers Word, et une fois un problème de paramétrage système réglé, je me suis rendu compte qu'il est possible d'importer dans Lodel des articles Word qui génèrent un fichier XML non valide. Par exemple, un des fichiers XML testé contre le schéma TEI 1.6.2 me renvoie des erreurs concernant des valeurs d'attributs non valides (cf. ci-dessous). Est-ce que c'est quelque chose dont vous avez connaissance ? Cordialement.

Article:3: validity error : xml:id : attribute value quotation#P3 is not an NCName ="css">font-weight:bold</rendition><rendition xml:id="quotation#P3" scheme="css" ^ Article:3: validity error : xml:id : attribute value id_ZOTERO_ITEM_CSL_CITATION_{"citationID":" is not an NCName kmark-start" xml:id="id_ZOTERO_ITEM_CSL_CITATION_{&quot;citationID&quot;:&quot;" ^ Article:3: element date: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}date': This element is not expected. Expected is one of ( {http://www.tei-c.org/ns/1.0}p, {http://www.tei-c.org/ns/1.0}ab, {http://www.tei-c.org/ns/1.0}distributor, {http://www.tei-c.org/ns/1.0}publisher ). Article:3: element fileDesc: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}fileDesc': Missing child element(s). Expected is ( {http://www.tei-c.org/ns/1.0}sourceDesc ). Article:3: element rendition: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}rendition', attribute '{http://www.w3.org/XML/1998/namespace}id': 'quotation#P3' is not a valid value of the atomic type 'xs:ID'. Article:3: element list: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}list': Missing child element(s). Expected is one of ( {http://www.tei-c.org/ns/1.0}lb, {http://www.tei-c.org/ns/1.0}pb, {http://www.tei-c.org/ns/1.0}anchor, {http://www.tei-c.org/ns/1.0}item ). Article:3: element anchor: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}anchor', attribute '{http://www.w3.org/XML/1998/namespace}id': 'id_ZOTERO_ITEM_CSL_CITATION_{"citationID":"' is not a valid value of the atomic type 'xs:ID'. Article:3: element q: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}q', attribute 'rendition': '#quotation#P3' is not a valid value of the atomic type 'xs:anyURI'. Article:3: element q: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}q', attribute 'rendition': '#quotation#P3' is not a valid value of the local list type. Article:3: element q: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}q', attribute 'rendition': '#quotation#P3' is not a valid value of the atomic type 'xs:anyURI'. Article:3: element q: Schemas validity error : Element '{http://www.tei-c.org/ns/1.0}q', attribute 'rendition': '#quotation#P3' is not a valid value of the local list type. Article fails to validate

jfriviere commented 3 years ago

Bonjour,

En effet, nous connaissons le problème. OTX convertit les documents de traitement de texte en TEI contenant des erreuss de validation. Dans l'exemple que vous donnez il y a notamment les valeurs d'attributs xml:id qui contiennent des # (xml:id="quotation#P3"). C'est incorrect en XML. Il y a aussi apparemment un problème XML avec les id ajoutés par le plugin Zotero pour Word.

De ce fait, Lodel accepte les fichiers XML TEI non valides... C'est mal mais sinon, Lodel ne permettrait pas l'import de documents via OTX dans son état actuel.

Lodel se satisfait des attributs xml:id qui contiennent des # .

Mais, nous avons eu récemment un retour d'utilisateur qui rencontrait des erreurs d'imports de fichiers Word contenant une bibliographie faite avec le plugin Zotero pour Word.

Ci-dessous la réponse de ma collègue qui a modifié le document Word pour permettre l'import dans Lodel.

En effet, ce sont bien les liens Zotero qui empêchaient le chargement du document. Pour les repérer, j'ai surligné un paragraphe, et une double surbrillance était appliquée sur les références.

J'ai supprimé les liens avec le bouton "Unlink Citations", puis j'ai appliqué le style "Bibliographie" sur les références de la bibliographie finale.

Cordialement JF Rivière