GrazingScientist / OJS-XML-Pipeline-Plugin

Zunächst nur eine Diskussionsplattform um Tests mit den verschiedenen DOCX-Tranformatoren auszutauschen.
0 stars 2 forks source link

Intial Kickoff paper #2

Open GrazingScientist opened 4 years ago

GrazingScientist commented 4 years ago

Goal

Ressources

Overview of XML import tools dedicated to PKP uses (from 2018 sprint):

Front-end Gruppe

  1. Eingabe-Format wählen (vlt. Dropdown Menu): docx, odt, etc.
  2. Metadaten
  3. Zitate (regular expressions?)
  4. Bilder
  5. Ausgabe-Format wählen: HTML, Jats, etc.

Results

  1. docx-Konvertierung mit Kommandozeile-Konverter

    • Tools

    • myTypeset (Fußnoten müssen separat gesetzt werden)

    • docxConverter (keine Fußnoten, Zitate nur mit Nummerierungen)

    • Pandoc native

    • oxGarage

    • Anforderungen

    • Autoren müssen sich an definierte Dokument-Templates und redaktionelle Vorgaben halten

    • Feste Parameter für die Konvertierung müssen konfiguriert werden können (auf welcher Ebene? Hosting, Journal Manager/Editor)

    • Variable Parameter müssen abgefragt werden

    • Referenzen müssen standardisiert werden, parsing muss extra implementiert werden

    • Automatisiertes post-processing muss möglich sein

    • Manuelle Nachbearbeitung wird immer nötig sein

    • Individuelle zusätzlich Bearbeitungsschritte müssen integriert werden können z.B. für:

      • Sprachidentifikation (mit z.B. Tikka) muss integriert werden (für Layout/Silbentrennung), eventuell inklusive Wörterbücher (die gepflegt werden müssen)
      • Anpassung von Lizenzrechten
    • Bearbeitungsverlauf zwischenspeichern und verfügbar machen

  2. Wunschvorstellung OJS-XML-Editor
    • Entwicklung kostet viel Zeit und Geld/Personal
      • Institutsübergreifendes Projekt?
      • Kommunikation an die Institute
      • Ist Texture eine Möglichkeit? -> Stand des Plugins?
    • Backend für Editoren
    • Frontend für Autoren (zum Schreiben und für Revision)
    • arbeiten direkt in einem OJS-XML-Editor
    • Erfahrungen von vergleichbaren Editoren: Autoren arbeiten in Word und kopieren formatierte Daten

Beispielkonvertierungen

Pandoc

pandoc -f docx -t jats --standalone -o <out_file>.xml <in_file>.docx Ergebnis mit komplexen docx-Dateien (Tabellen + Formeln, nur Formeln): das generierte JATS kann in Texture nicht angezeigt werden:

\<table> is not valid \<email> not valid (e-mail-Link in Word) einfache Auflistung i), ii), iii) funktioniert nicht Einfache Grafik (ohne Caption) funktioniert nicht \<alternatives>-Tag in \<inline-formula> funktioniert nicht

... und viele andere Fehler Nach Entfernung aller Tabellen, Bilder, Formel und Aufzählungen: Keine kommentierte Texture-Fehlermeldung mehr Browser meldet:

ERROR:Node already exists

Gesamte Citavi-Bibliographie wird in einen

-Tag gepackt

myTypeset

oxGarage

\<caption> in not allowed at the current position

Weiteres Vorgehen

Github Repo mit Beispieldateien wird erstellt Informationsaustausch und Weiterentwicklung über Github-Issues

withanage commented 4 years ago

unter dem Punkt

Results > 2.Wunschvorstellung OJS-XML-Editor > Backend für Editoren

Wäre ein OxygenXML plugin denkbar.