docxConverter (keine Fußnoten, Zitate nur mit Nummerierungen)
Pandoc native
oxGarage
Anforderungen
Autoren müssen sich an definierte Dokument-Templates und redaktionelle Vorgaben halten
Feste Parameter für die Konvertierung müssen konfiguriert werden können (auf welcher Ebene? Hosting, Journal Manager/Editor)
Variable Parameter müssen abgefragt werden
Referenzen müssen standardisiert werden, parsing muss extra implementiert werden
Automatisiertes post-processing muss möglich sein
Manuelle Nachbearbeitung wird immer nötig sein
Individuelle zusätzlich Bearbeitungsschritte müssen integriert werden können z.B. für:
Sprachidentifikation (mit z.B. Tikka) muss integriert werden (für Layout/Silbentrennung), eventuell inklusive Wörterbücher (die gepflegt werden müssen)
Anpassung von Lizenzrechten
Bearbeitungsverlauf zwischenspeichern und verfügbar machen
Wunschvorstellung OJS-XML-Editor
Entwicklung kostet viel Zeit und Geld/Personal
Institutsübergreifendes Projekt?
Kommunikation an die Institute
Ist Texture eine Möglichkeit? -> Stand des Plugins?
Backend für Editoren
Frontend für Autoren (zum Schreiben und für Revision)
arbeiten direkt in einem OJS-XML-Editor
Erfahrungen von vergleichbaren Editoren: Autoren arbeiten in Word und kopieren formatierte Daten
Pandoc, meTypeset, XSLT und Texture verarbeiten nicht immer alle nach JATS erlaubten Tags. Es muss eine Liste von Tag erstellt werden die nicht verwendet werden dürfen.
Eine Überprüfung auf Elemente dieser Art muss vor starten der Pipeline erfolgen
Informationen übergreifend sammeln (Community-Forum?, ojs-de.net?) und aktualisieren (z.B. bei neuen Versionen)
Beispielkonvertierungen
Pandoc
pandoc -f docx -t jats --standalone -o <out_file>.xml <in_file>.docx
Ergebnis mit komplexen docx-Dateien (Tabellen + Formeln, nur Formeln): das generierte JATS kann in Texture nicht angezeigt werden:
\<table> is not valid
\<email> not valid (e-mail-Link in Word)
einfache Auflistung i), ii), iii) funktioniert nicht
Einfache Grafik (ohne Caption) funktioniert nicht
\<alternatives>-Tag in \<inline-formula> funktioniert nicht
... und viele andere Fehler
Nach Entfernung aller Tabellen, Bilder, Formel und Aufzählungen:
Keine kommentierte Texture-Fehlermeldung mehr
Browser meldet:
ERROR:Node already exists
Gesamte Citavi-Bibliographie wird in einen
-Tag gepackt
myTypeset
Keine Konvertierung ohne LibreOffice oder Word auf dem System
Hier müsste evtl. in Zusammenarbeit mit dem Entwickler der ReferenceLinker verbessert werden. Vor allem die Erkennung der Referenzliste selber ist noch sehr fehleranfällig.
Goal
Ressources
Overview of XML import tools dedicated to PKP uses (from 2018 sprint):
Front-end Gruppe
Results
docx-Konvertierung mit Kommandozeile-Konverter
Tools
myTypeset (Fußnoten müssen separat gesetzt werden)
docxConverter (keine Fußnoten, Zitate nur mit Nummerierungen)
Pandoc native
oxGarage
Anforderungen
Autoren müssen sich an definierte Dokument-Templates und redaktionelle Vorgaben halten
Feste Parameter für die Konvertierung müssen konfiguriert werden können (auf welcher Ebene? Hosting, Journal Manager/Editor)
Variable Parameter müssen abgefragt werden
Referenzen müssen standardisiert werden, parsing muss extra implementiert werden
Automatisiertes post-processing muss möglich sein
Manuelle Nachbearbeitung wird immer nötig sein
Individuelle zusätzlich Bearbeitungsschritte müssen integriert werden können z.B. für:
Bearbeitungsverlauf zwischenspeichern und verfügbar machen
Beispielkonvertierungen
Pandoc
pandoc -f docx -t jats --standalone -o <out_file>.xml <in_file>.docx
Ergebnis mit komplexen docx-Dateien (Tabellen + Formeln, nur Formeln): das generierte JATS kann in Texture nicht angezeigt werden:... und viele andere Fehler Nach Entfernung aller Tabellen, Bilder, Formel und Aufzählungen: Keine kommentierte Texture-Fehlermeldung mehr Browser meldet:
Gesamte Citavi-Bibliographie wird in einen
-Tag gepackt
myTypeset
oxGarage
Ergebnis: Jats nicht in Texture nicht lesbar:
Weiteres Vorgehen
Github Repo mit Beispieldateien wird erstellt Informationsaustausch und Weiterentwicklung über Github-Issues