Closed gerritbruening closed 6 years ago
Would need to see that. @markusciupke, can you send me both IDML and docx?
@gerritbruening, it is probably not intended to maintain the stuff in IDML but rather in HTML or TEI?
I send it via e-mail.
danke.
Die Referenzen zu extrahieren wird hinreichend nervig. Im IDML sieht sowas z.B. so aus:
<CharacterStyleRange AppliedCharacterStyle="CharacterStyle/Kursiv">
<Content>H</Content>
</CharacterStyleRange>
<CharacterStyleRange AppliedCharacterStyle="CharacterStyle/Versalziffer kursiv hoch">
<Content>5</Content>
</CharacterStyleRange>
die Siglen sind unvollständig, dh 1/2 etc. muss geraten werden
Ja, deswegen semi-automatisch, bzw.:
H
ist immer 2_H
C...
müssen wir disambiguieren. Es wäre aber gut, da schonmal ref
und @uri
(notfalls ohne Wert) oder was immer da genommen wird, einzusetzen, damit wir nicht komplett händisch auszeichnen müssen.a
dasteht. Könnte aber korrigiert worden sein.@gerritbruening, it is probably not intended to maintain the stuff in IDML but rather in HTML or TEI?
Yes!
(sollten klären, ob das zur 1.0 sein muss)
mein vorschlag wäre docx → tei (via ex. skripte), dann gucken ob man die referenzen auflöst, dann entweder in tei pflegen oder nach html und darin pflegen, können wir nachher besprechen
Philipp hat diese Woche Urlaub. Wie umfangreich/komplex ist denn das InDesign? Wir könnten eine weitere Pipeline aufsetzen, die IDML nach TEI konvertiert.
Um die Aufgabe(n) und Lösungsvorschläge besser einschätzen zu können: um welchen Bereich, in welcher Datenquelle, handelt es sich?
<hi rend="Kursiv">A</hi>
<hi rend="Kursiv">C</hi><hi rend="Versalziffer_kursiv_hoch">3</hi>
<hi rend="Kursiv">III H</hi><hi rend="Versalziffer_kursiv_hoch">2</hi>
, hier würde tokenisieren stören<hi rend="Kursiv">B B</hi><hi rend="Kursiv_Hochgestellt">a</hi>
<hi rend="Kursiv">C</hi><hi rend="Versalziffer_kursiv_hoch">2</hi><hi end="Kursiv_Hoch_Agora">a</hi><hi rend="Kursiv" xml:space="preserve"> C</hi><hi rend="Versalziffer_kursiv_hoch">3</hi><hi rend="Kursiv">4</hi>
müsste C.3 4
werden<hi rend="Kursiv">G</hi>
<hi rend="Kursiv">durch Rasur H</hi>
vielleicht folgendes schrittweises Vorgehen
<hi rend="Kursiv">α</hi>
und in vorhergehendes <hi>
mit reinziehen<hi rend =~ /[Kk]ursiv.*[Hh]och/>
, die unmittelbar auf ein <hi rend="Kursiv">
folgen, zu <hi rend="Kursiv">.〈Inhalt〉</hi>
<hi rend="Kursiv"> zusammenfassen
hi[@rend='Kursiv'][not(node() except ref)]
durch Inhalt ersetzenKlingt hinreichend nervig, aber wir sind bei Fuß.
ich habe euch das TEI-File ja geschickt. Bevor ich wieder dran bin, müsst Ihr ein paar Entscheidungen treffen, z.B. wie das gepflegt werden soll, wo das hin soll, was davon relevant ist, welche Konvertierungen noch anstehen aus eurer Sicht. Können bei bedarf gern drüber sprechen
ich habe euch das TEI-File ja geschickt
Oh, das ist mir durchgerutscht, und ich finde es nicht mehr wieder. Kannst du es nochmal schicken?
done
z.B. wie das gepflegt werden soll,
am besten in xml
, wo die anderen Sachen auch liegen.
wo das hin soll
intro_text.php
OK, danke!
Wie sieht es mit diesen komischen Konstrukten aus:
Faust <hi rend="Faust_I/II1">I</hi>
(https://github.com/gerritbruening/faust-data/blob/03db6484b710c1858109b3e08794b3fcf44db965/faust-gen-html-issue592/EdBerichtFixed.xml#L80)
Steht dazwischen ein geschätztes Leerzeichen? Dann ist gut, aber wahrscheinlich brauchen wir da
?
Und kann <hi rend="Faust_I/II1">
per apply-templates
entfallen?
Worttrennungen scheinen überlebt zu haben:
https://github.com/gerritbruening/faust-data/blob/03db6484b710c1858109b3e08794b3fcf44db965/faust-gen-html-issue592/EdBerichtFixed.xml#L114
(Gesamtaus-gabe
mit soft hyphen)
z.B. wie das gepflegt werden soll,
am besten in xml, wo die anderen Sachen auch liegen.
wenn’s in tei weitergepflegt werden soll und nicht in html, ok
intro_text.php
das widerspricht dem oben aber. Kann man vielleicht über eine Aufteilung nachdenken. Das wird ja sonst ein riesenlanges Bleiwüstendokument.
Faust <hi rend="Faust_I/II1">I</hi>
Die Absatz- / Zeichenformate und direkten Formatierungen wurden übernommen, auch geschützte Leerzeichen und bedingte Trennstriche sollten noch da sein. (Ich nehme an, im Druck ist die I leicht verkleinert.)
bitte nicht verwenden, das gibts allenfalls in HTML. Geschützte Leerzeichen sind doch ok, wir haben ja eh UTF-8-codierte Daten.
Bei den ganzen Formatierungen muss man mal überlegen, welche wie irgendwann im HTML landen sollen, für rend="Kursiv" gibt’s ja auch keine Regeln.
Mit intro_text.php
meinte ich, dort soll das landen, was aus dem TEI gemacht wird. Ich bin aber sehr für eine Aufteilung, d.h. jede Überschrift oder so bekommt ein eigenes Dokument.
Dann würde ich sagen, hi[rend="Faust_I/II1]"
soll durch den Inhalt ersetzt werden.
Können wir hier zur 1.0 noch was tun?
Was ich machen kann: ein TEI bereitstellen, meinetwegen auch aufgesplittet nach präsumptiven faust-web-Seiten, mit Links auf Zeugen.
Was wir da aber brauchten, wäre eine brauchbare Anzeige der note
-Inhalte (Fußnoten) am rechten Rand oder so. Sonst stehen die Mittendrin, das sähe dann komisch aus. Ich könnte sie allerdings für die 1.0 auskommentieren, wenn das bis dahin nichts werden würde.
Also, @thvitt, soll ich ein TEI basteln?
wieso willst du jetzt ein TEI basteln? hatte ich doch schonmal gemacht & auch die meisten der Siglen verlinkt?
basteln
d.h., über das von dir generierte drübergehen (nahm an, durch komisches ID Zeug würden komische Dinge dringstehen, aber vielleicht sind die auch egal) aber wir können es auch jetzt schon rendern, gesplittet natürlich Wo würdest du das XML hosten? Oder soll dann sowieso gleich direkt das generierte html weitergepflegt werden? (mir egal) Fußnoten gehen aber dann noch nicht?
tel. mit TV
hi rend
bleibt stehen (rend="Faust_I/II1
sollte aber ignored werden)Hier das Mapping:
Elemente | Kontext | Umsetzung | |
---|---|---|---|
hi rend="Kolumnelinks(MC)" | p rend="Text Stumpf" | raus | |
hi rend="Faust_I/II1" | apply-templates | ||
hi rend="Kursiv" | emph | ||
hi rend="Hochgestellt" | apply-templates | ||
note/@n |
neu durchzählen daraus Nummern | ||
<hi rend="Kursiv" xml:space="preserve">autornah </hi> |
wenn möglich, trailing blank nach rechts raus, dann kann xml:space weg | ||
<hi rend="Kursiv">C.1</hi> |
gerne schonmal ein ref mit leerem @target um den Inhalt | ||
<hi rend="Kursiv">C.3</hi> |
|||
hi rend="Kursiv" | gefolgt von hi rend="Versalziffer_kursiv_hoch" | zusammen lumpen in ein emph/ref | |
dito | dito gefolgt von hi rend="Kursiv_Hochgestellt" | dito | |
hi rend="Tiefgestellt" | Punkt gefolgt von text() | ||
p rend="Teil" | raus | ||
p rend="Szene" | h2 | das ist bei uns die höchste, oder? Sonst halt h1 usw. | |
p rend="Unterszene nach Szene" | h3 | ||
p rend="Unterszene" | h3 | ||
p rend="Unterszenenunter" | h4 | ||
p rend="Faust I/II" | h5 | ||
p rend="Text Hängend 1" | li | ||
p rend="Text Hängend römisch 1" | li | ||
p rend="Text Hängend römisch 2" | ul/li | untergeordnet | |
p rend="Text Hängend römisch 3" | dito | ||
p rend="Text Hs 2" | li | ||
<hi rend="Tiefgestellt_^_Text">^</hi> |
da hast du irgendwas für, oder? | ||
hi rend="Tiefgestellt_^" | dito | ||
hi rend="italic" | emph |
die fussnoten regel ich dann lieber über css, (cf. tufte css)
das gruppieren der <li>
auf unterschiedlichen ebenen ist jetzt nicht automatisiert, da hab ich gerade weder zeit noch nerv zu.
Danke!
Ich würde das im Grundsatz dann so machen. Ist das in Ordnung? Aufteilung in sub-Seiten entlang der div
s können wir uns dann noch überlegen, aber es gibt noch ein paar Suchen-und-Ersetzen-Sachen, die ich vorher gern machen würde (Anführungszeichen und so).
Wenn das ungefähr das ist, was bei diesem Issue rauskommen sollte, kann @thvitt das closen, und wir regeln die weiteren Einzelheiten in faust-web
.
das mit den sidenotes klappt noch nicht … muss ich noch ein wenig schauen
@gerritbruening, bitte für weitere anzupassende Dateien die Änderung aus https://github.com/faustedition/faust-web/commit/9a92b7f89f751ef42c9c6803208d9428e3148772 beachten. Dies bewirkt, dass für die Randnotizen Raum reserviert wird, sollte jetzt also auf jeden Bildschirm passen. Wenn’s zu schmal ist, zum Beispiel auf pure-u-4-5 ändern.
Sieht gut aus, danke!
Pretty sure that IDML would be the best interchange format. It is verbose, though. Advise from @pglatza would be appreciated. @markusciupke would have to send over the IDML. Secondly, all the idnos which are rendered in italics would have to become proper links (should work semi-automatically, at least).