faustedition / faust-gen-html

Pipelines to generate HTML for the Faust edition's reading texts and prints.
1 stars 4 forks source link

Include and enhance editorial introduction #592

Closed gerritbruening closed 6 years ago

gerritbruening commented 6 years ago

Pretty sure that IDML would be the best interchange format. It is verbose, though. Advise from @pglatza would be appreciated. @markusciupke would have to send over the IDML. Secondly, all the idnos which are rendered in italics would have to become proper links (should work semi-automatically, at least).

thvitt commented 6 years ago

Would need to see that. @markusciupke, can you send me both IDML and docx?

@gerritbruening, it is probably not intended to maintain the stuff in IDML but rather in HTML or TEI?

markusciupke commented 6 years ago

I send it via e-mail.

thvitt commented 6 years ago

danke.

Die Referenzen zu extrahieren wird hinreichend nervig. Im IDML sieht sowas z.B. so aus:

<CharacterStyleRange AppliedCharacterStyle="CharacterStyle/Kursiv">
    <Content>H</Content>
</CharacterStyleRange>
<CharacterStyleRange AppliedCharacterStyle="CharacterStyle/Versalziffer kursiv hoch">
    <Content>5</Content>
</CharacterStyleRange>
gerritbruening commented 6 years ago

die Siglen sind unvollständig, dh 1/2 etc. muss geraten werden

Ja, deswegen semi-automatisch, bzw.:

gerritbruening commented 6 years ago

@gerritbruening, it is probably not intended to maintain the stuff in IDML but rather in HTML or TEI?

Yes!

gerritbruening commented 6 years ago

(sollten klären, ob das zur 1.0 sein muss)

thvitt commented 6 years ago

mein vorschlag wäre docx → tei (via ex. skripte), dann gucken ob man die referenzen auflöst, dann entweder in tei pflegen oder nach html und darin pflegen, können wir nachher besprechen

gimsieke commented 6 years ago

Philipp hat diese Woche Urlaub. Wie umfangreich/komplex ist denn das InDesign? Wir könnten eine weitere Pipeline aufsetzen, die IDML nach TEI konvertiert.

pglatza commented 6 years ago

Um die Aufgabe(n) und Lösungsvorschläge besser einschätzen zu können: um welchen Bereich, in welcher Datenquelle, handelt es sich?

thvitt commented 6 years ago

Siglenerkennung

  1. <hi rend="Kursiv">A</hi>
  2. <hi rend="Kursiv">C</hi><hi rend="Versalziffer_kursiv_hoch">3</hi>
  3. <hi rend="Kursiv">III H</hi><hi rend="Versalziffer_kursiv_hoch">2</hi>, hier würde tokenisieren stören
  4. Doppelt: <hi rend="Kursiv">B B</hi><hi rend="Kursiv_Hochgestellt">a</hi>
  5. <hi rend="Kursiv">C</hi><hi rend="Versalziffer_kursiv_hoch">2</hi><hi end="Kursiv_Hoch_Agora">a</hi><hi rend="Kursiv" xml:space="preserve"> C</hi><hi rend="Versalziffer_kursiv_hoch">3</hi><hi rend="Kursiv">4</hi> müsste C.3 4 werden
  6. Dagegen <hi rend="Kursiv">G</hi>
  7. Dagegen besonders nervig <hi rend="Kursiv">durch Rasur H</hi>
thvitt commented 6 years ago

vielleicht folgendes schrittweises Vorgehen

  1. agora-a → <hi rend="Kursiv">α</hi> und in vorhergehendes <hi> mit reinziehen
  2. alle <hi rend =~ /[Kk]ursiv.*[Hh]och/>, die unmittelbar auf ein <hi rend="Kursiv"> folgen, zu <hi rend="Kursiv">.〈Inhalt〉</hi>
  3. alle unmittelbar aufeinanderfolgenden <hi rend="Kursiv"> zusammenfassen
  4. Siglen aus der Siglenliste ihrer 1/2 berauben, RE draus basteln und in allen suchen → ref
  5. ggf. aufräumen, dh hi[@rend='Kursiv'][not(node() except ref)] durch Inhalt ersetzen
  6. @dietmarpravida und @gerritbruening die übersehenen Sonderfälle aufräumen lassen …
gerritbruening commented 6 years ago

Klingt hinreichend nervig, aber wir sind bei Fuß.

thvitt commented 6 years ago

ich habe euch das TEI-File ja geschickt. Bevor ich wieder dran bin, müsst Ihr ein paar Entscheidungen treffen, z.B. wie das gepflegt werden soll, wo das hin soll, was davon relevant ist, welche Konvertierungen noch anstehen aus eurer Sicht. Können bei bedarf gern drüber sprechen

gerritbruening commented 6 years ago

ich habe euch das TEI-File ja geschickt

Oh, das ist mir durchgerutscht, und ich finde es nicht mehr wieder. Kannst du es nochmal schicken?

thvitt commented 6 years ago

done

gerritbruening commented 6 years ago

z.B. wie das gepflegt werden soll,

am besten in xml, wo die anderen Sachen auch liegen.

wo das hin soll

intro_text.php

gerritbruening commented 6 years ago

OK, danke! Wie sieht es mit diesen komischen Konstrukten aus: Faust  <hi rend="Faust_I/II1">I</hi> (https://github.com/gerritbruening/faust-data/blob/03db6484b710c1858109b3e08794b3fcf44db965/faust-gen-html-issue592/EdBerichtFixed.xml#L80) Steht dazwischen ein geschätztes Leerzeichen? Dann ist gut, aber wahrscheinlich brauchen wir da &nbsp;? Und kann <hi rend="Faust_I/II1"> per apply-templates entfallen?

gerritbruening commented 6 years ago

Fußnotenzählung um -2 verschoben? https://github.com/gerritbruening/faust-data/blob/03db6484b710c1858109b3e08794b3fcf44db965/faust-gen-html-issue592/EdBerichtFixed.xml#L128

gerritbruening commented 6 years ago

Worttrennungen scheinen überlebt zu haben: https://github.com/gerritbruening/faust-data/blob/03db6484b710c1858109b3e08794b3fcf44db965/faust-gen-html-issue592/EdBerichtFixed.xml#L114 (Gesamtaus­-gabe mit soft hyphen)

thvitt commented 6 years ago

z.B. wie das gepflegt werden soll,

am besten in xml, wo die anderen Sachen auch liegen.

wenn’s in tei weitergepflegt werden soll und nicht in html, ok

intro_text.php

das widerspricht dem oben aber. Kann man vielleicht über eine Aufteilung nachdenken. Das wird ja sonst ein riesenlanges Bleiwüstendokument.

Faust  <hi rend="Faust_I/II1">I</hi>

Die Absatz- / Zeichenformate und direkten Formatierungen wurden übernommen, auch geschützte Leerzeichen und bedingte Trennstriche sollten noch da sein. (Ich nehme an, im Druck ist die I leicht verkleinert.) &nbsp; bitte nicht verwenden, das gibts allenfalls in HTML. Geschützte Leerzeichen sind doch ok, wir haben ja eh UTF-8-codierte Daten.

Bei den ganzen Formatierungen muss man mal überlegen, welche wie irgendwann im HTML landen sollen, für rend="Kursiv" gibt’s ja auch keine Regeln.

gerritbruening commented 6 years ago

Mit intro_text.php meinte ich, dort soll das landen, was aus dem TEI gemacht wird. Ich bin aber sehr für eine Aufteilung, d.h. jede Überschrift oder so bekommt ein eigenes Dokument. Dann würde ich sagen, hi[rend="Faust_I/II1]" soll durch den Inhalt ersetzt werden.

gerritbruening commented 6 years ago

Können wir hier zur 1.0 noch was tun? Was ich machen kann: ein TEI bereitstellen, meinetwegen auch aufgesplittet nach präsumptiven faust-web-Seiten, mit Links auf Zeugen. Was wir da aber brauchten, wäre eine brauchbare Anzeige der note-Inhalte (Fußnoten) am rechten Rand oder so. Sonst stehen die Mittendrin, das sähe dann komisch aus. Ich könnte sie allerdings für die 1.0 auskommentieren, wenn das bis dahin nichts werden würde. Also, @thvitt, soll ich ein TEI basteln?

thvitt commented 6 years ago

wieso willst du jetzt ein TEI basteln? hatte ich doch schonmal gemacht & auch die meisten der Siglen verlinkt?

gerritbruening commented 6 years ago

basteln

d.h., über das von dir generierte drübergehen (nahm an, durch komisches ID Zeug würden komische Dinge dringstehen, aber vielleicht sind die auch egal) aber wir können es auch jetzt schon rendern, gesplittet natürlich Wo würdest du das XML hosten? Oder soll dann sowieso gleich direkt das generierte html weitergepflegt werden? (mir egal) Fußnoten gehen aber dann noch nicht?

gerritbruening commented 6 years ago

tel. mit TV

gerritbruening commented 6 years ago

https://github.com/faustedition/faust-web/issues/503

gerritbruening commented 6 years ago

Hier das Mapping:

Elemente Kontext Umsetzung  
hi rend="Kolumnelinks(MC)" p rend="Text Stumpf" raus  
hi rend="Faust_I/II1"   apply-templates
hi rend="Kursiv"   emph  
hi rend="Hochgestellt"   apply-templates
note/@n   neu durchzählen daraus Nummern
<hi rend="Kursiv" xml:space="preserve">autornah </hi> wenn möglich, trailing blank nach rechts raus, dann kann xml:space weg
<hi rend="Kursiv">C.1</hi>   gerne schonmal ein ref mit leerem @target um den Inhalt
<hi rend="Kursiv">C.3</hi>      
hi rend="Kursiv" gefolgt von hi rend="Versalziffer_kursiv_hoch" zusammen lumpen in ein emph/ref
dito dito gefolgt von hi rend="Kursiv_Hochgestellt" dito  
hi rend="Tiefgestellt"   Punkt gefolgt von text()
p rend="Teil"   raus  
p rend="Szene"   h2 das ist bei uns die höchste, oder? Sonst halt h1 usw.
p rend="Unterszene nach Szene"   h3  
p rend="Unterszene"   h3  
p rend="Unterszenenunter"   h4  
p rend="Faust I/II"   h5  
p rend="Text Hängend 1"   li  
p rend="Text Hängend römisch 1" li  
p rend="Text Hängend römisch 2" ul/li untergeordnet
p rend="Text Hängend römisch 3" dito  
p rend="Text Hs 2"   li  
<hi rend="Tiefgestellt_^_Text">^</hi>   da hast du irgendwas für, oder?
hi rend="Tiefgestellt_^"     dito
hi rend="italic"   emph  
thvitt commented 6 years ago
thvitt commented 6 years ago

ed-bericht.zip

die fussnoten regel ich dann lieber über css, (cf. tufte css)

thvitt commented 6 years ago

das gruppieren der <li> auf unterschiedlichen ebenen ist jetzt nicht automatisiert, da hab ich gerade weder zeit noch nerv zu.

gerritbruening commented 6 years ago

Danke! Ich würde das im Grundsatz dann so machen. Ist das in Ordnung? Aufteilung in sub-Seiten entlang der divs können wir uns dann noch überlegen, aber es gibt noch ein paar Suchen-und-Ersetzen-Sachen, die ich vorher gern machen würde (Anführungszeichen und so).

gerritbruening commented 6 years ago

Wenn das ungefähr das ist, was bei diesem Issue rauskommen sollte, kann @thvitt das closen, und wir regeln die weiteren Einzelheiten in faust-web.

thvitt commented 6 years ago

das mit den sidenotes klappt noch nicht … muss ich noch ein wenig schauen

thvitt commented 6 years ago

@gerritbruening, bitte für weitere anzupassende Dateien die Änderung aus https://github.com/faustedition/faust-web/commit/9a92b7f89f751ef42c9c6803208d9428e3148772 beachten. Dies bewirkt, dass für die Randnotizen Raum reserviert wird, sollte jetzt also auf jeden Bildschirm passen. Wenn’s zu schmal ist, zum Beispiel auf pure-u-4-5 ändern.

gerritbruening commented 6 years ago

Sieht gut aus, danke!