Isidore-Guild / statenvertaling

OSIS Statenvertaling (Dutch) with apocrypha
Creative Commons Zero v1.0 Universal
5 stars 2 forks source link

Hyphenated words contain a spurious space after the hyphen #9

Closed DavidHaslam closed 4 years ago

DavidHaslam commented 4 years ago

All the hyphenated words marked in part by a Strong's number contain a spurious space after the hyphen.

Furthermore, the scope of the OSIS w element for the lemma is incorrect for most if not all such hyphenated words.

The latter is also "probably due to a regular expression having picked the wrong word to align with"!

DavidHaslam commented 4 years ago

Here's a complete counted list of the words that end wrongly with a hyphen.

15  Abed-
7   Abel-
1   Abel-beth-
9   Abi-
1   Adami-
5   Adoni-
1   Ahi-
1   Aholi-
1   Allon-
2   Almon-
1   Am-
1   Ar-
1   Asa-
4   Asdoth-
1   Asnoth-
1   Asteroth-
3   Atroth-
1   Bamoth-
14  Bar-
2   Bath-
35  Baäl-
1   Baälath-
1   Baälim-
3   Beer-
1   Beeroth-bene-
1   Belials-
5   Ben-
3   Bene-
32  Ber-
176 Beth-
1   Beth-baal-
10  Bethlehem-
1   Bikeat-
1   Biz-
1   Chefar-
1   Chelkath-
1   Chisloth-
1   Chor-
1   Dan-
2   Dibon-
6   Ebed-
3   Eben-
1   Elon-
1   Elon-beth-
1   Emek-
17  En-
3   Esar-
2   Eth-
7   Ezeon-
6   Gath-
1   Geba-
1   Geruth-
7   Gibea-
1   Gur-
12  Hadad-
9   Hadar-
1   Hamath-
1   Hammoth-
3   Havvoth-
12  Hazar-
2   Hazezon-
1   Hazor-
1   Hefzi-
2   Hor-
2   Ir-
1   Jaare-
1   Jedid-
1   Jegar-
1   Jesua-
1   Jiftah-
1   Jiftha-
1   Jig-
10  Kades-
1   Kaleb-
1   Kedes-
5   Kedor-
1   Keren-
1   Kerioth-
3   Kibroth-
6   Kir-
1   Kiriath-
33  Kirjath-
2   Kol-
3   Lachai-
1   Machane-
2   Magor-
6   Mahalal-
4   Malchi-
1   Mar-
1   Maran-
2   Me-
1   Mee-
4   Merib-
1   Meteg-
3   Migdal-
1   Mis-
2   Misrefoth-
1   Morescheth-
1   Muth-
1   Nafath-
1   Nafoth-
1   Nathan-
3   Nergal-
20  Obed-
10  Paddan-
6   Pahath-
1   Pas-
2   Perez-
3   Pi-
1   Pir-
1   Pocheret-
4   Rab-
2   Ramath-
1   Ramathaim-
1   Regem-
3   Rimmon-
2   Romamthi-
1   Samgar-
1   Schave-
1   Schear-
1   Sela-
1   Sichor-
1   Simron-
4   Sthar-
1   Syrië-
1   Syro-
3   Tel-
1   Thaanath-
2   Thab-
2   Thel-
1   Thimnath-
6   Tiglath-
2   Timnath-
1   Tob-
2   Tubal-
1   Uzzen-
1   Zeret-
1   basiliskus-
2   dertig-
3   dromen-
1   dubbel-loons-
1   fijn-
3   gelijk-
2   honderd-
1   ijdel-
1   mede-
7   rechter-
2   schrijvers-
1   turkoois-
3   vuil-
4   zestig-

In the above list, the count total is 687. All except the last 14 lines are capitalised proper names.

In the file STV.xml the total count of - is 718, so my extracted words list must have some omissions.

cf. In the file STVA.xml there are none.

lemtom commented 4 years ago

Should be resolved with the latest changes.

One instance that I found of a hyphen space followed by a space (rechter -) is an example of contraction in Dutch, I have moved this hyphen inside the <w> for clarity.

DavidHaslam commented 4 years ago

In the original diatheke output file there were 7 matches to the pattern - , like you observed for rechter -,. These were

Matthew 13:8: En een ander deel viel in de goede aarde, en gaf vrucht, het een honderd- , het ander zestig- , en het ander dertig voud.
Matthew 13:23: Die nu in de goede aarde bezaaid is, deze is degene, die het Woord hoort en verstaat, die ook vrucht draagt en voortbrengt, de een honderd- , de ander zestig- , en de ander dertig voud.
Matthew 20:21: En Hij zeide tot haar: Wat wilt gij? Zij zeide tot Hem: Zeg, dat deze mijn twee zonen zitten mogen, de een tot Uw rechter- , en de ander tot Uw linker hand in Uw Koninkrijk.
Matthew 20:23: En Hij zeide tot hen: Mijn drinkbeker zult gij wel drinken, en met den doop, waarmede Ik gedoopt worde, zult gij gedoopt worden; maar het zitten tot Mijn rechter- , en tot Mijn linker hand, staat bij Mij niet te geven, maar het zal gegeven worden dien het bereid is van Mijn Vader.
Matthew 27:38: Toen werden met Hem twee moordenaars gekruisigd, een ter rechter- , en een ter linker zijde.

The first two verses above contained two such instances.