Tibetan tests and fixes #100

scossu commented 4 months ago

From our catalogers' tests:

1. LCCN 2023420419

Input text: Byang phyogs bstan ‘gro’i skyabs mgon Thams-cad-mkhyen-pa Khal-kha Er-te-ne Khu-thag-thu Blo-bzang-bstan-‘dzin-rgyal-mtshan gyi’i gsung ʼbum

Transliterate: བྱནྒ་ཕྱོགྶ་བྶྟན་གྲོཨི་སྐྱབྶ་མྒོན་ཐམྶ-ཙད-མྑྱེན-པ་ཁལ-ཁ་ཨེར-ཏེ-ནེ་ཁུ-ཐག-ཐུ་བློ-བྯནྒ-བྶྟན-དྯིན-རྒྱལ-མྟྶྷན་གྱིཨི་གྶུནྒ་བུམ།

Should look like: བྱང་ཕྱོགས་བསྟན་འགྲོའི་སྐྱབས་མགོན་ཐམས་ཅད་མཁྱེན་པ་ཁལ་ཁ་ཨེར་ཏེ་ནེ་ཁུ་ཐག་ཐུ་བློ་བཟང་བསྟན་འཛིན་རྒྱལ་མཚན་གྱིའི་གསུང་འབུམ།

Comment: It seems that third letter (yang ‘jug) always putting under second letter (rjes ‘jug) but if there is (sngon ‘jug), it is putting both underneath the first (sngon ‘jug). Such as བྶྟན it should look like བསྟན་ The first letter (sngon ‘jug) should remain as it is and third should go underneath of second letter, third letter is fine. The letter འ is not recognizing whether it is used as (sngon ‘jug) or rjes ‘jug. For example: འགྲོའི་ = གྲོཨི; གྱིའི = གྱིཨི་; འབུམ། = བུམ། For the first word, it neglect འ and in the second word it is replaced by vowel ཨི and third again ignored འ (sngon ‘jug). The use of ( – ) between name of a person is showing as it is. It should ignore it if it is a name of a person. Generally, vowels are working fine. Ca = ཅ is replaced by tsa = ཙ I checked what is showing if I type tsa and it is showing ཏྶན which is not available in Tibetan.

2. LCCN 2023420416

Input text: Rje-btsun-dam-pa sku phreng brgyad paʼi gsung ʼbum

Transliteration: རྫེ-བྟྶུན-དམ-པ་སྐུ་ཕྲེནྒ་བྲྒྱད་པཨི་གྶུནྒ་བུམ

Should look like: རྗེ་བཙུན་དམ་པ་སྐུ་ཕྲེང་བརྒྱད་པའི་གསུང་འབུམ་

3. LCCN 2023420410

Input text: Rje-btsun Thams-cad-mkhyen-pa Dge-ʼdun-rgya-mtshoʼi gsung ʼbum bzhugs so

Transliteration: རྫེ-བྟྶུན་ཐམྶ-ཙད-མྑྱེན-པ་དྒེ-དུན-རྒྱ-མཨི་གྶུནྒ་བུམ་བྯྷུགྶ་སོ

Should look like: རྗེ་བཙུན་ཐམས་ཅད་མཁྱེན་པ་དགེ་འདུན་རྒྱ་མཚོའི་གསུང་འབུམ་བཞུགས་སོ་

4. LCCN 2023420408

Input text: Sgrub thabs ʼdod ʼjoʼi bum bzang gi brgyud paʼi rim pa phyogs gcig tu bsdebs pa bzhugs so.

Transliteration: སྒྲུབ་ཐབྶ་དོད་ཛོཨི་བུམ་བྯནྒ་གི་བད་པཨི་རིམ་པ་ཕྱོགྶ་གྩིག་ཏུ་བྶྡེབྶ་པ་བྯྷུགྶ་སོ།

Should look like: སྒྲུབ་ཐབས་འདོད་འཇོའི་བུམ་བཟང་གི་བརྒྱུད་པའི་རིམ་པ་ཕྱོགས་གཅིག་ཏུ་བསྡེབས་པ་བཞུགས་སོ།

5. LCCN 2023420399

Input text: Bkaʼ gdams kyi skyes bu dam pa rnams kyi gsung bgros thor bu rnams bzhugs so.

Transliteration: བྐ་གྡམྶ་ཀྱི་སྐྱེས་བུ་དམ་པ་རྣམྶ་ཀྱི་གྶུནྒ་བྒྲོས་ཐོར་བུ་རྣམྶ་བྯྷུགྶ་སོ།

Should look like: བཀའ་གདམས་ཀྱི་སྐྱེས་བུ་དམ་པ་རྣམས་ཀྱི་གསུང་བགྲོས་ཐོར་བུ་རྣམས་བཞུགས་སོ།

Comment: Here again འ is ignored བཀའ = བྐ r and the middle letter (ming gzhi) put underneath sngon ‘jug བ. གདམས་ = གྡམྶ་ Here second letter (ming gzhi) is again put underneath of first letter (sngon ‘jug) and fourth letter sa = ས་ went underneath third letter (ma = མ ) The word skyes bu dam pa སྐྱེས་བུ་དམ་པ་ looks perfect and other word kyi = ཀྱི ; thor bu = ཐོར་བུ་ so. = སོ། all looks perfect.

scossu commented 4 months ago

