Open jim-gyas opened 2 months ago
p1 ༄༅ ། ། <utt>
ཕྱག་རྒྱ་ ཆེན་པོ་ ལྷན་ ཅིག་ སྐྱེས་ སྦྱོར་ ཟབ་ དོན་ དོན་ གྱི་ ཆུ་བོ་ སྐལ་ལྡན་ གྱི་ གདུལ་བྱ འི་ p2 ཡིད་ མཚོ ར་ འཇུག་པ འི་ འབབ་སྟེགས་ མྱུར་ བདེ་ ལམ་ གྱི་ སྙིང་པོ་ གྲུབ་ཐོབ་ བརྒྱུད་པ འི་ ཞལ་ལུང་ ཞེས་ བྱ་བ་ བཞུགས་ སོ ། ། <utt>
༄༅ ། ། <utt>
ན་མོ་ མཧཱ་ གུ་ རུ་ བཛྲེ་ ཤྭ་ ར་མ་ཏི་ རཏྣ་ཌཱ་ཀི་ནཱི་ ཛྭ་ ལ་ ས་ མ་ བ་ར་ སརྦ་ བི་ར་ ཡོ་ གི་ ནཱི་ ཡེ ། <utt>
ཆོས་རྗེ་ བླ་མ་ དེ་བཞིན་གཤེགས་པ་ ཀུན་ མཁྱེན་ དཔའ་བོ འི་ ཞབས་ ལ་ ཕྱག་ འཚལ་ ལོ ། ། <utt>
ཁྱབ་བདག་ རྡོ་རྗེ་ རྡུལ་བྲལ་ སྤང་ མིན་ དུས་ ཀྱི་ རྣམ་དབྱེ ར་ མེད་ ཆོས་སྐྱོབ་པ་ མཆོག་ དེ་ དང་པོ འི་ མཚན ། ། <utt>
ཇི་ ལྟ ར་ སྣང་ དངོས་ ཉིད་ ལས་ གཞན་ དེ་ རབ་ ཕྲ འི་ ཆ་ རྡུལ་ མིན་ ཕྱི ར་ མངོན་སུམ་ ཉིད་ གྱུར་ ཟབ་ རྒྱས་ དབྱིངས ། ། <utt>
དེ་ ཆོས་ ཡོད་མེད་ མིན་ གཉིས་ གཞན་ མིན་ བློ ས་ མཚོན་ མངོན་པ ར་ ཤེས་ ལྔ ས་ ཀྱང་ མིན་ ཆེས་ གསང་ མཆོག་ གི་ སྐུ ། ། <utt>
ཁ་སྦྱོར་ བདེ་ རྒྱས་ བདེ་གཤེགས་ སྤྲོ་ མཛད་ ལྷན་ སྐྱེས་ བླ་མ་ བདག་ སྙིང་ དབུས་ གནས་ གཉིས་ མེད་ ཕྱག་ གིས་ མཆོད ། ། <utt>
བླ་མེད་ གསང་དོན་ སྲིད་ཞི་མཉམ་སྦྱོར་ ཞི་བ་ དམ་པ འི་ ཆོས ། ། <utt>
གང་ གིས་ དྲིན་ གསལ་ བདག་ བློ ར་ ཉེར་ སྣང་ ཆ་ ཤས་ མྱོང་ དོན་ འདི ། ། <utt>
སྐྱེས་བུ་ བློ་གྲོས་ ལྡན་ མིན་ རྗེས་དཔག་ སྤང་ བྱེད་ རབ་གསལ་ ཚིག ། <utt>
མངོན་ སྤྲོ་ གང་ གིས་ སྲིད་ རྒྱུད་ ཡེ་ཤེས་ མཆོག་ ཏུ་ སྣང་བྱེད་ འཚལ ། ། <utt>
༈ དེ་ ཡང་ དུས་ གསུམ་ གྱི་ བདེ་བ ར་ གཤེགས་པ་ ཐམས་ཅད་ ཀྱི་ འབྱུང་ གནས ། <utt>
རི་རབ་ རྡུལ་ སྙེད་ ཀྱི་ དཔའ་བོ་ དང་ རྣལ་འབྱོར་མ་ རྣམས་ ཀྱི་ ཡབ་ཡུམ་ གསང་བ་ ལས་ མཆོག་ ཏུ་ གསང་བ འི་ ལྷན་ ཅིག་ སྐྱེས་པ་ ཡབ་ཡུམ་ དེ་ ཉིད་ ནི ། <utt>
སྒྲིབ་ གསུམ་ བདུད་ སྡེ འི་ དཔུང་ཚོགས་ ལ་ ཆེས་ ཆེ ར་ རབ་ ཏུ་ ཁྲོས་ ཤིང་ ། <utt>
མཆོག་ ཏུ་ མི་ འགྱུར་བ འི་ བདེ་བ་ ཆེན་པོ ས་ ཡོངས་ སུ་ གང་བ ། <utt>
གང་ དང་ གང་ ལ འང་ ལྷན་ ཅིག་ སྐྱེས་པ ར་ ལྷང་ངེ་ ལྷན་ནེ་ ལྷམ་ མེར་ བཞུགས་པ འོ ། ། <utt>
དེ་ ཉིད་ ཀྱི་ དོན་ ཟབ་མོ་ མངོན་ དུ་ ཕྱུང་བ ར་ མཛད་པ་ ཨོ་ རྒྱན་ ཆོས་སྐུ་ མཁའ་འགྲོ་མ འི་ བཀའ་ རྣལ་འབྱོར་ གྱི་ དབང་ཕྱུག་ ཏཻ་ ལོ་པ་ ཆེན་པོ་ ནས་ རིམ་པ་ བཞིན་ བཀའ་ བརྒྱུད་ ཀྱི་ བླ་མ་ རྣམས་ ཟག་མེད་ བདེ་བ་ ཆེན་པོ འི་ དབྱིངས་ སུ ། <utt>
ལྷན་ ཅིག་ སྐྱེས་པ་ འགྱུར་མེད་ རྡོ་རྗེ འི་ སྐུ་ བརྙེས་པ ར་ གྱུར་པ འི་ སྙན་བརྒྱུད་ ཞལ་ གྱི་ གདམས་པ་ ཕྱག་རྒྱ་ ཆེན་པོ་ ལྷན་ ཅིག་ སྐྱེས་ སྦྱོར་ གྱི་ གདམས་པ་ བྱ་བ་ ཞིག་ སྟོན་པ ར་ བྱེད་པ་ ཡིན་ ཏེ ། <utt>
[
{
"source": "༄༅།།",
"target": "༄༅ ། །"
},
{
"source": "ཕྱག་རྒྱ་ཆེན་པོ་ལྷན་ཅིག་སྐྱེས་སྦྱོར་ཟབ་དོན་དོན་གྱི་ཆུ་བོ་སྐལ་ལྡན་གྱི་གདུལ་བྱའི་",
"target": "ཕྱག་རྒྱ་ ཆེན་པོ་ ལྷན་ ཅིག་ སྐྱེས་ སྦྱོར་ ཟབ་ དོན་ དོན་ གྱི་ ཆུ་བོ་ སྐལ་ལྡན་ གྱི་ གདུལ་བྱ འི་"
},
{
"source": "ཡིད་མཚོར་འཇུག་པའི་འབབ་སྟེགས་མྱུར་བདེ་ལམ་གྱི་སྙིང་པོ་གྲུབ་ཐོབ་བརྒྱུད་པའི་ཞལ་ལུང་ཞེས་བྱ་བ་བཞུགས་སོ།།",
"target": "ཡིད་ མཚོ ར་ འཇུག་པ འི་ འབབ་སྟེགས་ མྱུར་ བདེ་ ལམ་ གྱི་ སྙིང་པོ་ གྲུབ་ཐོབ་ བརྒྱུད་པ འི་ ཞལ་ལུང་ ཞེས་ བྱ་བ་ བཞུགས་ སོ ། །"
},
{
"source": "༄༅།།",
"target": "༄༅ ། །"
},
{
"source": "ན་མོ་མཧཱ་གུ་རུ་བཛྲེ་ཤྭ་ར་མ་ཏི་རཏྣ་ཌཱ་ཀི་ནཱི་ཛྭ་ལ་ས་མ་བ་ར་སརྦ་བི་ར་ཡོ་གི་ནཱི་ཡེ།",
"target": "ན་མོ་ མཧཱ་ གུ་ རུ་ བཛྲེ་ ཤྭ་ ར་མ་ཏི་ རཏྣ་ཌཱ་ཀི་ནཱི་ ཛྭ་ ལ་ ས་ མ་ བ་ར་ སརྦ་ བི་ར་ ཡོ་ གི་ ནཱི་ ཡེ །"
},
# sent_id = bu_ston:001a:T1
# text = བདེ་བར་གཤེགས་པའི་བསྟན་བའི་གསལ་བྱེད་ཆོས་ཀྱི་འབྱུང་གནས་གསུང་རབ་རིན་པོ་ཆེའི་མཛོད་ཅེས་བྱ་བ།
1 བདེ་བ བདེ་བ་ VERB _ VerbForm=Vnoun 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T1
2 ར་ དུ་√case ADP _ Case=Ter 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T2
3 གཤེགས་པ གཤེགས་ VERB _ VerbForm=Vnoun 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T3
4 འི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T4
5 བསྟན་བ སྟོན་ VERB _ Tense=Fut|VerbForm=Vnoun 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T5
6 འི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T6
7 གསལ་བྱེད་ཆོས་ གསལ་བྱེད་ཆོས་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T7
8 ཀྱི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T8
9 འབྱུང་གནས་གསུང་རབ་ འབྱུང་གནས་གསུང་རབ་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T9
10 རིན་པོ་ཆེ རིན་པོ་ཆེ་ ADJ _ _ 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T10
11 འི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T11
12 མཛོད་ མཛོད་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T12
13 ཅེས་ ཅེས་ VERB _ Mood=Qot 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T13
14 བྱ་བ བྱེད་ VERB _ Tense=Fut|VerbForm=Vnoun 0 root _ SpaceAfter=No|Tokenid=bu_ston:001a:T14
15 ། ། PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=bu_ston:001a:T15
[
{
"source": "བདེ་བར་གཤེགས་པའི་བསྟན་བའི་གསལ་བྱེད་ཆོས་ཀྱི་འབྱུང་གནས་གསུང་རབ་རིན་པོ་ཆེའི་མཛོད་ཅེས་བྱ་བ།",
"target": "བདེ་བ ར་ གཤེགས་པ འི་ བསྟན་བ འི་ གསལ་བྱེད་ཆོས་ ཀྱི་ འབྱུང་གནས་གསུང་རབ་ རིན་པོ་ཆེ འི་ མཛོད་ ཅེས་ བྱ་བ །"
},
{
"source": "བཅོམ་ལྡན་འདས་ཤཱཀྱ་སེང་གེ་ལ་ཕྱག་འཚལ་ལོ།།",
"target": "བཅོམ་ལྡན་འདས་ ཤཱཀྱ་སེང་གེ་ ལ་ ཕྱག་ འཚལ་ ལོ ། །"
},
{
"source": "གང་ཞིག་ཐུགས་བསྐྱེད་དགེ་ཚོགས་བདུད་རྩིའི་ཟས་ཅན་ལས་བྱུང་བརྣག་དཀའི་བཟོད་པས་གཟི་དཔལ་འབར་བ།།",
"target": "གང་ ཞིག་ ཐུགས་བསྐྱེད་དགེ་ཚོགས་བདུད་རྩི འི་ ཟས་ཅན་ ལས་ བྱུང་ བརྣག་དཀ འི་ བཟོད་པ ས་ གཟི་དཔལ་ འབར་བ ། །"
},
ང་ཚོ/ས་/གདུང་སེམས་/དྲག་པོ/ས་/ཁོང་/ཉིད་/ལ་/མྱ་ངན་ཞུ་བ་/དང་/ཆབས་ཅིག་/ཨ་དཀོན་/རིན་པོ་ཆེ/ས་/བོད་ཡུལ་/དུ་/མཛད་འཕྲིན་/གནང་ཚུལ་/རགས་ཙམ་/མཚམས་སྦྱོར་/ཞུ/།/
དེ་ཡང་/ཁྱོན་/བོད་ལྗོངས་/ས་གནས་/བཞི་བཅུ་/ཞེ་བདུན་/ལ་/བཤད་གྲྭ་/བརྒྱད/།/ དགེ་རྒན་/སློབ་གྲྭ་/གཉིས/།/ གསོ་རིག་/སློབ་གྲྭ་/གསུམ/།/ དྭ་ཕྲུག་/སློབ་གྲྭ་ཆུང་འབྲིང་/དག་/གི་/ཕོགས་དངུལ་/གནང་བ་/དང་/།/
ས་ཁུལ་/ཁག་/གཉིས་/སུ་/དྲོད་ཁང་/གཉིས་/བསྐྲུན་/ནས་/སྔོ་ཚལ་/འདེབས་འཛུགས་/རྟེན་གཞི་/བཙུགས་པ་/དང་/།/
བོད་ལྗོངས་/གསོ་རིག་/སློབ་གྲྭ་ཆེན་མོ/ར/།/ སྡེ་དགེ/།/ འདའ་/པ/།/ ཆབ་མདོ་/སོགས་/ནས་/ཟབ་སྦྱོང་/མཛད་པ/འི་/སློབ་མ་/བཞི་བཅུ་/ཙམ་/ལ་/སློབ་ཡོན་/དང་/ཟས་/རིན་/ཁང་གླ་/བཅས་/གནང་/།/
བོད་/ཀྱི་/གསོ་རིག་/བརྒྱུད་འཛིན་/དང་/དར་སྤེལ་/ཡོང་བ/འི་/ཆེད་དུ་/མཁན་ཆེན་/ཚེ་རྣམ་/རིན་པོ་ཆེ/ས་/གཙོས་/བོད་ལྗོངས་/སྨན་རྩིས་ཁང་/གི་/སྨན་པ་/མཁས་པ་/ཉི་ཤུ་/ནས་/སུམ་ཅུ/འི་/བར་/རྩ་འཛུགས་/བྱས་ནས་/དགུན་ཟླ་གསུམ་/གྱི་/རིང་/ལ་/རྒྱུད་བཞི/འི་/འགྲེལ་བ་/བརྩམ་/རྒྱུ/།/ མན་ངག་/ཟབ་མོ/འི་/སློབ་སྦྱོང་/གནང་བ/འི་/མཐུན་རྐྱེན་/གྱི་/ཕོགས་དངུལ་/དང་/།/ གསོ་རིག་/བསྟན་བཅོས་/རྣམས་/ཀྱི་/དཀར་ཆག་/བསྒྲིག་/རྒྱུ་/བཅས་/ཀྱི་/རོགས་དངུལ་/གནང་བ/ར་/མཛད་/དོ/།།/
སི་ཁྲོན་/ཞིང་ཆེན་/ལ/།/ སློབ་གྲྭ་/ཞེ་བདུན/།/ སློབ་མ་/གྲངས་/སུམ་སྟོང་/སོ་དགུ/།/ བཤད་གྲྭ་/བཅོ་ལྔ/།
# sent_id = otannals:000:T55
# text = [---]་འཁུས་ནས། སྙྀང་དྲུང་[---]་པར། མཐའ་དག་གྱང་[---]་སྣང་གློ་བ་རྀངས་ནས། ཁོ་ནའྀ་བྲན་པ་ཙབ་གྱྀམ་པོ་[---]་བཀྱོན་ཕབ་ནས་བཀུམོ།
# text_en = ... became treacherous, and at Snying-drung ... [Myang Mang-po-rje Zhang-snang bought about the submission] of all the Sum-pa also. [Then after x years when Myang Zhang-]snang became disloyal, his subject Pa-tsab [betrayed him so that Zhang-snang] was accused and put to death.
1 [---]་ [---]་ X _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T55
2 འཁུས་ འཁུ་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=otannals:000:T36
3 ནས ནས་√cv ADP _ Case=Ela 0 root _ SpaceAfter=No|Tokenid=otannals:000:T32
4 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otannals:000:T77
5 སྙྀང་དྲུང་ སྙིང་དྲུང་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T33
6 [---]་པ [---]་པ་ X _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T70
7 ར དུ་√case ADP _ Case=Ter 0 root _ SpaceAfter=No|Tokenid=otannals:000:T23
8 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otannals:000:T76
9 མཐའ་དག་ མཐའ་དག་ ADJ _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T34
10 གྱང་ འང་√cl PART _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T35
11 [---]་ [---]་ X _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T71
12 སྣང་ སྣང་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T37
13 གློ་བ་ གློ་བ་ NOUN _ _ 14 arg2:lvc _ SpaceAfter=No|Tokenid=otannals:000:T69
14 རྀངས་ རིངས་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=otannals:000:T68
15 ནས ནས་√cv SCONJ _ Case=Ela 0 root _ SpaceAfter=No|Tokenid=otannals:000:T17
16 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otannals:000:T78
17 ཁོ་ན ཁོ་ན་ PRON _ PronType=Prs 0 root _ SpaceAfter=No|Tokenid=otannals:000:T38
18 འྀ་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=otannals:000:T25
19 བྲན་ བྲན་ NOUN _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T40
20 པ་ཙབ་ པ་ཙབ་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T39
21 གྱྀམ་པོ་ གྱིམ་པོ་ NOUN _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T67
22 [---]་ [---]་ X _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T72
23 བཀྱོན་ བཀྱོན་ NOUN _ _ 24 arg2 _ SpaceAfter=No|Tokenid=otannals:000:T42
24 ཕབ་ འབེབས་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=otannals:000:T41
25 ནས་ ནས་√cv SCONJ _ Case=Ela 0 root _ SpaceAfter=No|Tokenid=otannals:000:T28
26-27 བཀུམོ _ _ _ _ _ _ _ SpaceAfter=No
26 བཀུམ་ འགུམས་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=otannals:000:T43
27 མོ འོ་√cv PART _ Mood=Ind 0 root _ SpaceAfter=No|Tokenid=otannals:000:T20
28 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otannals:000:T79
# sent_id = otannals:000:T44
# text = མཁར་སྡུར་བ་བཤྀག་གོ། [---]།
# text_en = The stronghold Sdur-ba was destroyed.
1 མཁར་ མཁར་ NOUN _ _ 3 arg2 _ SpaceAfter=No|Tokenid=otannals:000:T44
2 སྡུར་བ་ སྡུར་བ་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T45
3 བཤྀག་ འཇིག་√2 VERB _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T46
4 གོ འོ་√cv PART _ Mood=Ind 0 root _ SpaceAfter=No|Tokenid=otannals:000:T18
5 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otannals:000:T93
6 [---] [---]་ X _ _ 0 root _ SpaceAfter=No|Tokenid=otannals:000:T73
7 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otannals:000:T74
# sent_id = conflict:001:T1
# text = “ཁུན་མིང་དོན་རྐྱེན་ལས་མི་རིགས་ས་ཁོངས་རང་སྐྱོང་གི་སྲིད་ཇུས་ལ་ཕྱིར་རྟོག་བྱེད་པ”ཞེས་པ་དེ་ནི་བརྩམས་ཆོས་ལེགས་པོ་ཞིག་ཡིན་པར་ང་རང་ཡིད་ཆེས་བརྟན་པོ་ཡོད།
# text_en = The article, “Rethinking the Policy of Regional Ethnic Autonomy in Light of the Kunming Incident” by Liu Junning is undoubtedly a thoughtful piece,
1 “ཁུན་མིང་དོན་ “ཁུན་མིང་དོན་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=conflict:001:T1
2 རྐྱེན་ རྐྱེན་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=conflict:001:T2
3 ལས་ ལས་√case ADP _ Case=Abl 0 root _ SpaceAfter=No|Tokenid=conflict:001:T3
4 མི་ མི་√neg PART _ Polarity=Neg 0 root _ SpaceAfter=No|Tokenid=conflict:001:T4
5 རིགས་ རིགས་ VERB _ Tense=Fut/Pres 0 root _ SpaceAfter=No|Tokenid=conflict:001:T5
6 ས་ གྱིས་√case ADP _ Case=Agn 0 root _ SpaceAfter=No|Tokenid=conflict:001:T6
7 ཁོངས་ ཁོངས་ NOUN _ NounType=Rel 0 root _ SpaceAfter=No|Tokenid=conflict:001:T7
8 རང་ རང་√p PRON _ Reflex=Yes 0 root _ SpaceAfter=No|Tokenid=conflict:001:T8
9 སྐྱོང་ སྐྱོང་ VERB _ Tense=Pres 0 root _ SpaceAfter=No|Tokenid=conflict:001:T9
10 གི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=conflict:001:T10
11 སྲིད་ སྲིད་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=conflict:001:T11
12 ཇུས་ ཇུས་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=conflict:001:T12
13 ལ་ ལ་√case ADP _ Case=All 0 root _ SpaceAfter=No|Tokenid=conflict:001:T13
14 ཕྱིར་རྟོག་ ཕྱིར་རྟོག་ NOUN _ _ 15 arg2 _ SpaceAfter=No|Tokenid=conflict:001:T14
15 བྱེད་ བྱེད་ VERB _ Tense=Pres 0 root _ SpaceAfter=No|Tokenid=conflict:001:T17
16 པ”ཞེས་པ་ པ”ཞེས་པ་ PRON _ PronType=Int 0 root _ SpaceAfter=No|Tokenid=conflict:001:T18
17 དེ་ དེ་√d DET _ PronType=Dem 0 root _ SpaceAfter=No|Tokenid=conflict:001:T19
18 ནི་ ནི་√cl PART _ _ 0 root _ SpaceAfter=No|Tokenid=conflict:001:T20
19 བརྩམས་ རྩོམ་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=conflict:001:T21
20 ཆོས་ ཆོས་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=conflict:001:T22
21 ལེགས་པོ་ ལེགས་པོ་ ADJ _ _ 0 root _ SpaceAfter=No|Tokenid=conflict:001:T23
22 ཞིག་ ཅིག་√d DET _ PronType=Ind 0 root _ SpaceAfter=No|Tokenid=conflict:001:T24
23 ཡིན་པ ཡིན་པ་ AUX _ VerbForm=Vnoun 0 root _ SpaceAfter=No|Tokenid=conflict:001:T25
24 ར་ དུ་√case ADP _ Case=Ter 0 root _ SpaceAfter=No|Tokenid=conflict:001:T26
25 ང་ ང་√p PRON _ PronType=Prs 29 arg1 _ SpaceAfter=No|Tokenid=conflict:001:T27
26 རང་ རང་√p PRON _ Reflex=Yes 0 root _ SpaceAfter=No|Tokenid=conflict:001:T28
27 ཡིད་ ཡིད་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=conflict:001:T29
28 ཆེས་བརྟན་པོ་ ཆེས་བརྟན་པོ་ NOUN _ Number=Sing 29 arg2 _ SpaceAfter=No|Tokenid=conflict:001:T30
29 ཡོད ཡོད་ VERB _ _ 0 root _ SpaceAfter=No|Tokenid=conflict:001:T31
30 ། ། PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=conflict:001:T32
# sent_id = otchronicle:001:T80
# text = མཚོ་ཡང་མ་སྐམས་སྤང་ཡང་མྱེས་མ་ཚིག་ཅེས་བགྱིསྣ།
1 མཚོ་ མཚོ་ NOUN _ Number=Sing 4 arg1 _ SpaceAfter=No|Tokenid=otchronicle:001:T80
2 ཡང་ འང་√cl PART _ _ 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T81
3 མ་ མ་√neg PART _ Polarity=Neg 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T82
4 སྐམས་ སྐམ་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T83
5 སྤང་ སྤང་ NOUN _ Number=Sing 10 arg2 _ SpaceAfter=No|Tokenid=otchronicle:001:T84
6 ཡང་ རྒྱུང་ PART _ _ 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T85
7 མྱེ མེ་ NOUN _ Number=Sing 10 arg1 _ SpaceAfter=No|Tokenid=otchronicle:001:T86
8 ས་ ས་ ADP _ Case=Agn 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T87
9 མ་ མ་ PART _ Polarity=Neg 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T88
10 ཚིག་ འཚིག་ VERB _ Tense=Past 12 argcl _ SpaceAfter=No|Tokenid=otchronicle:001:T89
11 ཅེས་ ཅེས་√cl PART _ Mood=Qot 0 root _ SpaceAfter=No|Tokenid=otchronicle:001:T90
12-13 བགྱིསྣྣྟོ _ _ _ _ _ _ _ SpaceAfter=No
12 བགྱིས་ བགྱིད་ VERB _ Tense=Past 0 root _ SpaceAfter=No
13 ན ན་ SCONJ _ Case=Loc 0 root _ SpaceAfter=No
14 ། །་ PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=otchronicle:001:T91
# sent_id = japanese:001:T19
# text = ཁོར་ཡུག་གི་རྐྱེན་པས་བདག་གི་མི་ཚེའི་ནང་རི་པིན་དང་། འཇར་པན། ཉི་ཧོང་བཅས་ཡུལ་གྲུ་གཅིག་ལ་མིང་འབོད་སྟངས་མི་འདྲ་བ་གསུམ་བྱུང་ལ།
# text_en = Because of my surroundings they have been three distinct ways of referring to Japan. Ri bin (རི་པིན་) from the Chinese 'Rìběn' (日本), Jar pan (འཇར་པན་) from the English 'Japan' and Nyi hong (ཉི་ཧོང་) from the Japanese 'Nihon' (日本).
1 ཁོར་ཡུག་ ཁོར་ཡུག་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T19
2 གི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=japanese:001:T20
3 རྐྱེན་པ རྐྱེན་པ་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T21
4 ས་ གྱིས་√case ADP _ Case=Agn 0 root _ SpaceAfter=No|Tokenid=japanese:001:T22
5 བདག་ བདག་√p PRON _ PronType=Prs 0 root _ SpaceAfter=No|Tokenid=japanese:001:T23
6 གི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=japanese:001:T24
7 མི་ མི་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T25
8 ཚེ ཚེ་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T26
9 འི་ གྱི་√case ADP _ Case=Gen 0 root _ SpaceAfter=No|Tokenid=japanese:001:T27
10 ནང་ ནང་ NOUN _ NounType=Rel 0 root _ SpaceAfter=No|Tokenid=japanese:001:T28
11 རི་པིན་ རི་པིན་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T29
12 དང་ དང་√case ADP _ Case=Com 0 root _ SpaceAfter=No|Tokenid=japanese:001:T30
13 ། ། PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=japanese:001:T31
14 འཇར་ འཇར་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T33
15 པན པན་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=japanese:001:T34
16 ། ། PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=japanese:001:T35
17 ཉི་ཧོང་ ཉི་ཧོང་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T37
18 བཅས་ བཅས་ VERB _ _ 0 root _ SpaceAfter=No|Tokenid=japanese:001:T38
19 ཡུལ་ ཡུལ་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T39
20 གྲུ་གཅིག་ གྲུ་གཅིག་ PROPN _ _ 0 root _ SpaceAfter=No|Tokenid=japanese:001:T40
21 ལ་ ལ་√case ADP _ Case=All 0 root _ SpaceAfter=No|Tokenid=japanese:001:T41
22 མིང་ མིང་ NOUN _ Number=Sing 0 root _ SpaceAfter=No|Tokenid=japanese:001:T42
23 འབོད་སྟངས་ འབོད་སྟངས་ NOUN _ Number=Sing 27 arg2 _ SpaceAfter=No|Tokenid=japanese:001:T43
24 མི་ མི་√neg PART _ Polarity=Neg 0 root _ SpaceAfter=No|Tokenid=japanese:001:T44
25 འདྲ་བ་ འདྲ་བ་ NOUN _ _ 0 root _ SpaceAfter=No|Tokenid=japanese:001:T12
26 གསུམ་ གསུམ་ NUM _ NumType=Card|NumForm=Word 0 root _ SpaceAfter=No|Tokenid=japanese:001:T46
27 བྱུང་ འབྱུང་ VERB _ Tense=Past 0 root _ SpaceAfter=No|Tokenid=japanese:001:T47
28 ལ ལ་√cv SCONJ _ Case=All 0 root _ SpaceAfter=No|Tokenid=japanese:001:T48
29 ། ། PUNCT _ _ 0 root _ SpaceAfter=Yes|Tokenid=japanese:001:T49
[
{
"source": "ཁོར་ཡུག་གི་རྐྱེན་པས་བདག་གི་མི་ཚེའི་ནང་རི་པིན་དང་། འཇར་པན། ཉི་ཧོང་བཅས་ཡུལ་གྲུ་གཅིག་ལ་མིང་འབོད་སྟངས་མི་འདྲ་བ་གསུམ་བྱུང་ལ།",
"target": "ཁོར་ཡུག་ གི་ རྐྱེན་པ ས་ བདག་ གི་ མི་ ཚེ འི་ ནང་ རི་པིན་ དང་ ། འཇར་ པན ། ཉི་ཧོང་ བཅས་ ཡུལ་ གྲུ་གཅིག་ ལ་ མིང་ འབོད་སྟངས་ མི་ འདྲ་བ་ གསུམ་ བྱུང་ ལ །"
},
{
"source": "དེང་གི་དུས་འདིར་ཉི་ཧོང་ཞེས་པ་ཅུང་འབོད་བདེ་བར་སྣང་།",
"target": "དེང་ གི་ དུས་ འདི ར་ ཉི་ཧོང་ ཞེས་པ་ ཅུང་ འབོད་ བདེ་བ ར་ སྣང་ །"
},
{
"source": "༢༠༠༩ལོའི་ཟླ་བ་བཅུ་གཉིས་པར། ང་རང་ཉི་ཧོང་དུ་སྤྲོ་འཆམ་ལ་སོང་བ་དང་།",
"target": "༢༠༠༩ ལོའི་ ཟླ་བ་ བཅུ་ གཉིས་པ ར ། ང་ རང་ ཉི་ཧོང་ དུ་ སྤྲོ་འཆམ་ ལ་ སོང་བ་ དང་ །"
},
@TenzinGayche, this is my current code for deduplication, but I'm encountering the following error.
def create_deduplicated_json_file(input_file, output_file, chunk_size=1000):
"""
Reads a JSON file, deduplicates the 'source' texts using MinHash and LSH from datasketch,
and creates a HuggingFace dataset with 'source', 'target', and 'filename' columns.
The deduplicated dataset is saved to a JSON file in chunks to reduce memory usage.
Args:
input_file (str): Path to the input JSON file.
output_file (str): Output file path for the deduplicated dataset.
chunk_size (int): Number of entries to process at a time to reduce memory usage.
Returns:
Dataset: A HuggingFace dataset containing deduplicated 'source', 'target', and file names.
"""
# Load the JSON data from the file in chunks
with open(input_file, 'r', encoding='utf-8') as f:
json_data = json.load(f)
unique_sources = []
unique_targets = []
unique_file_names = []
duplicated_entries = []
lsh = datasketch.MinHashLSH(threshold=0.9, num_perm=128)
minhashes = {}
for start_idx in tqdm(range(0, len(json_data), chunk_size), desc="Processing JSON data in chunks"):
chunk = json_data[start_idx:start_idx + chunk_size]
for idx, entry in enumerate(chunk):
source_text = entry['source']
target_text = entry['target']
file_name = entry['filename'] # Use the filename provided in the JSON
# Create a MinHash object for the source text
minhash = datasketch.MinHash(num_perm=128)
for word in set(source_text.split()):
minhash.update(word.encode('utf8'))
# Check for duplicates in LSH index
if not lsh.query(minhash):
# Insert unique source into LSH index
lsh.insert(start_idx + idx, minhash)
minhashes[start_idx + idx] = minhash
unique_sources.append(source_text)
unique_targets.append(target_text)
unique_file_names.append(file_name)
else:
duplicated_entries.append(file_name) # Track the duplicate file
# Create a HuggingFace dataset
dataset_dict = {
'source': unique_sources,
'target': unique_targets,
'file_name': unique_file_names
}
dataset = Dataset.from_dict(dataset_dict)
# Save deduplicated dataset to JSON file
with open(output_file, 'w', encoding='utf-8') as f:
json.dump(dataset_dict, f, ensure_ascii=False, indent=4)
# Print out duplicated fields
if duplicated_entries:
print(f"Duplicated entries (files): {duplicated_entries}")
else:
print("No duplicates found.")
return
/opt/homebrew/Cellar/python@3.12/3.12.3/Frameworks/Python.framework/Versions/3.12/lib/python3.12/multiprocessing/resource_tracker.py:254: UserWarning: resource_tracker: There appear to be 1 leaked semaphore objects to clean up at shutdown
warnings.warn('resource_tracker: There appear to be %d '
Description We want all the opensource Tibetan word segmented data and save it in a standard format. The format should be:
Here are some opensource data we have found.
@jim-gyas kindly search for more of such segmented data by checking through research paper on tibetan word segmentation Have found another segmented data
DeDuplication Repo: https://github.com/OpenPecha/DeDuplication
Subtask: