OpenPecha / word-define-format

MIT License
0 stars 0 forks source link

MT0032: Word and Definition Format #1

Open jim-gyas opened 2 weeks ago

jim-gyas commented 2 weeks ago

Description:

The objective is to create scripts that parse dictionary data from different sources and formats, transforming them into a structured JSON format. Each word and its corresponding definition will be organized in a JSON file with "word" and "definition" fields, enabling easy access and processing. The scripts will handle text-based dictionaries and database extractions, ensuring the data is well-formatted for further usage.

Resources:

Completion Criteria:

Subtasks :

jim-gyas commented 2 weeks ago

From Txt File Dictionaries

[
    {
        "word": "ཀ",
        "definition": "བོད་ཡིག་གསལ་བྱེད་དང་པོ་འདིའི་ང་རོ་འདོན་ཚུལ་ལ་སྐྱེ་གནས་མགྲིན་པ་དང,་བྱེད་པ་མགྲིན་པ,་ནང་གི་རྩོལ་བ་མགྲིན་པ་ནང་ཕྲད,་ཕྱིའི་རྩོལ་བ་སྲོག་ཆུང་སྒྲ་མེད, ༡. ༡༽ མིང་གཞིའི་ཕོ་ཡིག་ཅིག ༢༽ རྟགས་མཚུངས་འདྲེན་སྐབས་ག་ད ༡བ་ས་སྟེ་རྗེས་འཇུག་ཕོས་དྲངས་པའི་མིང་གི་ཆ་ཤས་ཤིག་ག་ད་བ་ས་ཐོག་ཀ,་དཔྱིད་ཀ,་རྒྱལ་ཁ་ཐོབ་ཀ་སྔ་མོ,་སྐས་ཀ, ༣༽ གྲངས་ཀྱི་མིང་མཐར་བཅུག་ནས་ཚང་མའམ་ཐམས་ཅད་ཅེས་པའི་དོན་སྟོན་པའི་ཆ་ཤས་ཤིག་སྔ་ཕྱི་གཉིས་ཀ, ༢.་རྩ་བ ༡དང,་ཐོག་མ,་གདོད་མ,་ཆོས་ཐམས་ཅད་ཀ་ནས་དག་པ,་ཀ་ནས་མ་རྫོགས་པའི་བར,་ཀ་ནས་རང་ཆས་སུ་ཡོད་པ་མ་ཡིན་པ,"
    },
    {
        "word": "ཀ་ཀ",
        "definition": "༡༽ སྐྱ་གའི་མིང་དང་དེའི་སྐད། ༢༽ ལུག་གི་ཨ་ཅུག་གམ་ཐེ་གེ། ༣༽ ༼ཡུལ༽ བྱིས་ཆུང་གི་གྱོན་པ།"
    }
    ]

From DB Dictionaries:

[
    {
        "word": "1000",
        "definition": [
            "ཕྲག་སྟོང་།  1000"
        ]
    },
    {
        "word": "01-Mar",
        "definition": [
            "n. ཕྱི་ཟླ་གསུམ་པ། 10 th March གསུམ་བཅུའི་དུས་དྲན།"
        ]
    }
    ]
jim-gyas commented 2 weeks ago

1) Common Chinese-Tibetan-English Buddhist Terminology (in csv format)

Screenshot 2024-10-10 at 7 56 36 AM

2) BabelStone Tibetan Shorthand Contractions (in html format)

Screenshot 2024-10-10 at 8 01 50 AM

3) 25-tshig-mdzod-chen-mo-Tib

Screenshot 2024-10-10 at 8 11 10 AM

4) 49-LokeshChandraTib

Screenshot 2024-10-10 at 8 16 11 AM

@kaldan007, @TenzinGayche, I found a few dictionaries in the resources repository. Could you please help me identify which ones are valid and which ones might not be?

TenzinGayche commented 2 weeks ago

@jim-gyas can you extract them all except BabelStone Tibetan Shorthand Contractions (in html format)? note: Some of them are in Wiley so you might have to convert them into unicode , i need them before 5 pm today