funderburkjim / MWlexnorm

normalized grammatical information from Monier-Williams Sanskrit-English dictionary
0 stars 0 forks source link

Quantity of Grammar Models #8

Open gasyoun opened 9 years ago

gasyoun commented 9 years ago

@funderburkjim as per The identification of these irregular cases remains to be done, along with a systematic means of specifying their models from readme. We had a discussion with @drdhaval2785 last year. He said that in addition to 73 models of Bucknell he has about 120 more. So he has the fullest list in Sanskrit NLP world for sure. You've got the Bucknell Manual scan, right?

drdhaval2785 commented 9 years ago

@gasyoun and @funderburkjim What my model has is generation as per Paninian grammar (Siddhantakaumudi to be precise). There are no paradigm based declentions. So, I am not sure about the total paradigms.

gasyoun commented 9 years ago

@drdhaval2785 still what is the amount? Some hints might not hurt. You've swam in these water almost a year. http://sanskrit.rocq.inria.fr/cgi-bin/SKT/sktdeclin?lex=MW&q=d.rptabaalaki&g=Mas seems near.

funderburkjim commented 9 years ago

@gasyoun Yes, I have Bucknell Sanskrit Manual, but have not used it's declension tables yet.

Huet's site is very good. There is also a section where you can input an inflected form, and get back information about it (Very similar in spirit to the 'inflected form' displays at Cologne.)

@drdhaval2785 Is your work on nouns at the stage where a user can input a citation word , such as rAma, and get back a declension table?

gasyoun commented 9 years ago

@funderburkjim and the best part is - Dhaval now has Python wrappers for most of it's goodies and that knowledge might be reusable in your reevaluation of the Lex work. @drdhaval2785 is at a stage where you input a shloka in Sanskrit and get Huet's analysis of every word.

drdhaval2785 commented 9 years ago

@funderburkjim and @gasyoun The code is very much at a stage where one can input a shloka in Sanskrit and get Huet's analysis for every word. https://github.com/drdhaval2785/inriaxmlwrapper is the code location The actual working code is https://github.com/drdhaval2785/inriaxmlwrapper/blob/master/sanskritmark.py which I have tried to comment barely.

Step 1 - Download the code from here. Step 2 - Put the shloka you want to test in sanskritinput.txt e.g. input Step 3 - Open your terminal and run python sanskritmark.py Step 4 - After execution, check hindioutput.txt for analysed word e.g. output

Let me copy paste the input and output for a sample prose.

Input

खादनं विना एव फलानि स्वादूनि नेति निष्कर्षः स्वस्य अभिलाषायाः, लालसायाः वा शान्तये सम्यगेव। किन्तु यदि कोपि प्रांशुः तत् फलं प्राप्य, खादित्वा -स्वादु- इति तस्य पुरतः एव वदेत्, तर्हि किं वा एषः फलशून्यः शृगालः चिन्तयेत्? 

Output

खादनं(????) विना(विना-अव्ययम्-चादिः) एव(एव-अव्ययम्-चादिः) फलानि(फल्-प्राथमिकः-लोट्-कर्तरि-एकवचनम्-उत्तमपुरुषः|फल-द्वितीयाविभक्तिः-बहुवचनम्-नपुंसकलिङ्गम्|फल-प्रथमाविभक्तिः-बहुवचनम्-नपुंसकलिङ्गम्|फल-संबोधनाविभक्तिः-बहुवचनम्-नपुंसकलिङ्गम्) स्वादूनि(स्वादु-द्वितीयाविभक्तिः-बहुवचनम्-नपुंसकलिङ्गम्|स्वादु-प्रथमाविभक्तिः-बहुवचनम्-नपुंसकलिङ्गम्|स्वादु-संबोधनाविभक्तिः-बहुवचनम्-नपुंसकलिङ्गम्) नेति(नेति-अव्ययम्-क्रियाविशेषणम्|नेती-संबोधनाविभक्तिः-एकवचनम्-स्त्रीलिङ्गम्) निष्कर्षः(निष्कर्ष-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) स्वस्य(स्व-षष्ठीविभक्तिः-एकवचनम्-पुंल्लिङ्गम्|स्व-षष्ठीविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्) अभिलाषायाः(अभिलाष-षष्ठीविभक्तिः-एकवचनम्-स्त्रीलिङ्गम्|अभिलाष-पञ्चमीविभक्तिः-एकवचनम्-स्त्रीलिङ्गम्), लालसायाः(लालस-षष्ठीविभक्तिः-एकवचनम्-स्त्रीलिङ्गम्|लालस-पञ्चमीविभक्तिः-एकवचनम्-स्त्रीलिङ्गम्) वा(वा#१-अव्ययम्-संयोजकः) शान्तये(शान्ति-चतुर्थीविभक्तिः-एकवचनम्-स्त्रीलिङ्गम्|शान्ति-चतुर्थीविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) सम्यगेव(सम-समासपूर्वपदधातुः$अग-समासपूर्वपदनामपदम्|अग-संबोधनाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्$इव-अव्ययम्-निपातम्%सम-समासपूर्वपदधातुः$अग-सप्तमीविभक्तिः-एकवचनम्-पुंल्लिङ्गम्$अव्-प्राथमिकः-लोट्-कर्तरि-एकवचनम्-मध्यमपुरुषः|अव-अव्ययम्-उपसर्गः)। किन्तु(किन्तु-अव्ययम्-क्रियाविशेषणम्) यदि(यदि-अव्ययम्-संयोजकः) कोपि(कोपिन्-द्वितीयाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|कोपिन्-प्रथमाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|कोपिन्-समासपूर्वपदनामपदम्|कोपिन्-संबोधनाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्) प्रांशुः(प्र-अव्ययम्-उपसर्गः$अंशु-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्%प्र+आ-अव्ययम्-उपसर्गः$अंशु-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) तत्(तद्-समासपूर्वपदनामपदम्|तद्-द्वितीयाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|तद्-प्रथमाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्) फलं(फल-द्वितीयाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|फल-प्रथमाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|फल-द्वितीयाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) प्राप्य(प्र-अव्ययम्-उपसर्गः$आप्-अव्ययधातुरूप-प्राथमिकः-क्त्वा|आप्य#२-समासपूर्वपदनामपदम्|आप्य#२-संबोधनाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्|आप्य#२-संबोधनाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्%प्र+आ-अव्ययम्-उपसर्गः$आप्-अव्ययधातुरूप-प्राथमिकः-क्त्वा|आप्य#२-समासपूर्वपदनामपदम्|आप्य#२-संबोधनाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्|आप्य#२-संबोधनाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्), खादित्वा(खाद्-क्त्वा-प्राथमिकः) -स्वादु(स्वादु-द्वितीयाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|स्वादु-प्रथमाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|स्वादु-समासपूर्वपदनामपदम्|स्वादु-संबोधनाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्)- इति(इति-अव्ययम्-निपातम्|इति-समासपूर्वपदनामपदम्) तस्य(तद्-षष्ठीविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|तद्-षष्ठीविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) पुरतः(????) एव(एव-अव्ययम्-चादिः) वदेत्(वद्-प्राथमिकः-विधिलिङ्-कर्तरि-एकवचनम्-प्रथमपुरुषः), तर्हि(तर्हि-अव्ययम्-क्रियाविशेषणम्) किं(किम्-समासपूर्वपदनामपदम्|किम्-द्वितीयाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्|किम्-प्रथमाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्) वा(वा#१-अव्ययम्-संयोजकः) एषः(एष#१-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्|एतद्-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) फलशून्यः(फल्-प्राथमिकः-लोट्-कर्तरि-एकवचनम्-मध्यमपुरुषः|फल-समासपूर्वपदनामपदम्|फल-संबोधनाविभक्तिः-एकवचनम्-नपुंसकलिङ्गम्$शून्य-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) शृगालः(शृगाल-प्रथमाविभक्तिः-एकवचनम्-पुंल्लिङ्गम्) चिन्तयेत्(चिन्त्-प्राथमिकः-विधिलिङ्-कर्तरि-एकवचनम्-प्रथमपुरुषः)?

Notes: Note 1 - The data which doesn't exist in Gerard's database is shown as '????' Note 2 - The words which need sandhi and samAsa splitting are not perfectly parsed. I have started some preliminary steps towards parsing them, but far from acceptable.