anubhav-chattoraj / indic-tools

Miscellaneous tools for dealing with Indic languages and scripts.
5 stars 1 forks source link

Combine equivalent (duplicate) elements together & spaces #15

Closed gasyoun closed 10 years ago

gasyoun commented 10 years ago

http://anubhav-chattoraj.github.io/indic-tools/devanagari_sorter/ I've sorted a list of verb endings that is based on an OCR I made myself. It does not removes all of the duplicates, because there seem to be at least three kinds of (invisible) spaces, can we kill all kinds of it, please? Input: https://yadi.sk/i/f84dqpg9bkfCx Output: https://yadi.sk/i/uOFzy2qqbkfE6

-स्वहि 8 -स्ताम् 8 -साताम् 3 -ष्वहि 3 -ष्व 9 -षित् 1 -षि 3 -षि 8 -षातम् 1 -षातम् 1 -षात 3 -षन्त 6 -षत 1 -षत 3 -वे 3 -वीवहि 3 -वीयथाम् 1 -वीयथाम् 8 -वीथाः 2 -वीत 1 -वीत 7 -वाथाम् 7 -वाताम् 1 -वाताम् 7 -वहि 2 -वहि 1 -वन्तु 3 -वते 3 -वति 3 -वत 3 -वः 3 -वः 1 -व 1 -व 1 -व 1 -व 1 -व 1 -व 1 -युः 2 -युः 1 -युः 1 -युः 1 -याव 3 -याव 1 -यार्न 3 -याम 3 -याम् 1 -याम् 3 -याताम् 11 -यात 2 -यात 2 -यात् 6 -याः 2 -याः 1 -याः 8 -महे 7 -मः 1 -मः 1 -मः 7 -म 1 -म 1 -ध्वे 3 -ध्वम् 12 -धाः 2 -धम् 2 -धः 1 -ध 5 -थाः 3 -थ 1 -ते 1 -तु 1 -ति 1 -ताम् 1 -ताम् 1 -ताम् 1 -ताम् 1 -तम् 1 -तम् 12 -ढ्वम् 2 -ढि 1 -ढि 2 -ठः 1 -ठः 5 -टु 2 -टि 1 -टाम् 4 -टम् 2 -टम् 3 -टः 1 -ट 2 -ट 2 -ट 1 -औसि 1 -औमि 3 -औत् 2 -औ 2 -ओषि 3 -ओमि 1 -ओतु 1 -ओतु 1 -ओति 1 -ओति 3 -ओः 1 -ऐ 3 -ऐ 1 -ऐ 2 -एव 2 -एयुः 2 -एयथाम् 2 -एय 2 -एम 3 -एथाम् 2 -एथाः 2 -एते 3 -एताम् 2 -एतम् 2 -एत 1 -एत् 2 -ए 2 -ए 2 -ए 2 -ए 1 -ए 3 -ए 3 -उहि 7 -उषे 1 -उवे 2 -उवीरन् 3 -उवीय 1 -उवीमहि 1 -उवीध्वम् 1 -उवीथाः 5 -उवाथाम् 6 -उवहे 1 -उवहे 1 -उवहे 1 -उवहि 5 -उवन् 1 -उवत 4 -उव 1 -उव 1 -उव 1 -उयुः 10 -उयाम् 1 -उयाम् 1 -उयातम् 1 -उयातम् 1 -उयातम् 3 -उयातम् 1 -उयात 1 -उयात 5 -उयाः 1 -उयाः 1 -उयाः 1 -उमहे 1 -उमहे 1 -उमहे 5 -उमः 9 -उध्वम् 3 -उध्वम् 7 -उथः 8 -उते 3 -उताम् 3 -उताम् 6 -उतम् 1 -उतम् 6 -उत 3 -उत 1 -उत 3 -उत 3 -उः 3 -उः 3 -ईष्व 3 -ईवहि 3 -ईवहि 3 -ईव 6 -ईयाम 3 -ईयाताम् 3 -ईयाताम् 3 -ईयाताम् 3 -ईयात 3 -ईय 3 -ईय 1 -ईमहे 1 -ईमहि 1 -ईमहि 1 -ईमहि 3 -ईमः 3 -ईध्वम् 3 -ईध्वम् 2 -ईध्वम् 2 -ईथाः 1 -ईथाः 1 -ईथाः 1 -ईथाः 1 -ईथः 1 -ईथ 1 -ईते 1 -ईताम् 1 -ईताम् 1 -ईताम् 1 -ईतम् 1 -ईतम् 1 -ईतः 3 -ईत 3 -ईत 2 -ईत् 13 -इष्म 1 -इष्म 1 -इष्ठाः 2 -इष्टाम् 1 -इष्टम् 4 -इष्ट 1 -इषे 1 -इषे 1 -इषुः 2 -इषि 1 -इषि 1 -इषि 1 -इषाथाम् 1 -इषाथाम् 1 -इषाताम् 1 -इषाताम् 1 -इषम् 1 -इषम् 1 -इषत 1 -इषत 1 -इवहे 1 -इवहे 5 -इर्नहे 1 -इरे 2 -इरे 2 -इमि 2 -इमः 2 -इम 2 -इध्वे 2 -इथाः 1 -इथाः 1 -इथ 1 -इथ 1 -इथ 1 -इतु 1 -इति 5 -इतः 2 -इत 4 -इ 4 -आहि 2 -आसि 2 -आवहै 1 -आवहै 2 -आवहै 2 -आवहि 1 -आवहि 2 -आवः 3 -आव 2 -आव 5 -आव 1 -आव 4 -आयाव 4 -आयातम् 1 -आयात 1 -आयात् 1 -आयाः 2 -आमि 1 -आमि 2 -आमहै 4 -आमहे 2 -आमहि 2 -आमः 1 -आम 3 -आम 3 -आम 1 -आम 1 -आम 5 -आम् 2 -आन्तु 6 -आनि 5 -आथे 4 -आथे 5 -आथाम् 4 -आथाम् 1 -आथाम् 5 -आते 5 -आतु 5 -आताम् 5 -आताम् 5 -आतम् 5 -आत 2 -आत् 3 -आणि 4 -अस्व 5 -अवुः 6 -अवीः 5 -अवाव 2 -अवामहै 2 -अवामहै 1 -अवाम 1 -अवाम 2 -अवानि 1 -अवानि 1 -अवानि 1 -अवल् 4 -अम् 5 -अम् 4 -अन्तु 2 -अन्तु 4 -अन्ति 2 -अन्ति 2 -अन्ति 1 -अन्ति 2 -अन्त 2 -अन् 2 -अन् 1 -अन् 2 -अन् 4 -अध्वम् 2 -अध्वम् 2 -अथुः 2 -अथः 1 -अथः 1 -अथः 2 -अते 1 -अते 1 -अते 1 -अते 1 -अते 1 -अते 1 -अतुः 2 -अतुः 1 -अतु 2 -अताम् 2 -अताम् 1 -अताम् 1 -अताम् 1 -अताम् 1 -अताम् 5 -अतः 1 -अत 1 -अत 1 -अत 3 -अत 2 -अत 1 -अत 3 -अत् 1 -अः 1 -अः 1 -अः 1 -अ 1 -अ 2 -अ 1 -अ 1 -अ 1 -अ 1 -अ 1

anubhav-chattoraj commented 10 years ago

I guess the planned "ignore spaces" checkbox ( #19 ) will have to ignore all kinds of spaces. Just clicking it would solve your problem.

I was going to suggest a workaround, but then I realized that it would be far too tedious and this is a simple thing to fix. I'll just implement the "ignore spaces" checkbox tomorrow or the day after.

gasyoun commented 10 years ago

I give you my thanks.

anubhav-chattoraj commented 10 years ago

Now that #19 has been implemented, you shouldn't have this problem if you just check the "ignore spaces" box.

However, I can't find any spaces in the input file you've attached. Copy-pasting its contents into the sorter, selecting "combine duplicates" and sorting gives the expected output (i.e., all duplicates combined) even if "ignore spaces" isn't checked.

I'm guessing you attached the wrong file, but either way, I don't think you should have this problem again.