KaniyamFoundation / ProjectIdeas

A Place to write down the project ideas and to plan them
40 stars 3 forks source link

தமிழக அரசின் கலைச் சொல் பேரகராதி - தமிழ் விக்சனரியில் சேர்க்கவும் #128

Open tshrinivasan opened 3 years ago

tshrinivasan commented 3 years ago

தமிழக அரசின் கலைச் சொல் பேரகராதி.xlsx

இக்கோப்பை ஆய்க.

இச்சொற்கள் தமிழ் விக்சனரியில் உள்ளனவா என்று ஆய்ந்து இல்லாத சொற்களை அங்கு சேர்க்கவும்.

முதலில் இல்லாத சொற்களைக் கண்டுபிடித்து பட்டியலிடுக.

tshrinivasan commented 3 years ago

https://ta.wiktionary.org

tha-uzhavan commented 3 years ago

10 வருடங்களுக்கு முன் தமிழகஅரசுடன் இணைந்து, இதுபோன்ற ஒரு திட்டத்தில் செயற்பட்டு, பலரின் அனுபவங்களைக் கற்றுள்ளேன். காண்க:https://ta.wiktionary.org/s/86s அவ்வழி இந்த இலக்கை முடிப்பேன். எனது திட்டம்: இதில் மொத்தம் 30 துறைச்சார்ந்த 2, 22, 185 சொற்கள் உள்ளன. அதில் முதலில்நிருவாகத்துறைச்சார்ந்த 8258 சொற்கள் உள்ளன. அவற்றைப் பிரித்து கீழே தருகிறேன். ஏற்கனவே, 2010 ஆம் ஆண்டு விக்சனரி திட்டத்தில் பங்களித்துள்ளேன். எனவே, வேறுபாடுகளை கண்டு இலக்கை முடிக்க வேண்டும். இனி இதுகுறித்தவைகளை, இங்கு இற்றைப் படுத்துவேன். நிருவாகம்-8259.txt

tha-uzhavan commented 3 years ago
tha-uzhavan commented 3 years ago

பின்வரும் நிரல் வழியே சோதித்தேன். ஏறத்தாழ அனைத்து ஆங்கிலச்சொற்களும் ஏற்கனவே உள்ளன. எனினும், எழுதியுள்ள நிரல் கோப்பில் உள்ள குறிப்புகளைக் காணவும். அந்நிரலின் விளைவினையும் இணைத்துள்ளேன். எனக்கு ஆங்கிலத்தில் தட்டச்சுவது வசதியாக இல்லை. சீனியின் வழிகாட்டுதல்படி முடிந்தவரை நிரலை ஆங்கிலத்தில் எழுதியுள்ளேன். தவறுதலாக அதனை அழித்துவிட்டேன். பிறகு நிரலை இணைக்கிறேன். 1. நிருவாகம்-8259-குறியீடு.csv

tha-uzhavan commented 3 years ago

அளிக்கப்பட்டக் கோப்பில், 2,22,185 வரிகள் (row) உள்ளன. அவற்றை விக்சனரியில் ஏற்ற அச்சொற்கள் இருக்கின்றனவா என ஆராய வேண்டும். அதற்கு விரிதாளில் (spreadsheet) இருந்து, அணித்தரவுக்கோப்பாக (csv) மாற்றிக்கொண்டு செய்தால் எளிமையாக இருக்கும். ஏனெனில், கொடுக்கப்பட்டக்கோப்பானது, கட்டற்ற ஆவணமல்ல. அதற்கு பல்வேறு கற்றல்களை செய்து பார்த்தேன். சோதனை-1 (pandas) எத்தகைய ஆவணமாக இருந்தாலும், பின்வரும் நிரல் வழியே மாற்றுதல் எளிது. ஆனால், இதற்கு நமது கணினியிலுள்ள பைத்தான் பதிப்புக்கு ஏற்ப, 500-600 எம்பிகளை முன்நிறுவுல் செய்ய வேண்டும்.

# !/usr/bin/python3
import pandas as pd
pd.read_excel('test.xls').to_csv('output_test.csv', index=False)

சோதனை-2 (by python2 library: openxl ) மூலாவணத்தின் கோப்பு நீட்சிக்கு (file extension) ஒப்ப இதனைத் தேர்ந்தெடுக்க வேண்டும். காண்க:http://www.python-excel.org/ spreadsheet2output specific column: https://www.devdungeon.com/content/working-spreadsheets-python முடிவு: நமக்குள்ளது ஒரே ஒரு ஆவணம் (தமிழக அரசின் கலைச் சொல் பேரகராதி.xlsx) என்பதால், அதனை, இந்த படப்பதிவு முறையில் அணித்தரவுக்கோப்பாக(csv) மாற்றிக் கொண்டேன். அதற்கு பிரிப்புக்குறியை (delimiter = comma-->tilde) மாற்றிக்கொண்டேன். ஏனெனில், comma = delimiter தவறுகள் வந்தன. ஏனெனில், தமிழ் மொழிபெயர்ப்பில் பல இடங்களில் comma அமைந்ததுள்ளது. இவ்வாறு முழுமையாக மாற்றப்பட்ட கோப்பினை இணைத்துள்ளேன். wikt-all-222187.csv அடுத்து மாற்றிய மூலக்கோப்பினை, துறைவாரியாக தானியக்கமாக பிரிக்கவுள்ளேன்.

khaleeljageer commented 3 years ago

கோப்பினை துறைவாரியாக பிரித்து, JSON கோப்புகளாக இங்கே வைத்துள்ளேன்.

velram commented 3 years ago

இந்த இழையில் பணி இன்னும் உள்ளதா? இருப்பின் தெரிவிக்கவும். பங்களிக்க ஆர்வமாய் உள்ளேன்.

tha-uzhavan commented 3 years ago

பைத்தான் வழி தலைப்புச் சொற்களை மட்டும் ஆய்ந்த போது, இச்சொற்தொகுதியின் 97% தலைப்புச் சொற்கள் ஏற்கனவே விக்சனரியில் உள்ளன. எனினும், ஒவ்வொரு சொல்லுக்குமான அர்த்தங்கள் அனைத்தும் உள்ளனவா என ஒவ்வொன்றாக காண வேண்டும். உங்களுக்கு விருப்பம் எனில் இந்த நூலின் தரவுகளை எடுத்து விக்சனரியில் ஏற்றுவது குறித்து உரையாடலாம்.

velram commented 3 years ago

விக்சனரி பணியைத் தொடங்கலாம். ஏதும் சுட்டி இருப்பின் கொடுக்கவும்.
தேவை :

  1. பணி குறித்த தகவல் (task description / problem statement).
tha-uzhavan commented 3 years ago

இந்நூலின் படவடிவம்(PDF) சரியாக உருவாக்கப்படவில்லை. 652 பக்கங்களுள்ள இம்மின்னூல் சரிபார்க்க திட்டமிட்டுள்ளோம். அப்பணி முடிந்ததும். நிரலாக்கப்பணியைத் தொடங்கலாம். ஒரு மாதம் தேவைப்படும் என எண்ணுகிறேன். புதிய நூலொன்றினை வாங்கி சரிபார்த்து, சரியான தரவுகள் உருவாக்கப்பட வேண்டியதே முதற்பணியாகும். இந்த இலக்கு முடிந்தவுடன் தெரிவிக்கிறேன்.

velram commented 3 years ago

இந்நூலின் படவடிவம்(PDF) சரியாக உருவாக்கப்படவில்லை. 652 பக்கங்களுள்ள இம்மின்னூல் சரிபார்க்க திட்டமிட்டுள்ளோம். அப்பணி முடிந்ததும். நிரலாக்கப்பணியைத் தொடங்கலாம். ஒரு மாதம் தேவைப்படும் என எண்ணுகிறேன். புதிய நூலொன்றினை வாங்கி சரிபார்த்து, சரியான தரவுகள் உருவாக்கப்பட வேண்டியதே முதற்பணியாகும். இந்த இலக்கு முடிந்தவுடன் தெரிவிக்கிறேன்.

தகவலுக்கு நன்றி.

velram commented 2 years ago

இந்த இழையில் பணி உள்ளதா. இருப்பின் தெரிவிக்கவும். விரிவாகப் பேசலாம்.