Open tshrinivasan opened 3 years ago
10 வருடங்களுக்கு முன் தமிழகஅரசுடன் இணைந்து, இதுபோன்ற ஒரு திட்டத்தில் செயற்பட்டு, பலரின் அனுபவங்களைக் கற்றுள்ளேன். காண்க:https://ta.wiktionary.org/s/86s அவ்வழி இந்த இலக்கை முடிப்பேன். எனது திட்டம்: இதில் மொத்தம் 30 துறைச்சார்ந்த 2, 22, 185 சொற்கள் உள்ளன. அதில் முதலில்நிருவாகத்துறைச்சார்ந்த 8258 சொற்கள் உள்ளன. அவற்றைப் பிரித்து கீழே தருகிறேன். ஏற்கனவே, 2010 ஆம் ஆண்டு விக்சனரி திட்டத்தில் பங்களித்துள்ளேன். எனவே, வேறுபாடுகளை கண்டு இலக்கை முடிக்க வேண்டும். இனி இதுகுறித்தவைகளை, இங்கு இற்றைப் படுத்துவேன். நிருவாகம்-8259.txt
பின்வரும் நிரல் வழியே சோதித்தேன். ஏறத்தாழ அனைத்து ஆங்கிலச்சொற்களும் ஏற்கனவே உள்ளன. எனினும், எழுதியுள்ள நிரல் கோப்பில் உள்ள குறிப்புகளைக் காணவும். அந்நிரலின் விளைவினையும் இணைத்துள்ளேன். எனக்கு ஆங்கிலத்தில் தட்டச்சுவது வசதியாக இல்லை. சீனியின் வழிகாட்டுதல்படி முடிந்தவரை நிரலை ஆங்கிலத்தில் எழுதியுள்ளேன். தவறுதலாக அதனை அழித்துவிட்டேன். பிறகு நிரலை இணைக்கிறேன். 1. நிருவாகம்-8259-குறியீடு.csv
அளிக்கப்பட்டக் கோப்பில், 2,22,185 வரிகள் (row) உள்ளன. அவற்றை விக்சனரியில் ஏற்ற அச்சொற்கள் இருக்கின்றனவா என ஆராய வேண்டும். அதற்கு விரிதாளில் (spreadsheet) இருந்து, அணித்தரவுக்கோப்பாக (csv) மாற்றிக்கொண்டு செய்தால் எளிமையாக இருக்கும். ஏனெனில், கொடுக்கப்பட்டக்கோப்பானது, கட்டற்ற ஆவணமல்ல. அதற்கு பல்வேறு கற்றல்களை செய்து பார்த்தேன். சோதனை-1 (pandas) எத்தகைய ஆவணமாக இருந்தாலும், பின்வரும் நிரல் வழியே மாற்றுதல் எளிது. ஆனால், இதற்கு நமது கணினியிலுள்ள பைத்தான் பதிப்புக்கு ஏற்ப, 500-600 எம்பிகளை முன்நிறுவுல் செய்ய வேண்டும்.
# !/usr/bin/python3
import pandas as pd
pd.read_excel('test.xls').to_csv('output_test.csv', index=False)
சோதனை-2 (by python2 library: openxl ) மூலாவணத்தின் கோப்பு நீட்சிக்கு (file extension) ஒப்ப இதனைத் தேர்ந்தெடுக்க வேண்டும். காண்க:http://www.python-excel.org/ spreadsheet2output specific column: https://www.devdungeon.com/content/working-spreadsheets-python முடிவு: நமக்குள்ளது ஒரே ஒரு ஆவணம் (தமிழக அரசின் கலைச் சொல் பேரகராதி.xlsx) என்பதால், அதனை, இந்த படப்பதிவு முறையில் அணித்தரவுக்கோப்பாக(csv) மாற்றிக் கொண்டேன். அதற்கு பிரிப்புக்குறியை (delimiter = comma-->tilde) மாற்றிக்கொண்டேன். ஏனெனில், comma = delimiter தவறுகள் வந்தன. ஏனெனில், தமிழ் மொழிபெயர்ப்பில் பல இடங்களில் comma அமைந்ததுள்ளது. இவ்வாறு முழுமையாக மாற்றப்பட்ட கோப்பினை இணைத்துள்ளேன். wikt-all-222187.csv அடுத்து மாற்றிய மூலக்கோப்பினை, துறைவாரியாக தானியக்கமாக பிரிக்கவுள்ளேன்.
கோப்பினை துறைவாரியாக பிரித்து, JSON கோப்புகளாக இங்கே வைத்துள்ளேன்.
இந்த இழையில் பணி இன்னும் உள்ளதா? இருப்பின் தெரிவிக்கவும். பங்களிக்க ஆர்வமாய் உள்ளேன்.
பைத்தான் வழி தலைப்புச் சொற்களை மட்டும் ஆய்ந்த போது, இச்சொற்தொகுதியின் 97% தலைப்புச் சொற்கள் ஏற்கனவே விக்சனரியில் உள்ளன. எனினும், ஒவ்வொரு சொல்லுக்குமான அர்த்தங்கள் அனைத்தும் உள்ளனவா என ஒவ்வொன்றாக காண வேண்டும். உங்களுக்கு விருப்பம் எனில் இந்த நூலின் தரவுகளை எடுத்து விக்சனரியில் ஏற்றுவது குறித்து உரையாடலாம்.
விக்சனரி பணியைத் தொடங்கலாம். ஏதும் சுட்டி இருப்பின் கொடுக்கவும்.
தேவை :
இந்நூலின் படவடிவம்(PDF) சரியாக உருவாக்கப்படவில்லை. 652 பக்கங்களுள்ள இம்மின்னூல் சரிபார்க்க திட்டமிட்டுள்ளோம். அப்பணி முடிந்ததும். நிரலாக்கப்பணியைத் தொடங்கலாம். ஒரு மாதம் தேவைப்படும் என எண்ணுகிறேன். புதிய நூலொன்றினை வாங்கி சரிபார்த்து, சரியான தரவுகள் உருவாக்கப்பட வேண்டியதே முதற்பணியாகும். இந்த இலக்கு முடிந்தவுடன் தெரிவிக்கிறேன்.
இந்நூலின் படவடிவம்(PDF) சரியாக உருவாக்கப்படவில்லை. 652 பக்கங்களுள்ள இம்மின்னூல் சரிபார்க்க திட்டமிட்டுள்ளோம். அப்பணி முடிந்ததும். நிரலாக்கப்பணியைத் தொடங்கலாம். ஒரு மாதம் தேவைப்படும் என எண்ணுகிறேன். புதிய நூலொன்றினை வாங்கி சரிபார்த்து, சரியான தரவுகள் உருவாக்கப்பட வேண்டியதே முதற்பணியாகும். இந்த இலக்கு முடிந்தவுடன் தெரிவிக்கிறேன்.
தகவலுக்கு நன்றி.
இந்த இழையில் பணி உள்ளதா. இருப்பின் தெரிவிக்கவும். விரிவாகப் பேசலாம்.
தமிழக அரசின் கலைச் சொல் பேரகராதி.xlsx
இக்கோப்பை ஆய்க.
இச்சொற்கள் தமிழ் விக்சனரியில் உள்ளனவா என்று ஆய்ந்து இல்லாத சொற்களை அங்கு சேர்க்கவும்.
முதலில் இல்லாத சொற்களைக் கண்டுபிடித்து பட்டியலிடுக.