Open tshrinivasan opened 5 years ago
https://github.com/nithyadurai87/tamil-sandhi-checker/blob/master/tamilsandhi/all-tamil-nouns.txt
விக்கிசனரியில் இருந்து எடுத்த பெயர்ச்சொற்கள் - 85256
https://github.com/thamizha/peyar/blob/master/db_data.zip nouns from peyar.in - 47211
இதன் மூலம் விக்கிப்பீடியாவில் இருந்து பலவகை பெயர்ச்சொற்களைப் பெறலாம்
https://tnrd.gov.in/databases.html தமிழ் நாட்டு ஊர்ப் பெயர்கள்
இதில் உள்ளபடி தமிழ்நாடு வாக்காளர் பட்டியலை PDF வடிவில் பெறலாம். அதில் இருந்து ஒருங்குறி வடிவில் பெறும் வழிகளைக் காண வேண்டும்.
என்னுடைய GitHub களஞ்சியத்தில் பெயர்ச்சொற்கள் LibreOffice/OpenOffice விரிதாள் வடிவில் உள்ளன. பெரிய பட்டியல் இல்லை. ஆனால் இவை பின்னொட்டு விதிகள்படி துணைத் தொகுதிகளாகப் பிரிக்கப்பட்டுள்ளன. https://github.com/AshokR/TamilNLP/blob/master/Resources/பெயர்ச்சொல்.ods
இங்கு தமிழக வாக்காளர்களின் பெயர்ப்பட்டியல் கொண்ட PDF களின் இணைப்புகள் உள்ளன. all_url.txt
https://docs.google.com/spreadsheets/d/1FqiFLstsTo6DXsPKPKzp7iPKR49Ml2k81UPR6Nq6inQ/edit?usp=sharing
இங்கு எனக்குத் தெரிந்த பெயர்ச்சொற்களைத் தொகுத்து வருகிறேன்.
in this file 64323 names are there. Need to fix many errors and typos.
rename the files to csv and work on it.
Name List.txt in this file 27426 unique names are there.
@tshrinivasan
@alauvdheen seems not a text file. file Name.List.txt Name.List.txt: Little-endian UTF-16 Unicode text, with CRLF line terminators
give as utf-8 unicode file.
NameList.txt @tshrinivasan utf-8 unicode txt file
சொற்பிழைத்திருத்தி, இலக்கணப் பிழைத்திருத்தி, வேர்ச்சொல் காணல் போன்ற பலவகை இயல்மொழி ஆய்வுகளுக்கு அடிப்படையான தேவையாக இருப்பது பெயர்ச்சொற்கள் தொகுப்பு.
தமிழில் அனைத்து பெயர்ச்சொற்களையும் ஓரிடத்தில் தொகுத்தல் மிகவும் பயன்தரும்.
இங்கு ஏற்கெனவே இணையத்தில் கிடைக்கும் பெயர்ச்சொற்களைத் தொகுப்போம்.