Ezhil-Language-Foundation / tamilpesu_us

http://tamilpesu.us - Open-Tamil hosted like a BO$$.
GNU Affero General Public License v3.0
5 stars 5 forks source link

தரவுச் சுத்தம் #21

Open neyakkoot opened 4 months ago

neyakkoot commented 4 months ago

இலக்கியத் தரவுகளைத் தனியே சொற்களாகப் பிரித்து, அவற்றறைச் சுத்தம் செய்து வைக்கவேண்டிய தேவை உள்ளது. இலக்கணம் சார்ந்த மொழி ஆராய்ச்சி மேற்கொள்ள இது போன்ற நுட்பம் தேவைப்படுகின்றது. அதற்கு வேண்டிய குறிப்புகளைப் பின்வருமாறு வழங்குகின்றேன்.

தனிச்சொற்களின் பின் "க், ச், த், ப்" எழுத்துக்கள் இருப்பின் நீக்கும் நிரல் எழுத வேண்டும். இது தரவுச் சுத்தம் செய்ய உதவும்

ஆணைத் தொடர் >>>

  1. தரவு உள்ளீடு
  2. [-1] - க், ச், த், ப் எழுத்துக் கண்டறிதல் - நீக்குதல்
  3. மீண்டும் மீண்டும் வரும் சொற்களைக் கண்டறிதல் - நீக்குதல்
  4. தேவையில்லாத குறியீடுகளைக் கண்டறிந்து நீக்குதல்
  5. எண்கள் இருந்தால் நீக்குதல்
  6. வலைத்தள முகவரி இருந்தால் நீக்குதல்
  7. ஆங்கிலச் சொற்களோ பிறமொழிச் சொற்களோ இருந்தால் நீக்குதல்
  8. சுத்தம் செய்த தரவுகளை அகரவரிசைப்படி மாற்றுதல்
  9. இறுதியாத் தனிக்கோப்பில் சேமித்தல்