rameshbalwad / hunspell-marathi-dictionary

Automatically exported from code.google.com/p/hunspell-marathi-dictionary
0 stars 0 forks source link

एकाक्षर शब्द #16

Open GoogleCodeExporter opened 8 years ago

GoogleCodeExporter commented 8 years ago
एका अक्षराचे शब्द जसे हा, ना,  
पा,  सी काढून टाकण्यासाठी ही 
क्वेरी वापरली.

DELETE FROM wordbase
WHERE char_length( word ) + 0 < 3 
AND (word LIKE ('%्%') OR word LIKE ('%ा%') OR word LIKE ('%ि%')
OR word LIKE ('%ी%') OR word LIKE ('%ु%') OR word LIKE ('%ू%')
OR word LIKE ('%े%') OR word LIKE ('%ै%') OR word LIKE ('%ो%')
OR word LIKE ('%ौ%') OR word LIKE ('%ं%') OR word LIKE ('%ः%')
) AND word NOT IN ('हा','जे', 'मी', 'हो', 'ही', 'या', 
'घे', 'जा', 'ती', 'दे',
'तो', 'तू', 'का', 'की', 'ना', 'कै') limit 100

शु    तु    वि    नि    धू    पू    फी  जू  
बे  यो  टी  पे  रो  भा  दो  गा  ने  सा
 यू  गं  सी  हे  थे  जे  छू  ठो   खो  खा  ऑं  अं  छे  पै  शो  ला  नो  नी    था    दी
   रे   गे    जी    वे    की    हं    ये    वी    भी    को    के    से    है    चे 
  पी    ची    पु    मे    शी    सौ    धो    जो    चा    वा    बी    ते

वर दिलेले शब्द काढले गेले.

Original issue reported on code.google.com by shantanu.oak on 11 Jun 2009 at 11:18

GoogleCodeExporter commented 8 years ago
One or Two character words conflict with the spellcheck logic. The number of 
such
small words needs to be kept to the minimum. Therefore one or two character 
words
should not be added unless they are very popular.

delete from wordbase 
WHERE char_length( word ) + 0 < 3 and verified > 0 
AND (word LIKE ('%्%') OR word LIKE ('%ा%') OR word LIKE ('%ि%')
OR word LIKE ('%ी%') OR word LIKE ('%ु%') OR word LIKE ('%ू%')
OR word LIKE ('%े%') OR word LIKE ('%ै%') OR word LIKE ('%ो%')
OR word LIKE ('%ौ%') OR word LIKE ('%ं%') OR word LIKE ('%ः%')
) AND word NOT IN ('हा','जे', 'मी', 'हो', 'ही', 'या', 
'घे', 'जा', 'ती', 'दे',
'तो', 'तू', 'का', 'की', 'ना', 'कै', 'नि', 'धू', 
'फी', 'गा', 'हे', 'जे', 'जी', 'की', 'ये',
'चे', 'पी', 'मे',  'जो',  'ते') limit 50

Original comment by shantanu.oak on 7 Jul 2009 at 5:54

GoogleCodeExporter commented 8 years ago
Very small words those were marked as correct, made available for checking:

UPDATE wordbase SET verified = 0 WHERE char_length( word ) +0 <3 AND verified >0
LIMIT 300

Original comment by shantanu.oak on 8 Jul 2009 at 7:17

GoogleCodeExporter commented 8 years ago
Correct Words:
अट, आई, आग, आच, आज, आठ, आड, आण, आत, आळ, 
आव, आस, ईद, ईश, उन, उर, उस, ऊत, ऊद, ऊन, 
ऊब,
ऊर, ऊस, ऋण, एक, ऐक, ऐन, ऐष, ऑन, ऑफ, ऑल, 
ओ, ओक, ओघ, ओज, ओठ, ओढ, ओत, ओल, ओळ, ओस, 
ओह,
औट, औत, कच, कट, कड, कढ, कण, कद, कप, कफ, 
कर, कल, कळ, कस, का, की, कै, खच, खट, खण, 
खत,
खप, खल, खळ, गट, गड, गत, गय, गळ, घट, घण, 
घन, घर, घळ, घे, चढ, चर, चल, चळ, चव, छट, 
छत,
छल, छळ, जग, जज, जड, जण, जन, जप, जम, जय, 
जर, जल, जळ, जा, जी, जे, जो, झक, झळ, टक, 
टन,
टफ, टर, ठग, ढग, ढब, तग, तट, तप, तम, तर, 
तळ, तव, तह, ती, तू, ते, तो, थर, दम, दर, 
दल, दव,
दे, धग, धड, धन, न, नऊ, नख, नग, नट, नथ, 
नभ, नर, नळ, नव, नस, ना, नि, पट, पड, पण, 
पत, पथ,
पद, पब, पर, पल, पळ, फट, फड, फल, फळ, फी, 
बघ, बट, बन, बल, बळ, बस, भट, भय, भर, भव, 
मऊ,
मग, मठ, मत, मद, मध, मन, मर, मळ, मी, मे, 
यम, यश, या, ये, रग, रज, रण, रत, रथ, रस, 
लढ, लव,
व, वग, वड, वद, वध, वन, वय, वर, वळ, वश, 
शक, शव, शह, सई, सण, सन, सम, सर, सल, सह, 
हज,
हट, हा, ही, हे, हो, ०, १, २, ३, ४, ५, ६, ७, 
८, ९

Wrong Words:
अ, अज, अत, अध, अन, अल, आ, आप, आम, आय, इ, 
इन, ई, उप, ऍज, ऍड, ऍन, ए, एन, एफ, ऐश, ऑ, 
ओम,
औ, और, कम, कश, ख, खद, गप, गम, घम, च, चे, 
जब, डच, डल, द, नम, पय, फन, फस, बर, म, 
यव, यस,
रन, रफ, रम, लई, लय, वच, सब, हब, हम; 

Original comment by shantanu.oak on 8 Jul 2009 at 7:33

GoogleCodeExporter commented 8 years ago
[deleted comment]
GoogleCodeExporter commented 8 years ago
मराठी स्पेलचेकचे जे नवीन 
एड-ऑन बनविले आहे त्यात एका 
अक्षराचे शब्द नसल्यामुळे 
गोंधळ होत आहे. " ले ला ना च्या चे 
ची चि चा " अशी अक्षरे सुटी सुटी 
दिसल्यासारखी मार्क होत आहेत. 
त्याचे कारण मूळ डेटाबेसमध्ये 
ती अक्षरे नाहीत. ही अक्षरे 
त्यात जमा करून नवी डिक्शनरी 
उपलब्ध करून दिली की ही समस्या 
येणार नाही. आणखी मला काही 
अक्षरे मिळाली आहेत, ती अशी, डी 
से वा के को व

delete from wordbase where word in ('ले', 'ला', 'ना', 
'च्या', 'चे', 'ची', 'चि', 'चा', 'डी', 'से', 
'वा', 'के', 'को', 'व', 'सा', 'पा', 'दि', 'हि', 
'श', 'शि', 'शी', 'नि', 'नी', 'ने', 'वे', 'टी', 
'पी') limit 220

Original comment by shantanu.oak on 30 Jun 2010 at 10:36

GoogleCodeExporter commented 8 years ago
विचारणारा चे
असे लिहीले तर दोन्ही शब्द 
बरोबर म्हणून दाखविले जात आहे. 
पण यात दुसरा शब्द "चे" चुकीचा 
आहे. त्यामुळे कमीत कमी 
एकाक्षर शब्द ठेवण्याचे 
पूर्वीचे धोरण बरोबर होते असा 
नवा निष्कर्ष पुढे आल्यामुळे 
खाली दिलेले शब्द काढले.

के  को  चा चि  ची चे  च्या टी  डी 
दि  ना नि  नी ने  पा पी  ला ले  व वा  
वे श  शि शी  सा से  हि

हे सर्व शब्द एकाच दिवशी (30 June) 
जमा केले होते त्यामुळे 
त्यांची किंमत निगेटीव्ह करणे 
सोपे गेले.
update wordbase set verified = DATE_FORMAT( current_date( ) , '%Y%m%d' ) * -1 
WHERE verified =20100630
LIMIT 30

या सर्व शब्दांची किंमत आता 
आहे: -20101015

Original comment by shantanu.oak on 15 Oct 2010 at 2:17

GoogleCodeExporter commented 8 years ago
SELECT *, char_length(
replace((replace ((replace ((replace ((replace ((replace ((replace ((replace 
((replace ((replace ((replace ((replace((replace ((replace ((replace( word, 
'ा', '' )), 'ि' , '' )), 'ी', '')), 'ु','')), 'ू' , '' )), 'े', 
'')), 'ै', '')), 'ो', '')) ,'ौ', '')), 'ं', '' )), 'ः', '')), '्', 
'')), 'ॄ', '')), 'ॢ', '')), 'ॣ', '')
) - (char_length(word) - char_length(replace( word, '्', '' ))) as my_length 
FROM wordbase
 WHERE character_length(word) <= 3 and verified > 0
AND
char_length(word) -
char_length(
replace((replace ((replace ((replace ((replace ((replace ((replace ((replace 
((replace ((replace ((replace ((replace((replace ((replace ((replace( word, 
'ा', '' )), 'ि' , '' )), 'ी', '')), 'ु','')), 'ू' , '' )), 'े', 
'')), 'ै', '')), 'ो', '')) ,'ौ', '')), 'ं', '' )), 'ः', '')), '्', 
'')), 'ॄ', '')), 'ॢ', '')), 'ॣ', '')
) - (char_length(word) - char_length(replace( word, '्', '' ))) > 1

Original comment by shantanu.oak on 4 Jan 2011 at 7:17