Open GoogleCodeExporter opened 8 years ago
One or Two character words conflict with the spellcheck logic. The number of
such
small words needs to be kept to the minimum. Therefore one or two character
words
should not be added unless they are very popular.
delete from wordbase
WHERE char_length( word ) + 0 < 3 and verified > 0
AND (word LIKE ('%्%') OR word LIKE ('%ा%') OR word LIKE ('%ि%')
OR word LIKE ('%ी%') OR word LIKE ('%ु%') OR word LIKE ('%ू%')
OR word LIKE ('%े%') OR word LIKE ('%ै%') OR word LIKE ('%ो%')
OR word LIKE ('%ौ%') OR word LIKE ('%ं%') OR word LIKE ('%ः%')
) AND word NOT IN ('हा','जे', 'मी', 'हो', 'ही', 'या',
'घे', 'जा', 'ती', 'दे',
'तो', 'तू', 'का', 'की', 'ना', 'कै', 'नि', 'धू',
'फी', 'गा', 'हे', 'जे', 'जी', 'की', 'ये',
'चे', 'पी', 'मे', 'जो', 'ते') limit 50
Original comment by shantanu.oak
on 7 Jul 2009 at 5:54
Very small words those were marked as correct, made available for checking:
UPDATE wordbase SET verified = 0 WHERE char_length( word ) +0 <3 AND verified >0
LIMIT 300
Original comment by shantanu.oak
on 8 Jul 2009 at 7:17
Correct Words:
अट, आई, आग, आच, आज, आठ, आड, आण, आत, आळ,
आव, आस, ईद, ईश, उन, उर, उस, ऊत, ऊद, ऊन,
ऊब,
ऊर, ऊस, ऋण, एक, ऐक, ऐन, ऐष, ऑन, ऑफ, ऑल,
ओ, ओक, ओघ, ओज, ओठ, ओढ, ओत, ओल, ओळ, ओस,
ओह,
औट, औत, कच, कट, कड, कढ, कण, कद, कप, कफ,
कर, कल, कळ, कस, का, की, कै, खच, खट, खण,
खत,
खप, खल, खळ, गट, गड, गत, गय, गळ, घट, घण,
घन, घर, घळ, घे, चढ, चर, चल, चळ, चव, छट,
छत,
छल, छळ, जग, जज, जड, जण, जन, जप, जम, जय,
जर, जल, जळ, जा, जी, जे, जो, झक, झळ, टक,
टन,
टफ, टर, ठग, ढग, ढब, तग, तट, तप, तम, तर,
तळ, तव, तह, ती, तू, ते, तो, थर, दम, दर,
दल, दव,
दे, धग, धड, धन, न, नऊ, नख, नग, नट, नथ,
नभ, नर, नळ, नव, नस, ना, नि, पट, पड, पण,
पत, पथ,
पद, पब, पर, पल, पळ, फट, फड, फल, फळ, फी,
बघ, बट, बन, बल, बळ, बस, भट, भय, भर, भव,
मऊ,
मग, मठ, मत, मद, मध, मन, मर, मळ, मी, मे,
यम, यश, या, ये, रग, रज, रण, रत, रथ, रस,
लढ, लव,
व, वग, वड, वद, वध, वन, वय, वर, वळ, वश,
शक, शव, शह, सई, सण, सन, सम, सर, सल, सह,
हज,
हट, हा, ही, हे, हो, ०, १, २, ३, ४, ५, ६, ७,
८, ९
Wrong Words:
अ, अज, अत, अध, अन, अल, आ, आप, आम, आय, इ,
इन, ई, उप, ऍज, ऍड, ऍन, ए, एन, एफ, ऐश, ऑ,
ओम,
औ, और, कम, कश, ख, खद, गप, गम, घम, च, चे,
जब, डच, डल, द, नम, पय, फन, फस, बर, म,
यव, यस,
रन, रफ, रम, लई, लय, वच, सब, हब, हम;
Original comment by shantanu.oak
on 8 Jul 2009 at 7:33
[deleted comment]
मराठी स्पेलचेकचे जे नवीन
एड-ऑन बनविले आहे त्यात एका
अक्षराचे शब्द नसल्यामुळे
गोंधळ होत आहे. " ले ला ना च्या चे
ची चि चा " अशी अक्षरे सुटी सुटी
दिसल्यासारखी मार्क होत आहेत.
त्याचे कारण मूळ डेटाबेसमध्ये
ती अक्षरे नाहीत. ही अक्षरे
त्यात जमा करून नवी डिक्शनरी
उपलब्ध करून दिली की ही समस्या
येणार नाही. आणखी मला काही
अक्षरे मिळाली आहेत, ती अशी, डी
से वा के को व
delete from wordbase where word in ('ले', 'ला', 'ना',
'च्या', 'चे', 'ची', 'चि', 'चा', 'डी', 'से',
'वा', 'के', 'को', 'व', 'सा', 'पा', 'दि', 'हि',
'श', 'शि', 'शी', 'नि', 'नी', 'ने', 'वे', 'टी',
'पी') limit 220
Original comment by shantanu.oak
on 30 Jun 2010 at 10:36
विचारणारा चे
असे लिहीले तर दोन्ही शब्द
बरोबर म्हणून दाखविले जात आहे.
पण यात दुसरा शब्द "चे" चुकीचा
आहे. त्यामुळे कमीत कमी
एकाक्षर शब्द ठेवण्याचे
पूर्वीचे धोरण बरोबर होते असा
नवा निष्कर्ष पुढे आल्यामुळे
खाली दिलेले शब्द काढले.
के को चा चि ची चे च्या टी डी
दि ना नि नी ने पा पी ला ले व वा
वे श शि शी सा से हि
हे सर्व शब्द एकाच दिवशी (30 June)
जमा केले होते त्यामुळे
त्यांची किंमत निगेटीव्ह करणे
सोपे गेले.
update wordbase set verified = DATE_FORMAT( current_date( ) , '%Y%m%d' ) * -1
WHERE verified =20100630
LIMIT 30
या सर्व शब्दांची किंमत आता
आहे: -20101015
Original comment by shantanu.oak
on 15 Oct 2010 at 2:17
SELECT *, char_length(
replace((replace ((replace ((replace ((replace ((replace ((replace ((replace
((replace ((replace ((replace ((replace((replace ((replace ((replace( word,
'ा', '' )), 'ि' , '' )), 'ी', '')), 'ु','')), 'ू' , '' )), 'े',
'')), 'ै', '')), 'ो', '')) ,'ौ', '')), 'ं', '' )), 'ः', '')), '्',
'')), 'ॄ', '')), 'ॢ', '')), 'ॣ', '')
) - (char_length(word) - char_length(replace( word, '्', '' ))) as my_length
FROM wordbase
WHERE character_length(word) <= 3 and verified > 0
AND
char_length(word) -
char_length(
replace((replace ((replace ((replace ((replace ((replace ((replace ((replace
((replace ((replace ((replace ((replace((replace ((replace ((replace( word,
'ा', '' )), 'ि' , '' )), 'ी', '')), 'ु','')), 'ू' , '' )), 'े',
'')), 'ै', '')), 'ो', '')) ,'ौ', '')), 'ं', '' )), 'ः', '')), '्',
'')), 'ॄ', '')), 'ॢ', '')), 'ॣ', '')
) - (char_length(word) - char_length(replace( word, '्', '' ))) > 1
Original comment by shantanu.oak
on 4 Jan 2011 at 7:17
Original issue reported on code.google.com by
shantanu.oak
on 11 Jun 2009 at 11:18