FGRibreau / node-language-detect

🇫🇷 NodeJS language detection library using n-gram
http://blog.fgribreau.com/2011/07/week-end-project-nodejs-language.html
MIT License
397 stars 45 forks source link

Detects "Hello" as "'hawaiian" #29

Closed ajayarjun-bka closed 5 years ago

ajayarjun-bka commented 5 years ago
const LanguageDetect = require('languagedetect');
const lngDetector = new LanguageDetect();
console.log(lngDetector.detect('Hello'));

Output: [ [ 'hawaiian', 0.3786666666666666 ], [ 'italian', 0.2813333333333333 ], [ 'icelandic', 0.2553333333333333 ], [ 'danish', 0.2326666666666667 ], [ 'welsh', 0.22866666666666668 ], [ 'dutch', 0.19666666666666666 ], [ 'english', 0.18600000000000005 ], [ 'finnish', 0.17933333333333334 ], [ 'norwegian', 0.16666666666666663 ], [ 'slovak', 0.15399999999999991 ], [ 'slovene', 0.12466666666666659 ], [ 'pidgin', 0.12466666666666659 ], [ 'hungarian', 0.10733333333333328 ], [ 'spanish', 0.09600000000000009 ], [ 'czech', 0.09533333333333338 ], [ 'azeri', 0.08666666666666667 ], [ 'swedish', 0.08466666666666656 ], [ 'tagalog', 0.08333333333333337 ], [ 'german', 0.07733333333333325 ], [ 'french', 0.07600000000000007 ], [ 'croatian', 0.05733333333333335 ], [ 'portuguese', 0.012666666666666715 ] ]

FGRibreau commented 5 years ago

trigram are not well suited to detect language with so little input, that's why :)

gwashark commented 2 months ago

Hola is also detected as Hawaiian, 67% even though it's Spanish.