weiqk / language-detection

Automatically exported from code.google.com/p/language-detection
0 stars 0 forks source link

Test case results vary from run to run when using getProbabilities() on same English/French strings #69

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
What steps will reproduce the problem?
1. Set up a detector using the provided profile directory.
2.

Do language detection on the following strings which are a mix of French and 
English. Using the getProbabilities() method.

This is a wonderful way to live, don't you think so too? Elle est une fille 
tres intelligent

Elle est une fille tres intelligent. This is a wonderful way to live, don't you 
think so too? 

This is a wonderful way to live, don't you think so too? Elle est une fille 
tres intelligent. Jour d'une étudiante à la bibliothèque. Les personnages 
des deux premières versions du jeu sous forme de gif animés. Comprend aussi 
d'autres gif animés sur d'autres jeux et thèmes. 

Don't you think so too? Elle est une fille tres intelligent. Jour d'une 
étudiante à la bibliothèque. Les personnages des deux premières versions du 
jeu sous forme de gif animés. Comprend aussi d'autres gif animés sur d'autres 
jeux et thèmes. 

Think so too? Elle est une fille tres intelligent. Jour d'une étudiante à la 
bibliothèque. Les personnages des deux premières versions du jeu sous forme 
de gif animés. Comprend aussi d'autres gif animés sur d'autres jeux et 
thèmes. 

Think? Elle est une fille tres intelligent. Jour d'une étudiante à la 
bibliothèque.Les personnages des deux premières versions du jeu sous forme de 
gif animés. Comprend aussi d'autres gif animés sur d'autres jeux et thèmes.

3.

What is the expected output? What do you see instead?

The first issue is that the results vary!
I will see results which show everything is English, for all
strings. Then I can this test case again and it produces some results
for a mix of English and French. The mixed probabilities are still wrong, but 
that is not my primary issue here. My primary issue is
that the results actually vary! 

I ran the test case multiple times, and found that sometimes it produced one 
kind of output, and then sometimes it produced the other.

The actual results are incorrect too, but it is understood that the amount of 
text provided is small. So my first issue is that
the results are not consistent, but can vary from run to run.

Here are two test cases runs and their output...

--- <<One run of the test case>>.....

This is a wonderful way to live, don't you think so too? Elle est une fille 
tres intelligent

  en:0.9999984310213037

Elle est une fille tres intelligent. This is a wonderful way to live, don't you 
think so too? 

  en:0.9999958260252672

This is a wonderful way to live, don't you think so too? Elle est une fille 
tres intelligent. Jour d'une étudiante à la bibliothèque. Les personnages 
des deux premières versions du jeu sous forme de gif animés. Comprend aussi 
d'autres gif animés sur d'autres jeux et thèmes. 

  en:0.9999965221169911

Don't you think so too? Elle est une fille tres intelligent. Jour d'une 
étudiante à la bibliothèque. Les personnages des deux premières versions du 
jeu sous forme de gif animés. Comprend aussi d'autres gif animés sur d'autres 
jeux et thèmes. 

  en:0.9999967012613631

Think so too? Elle est une fille tres intelligent. Jour d'une étudiante à la 
bibliothèque. Les personnages des deux premières versions du jeu sous forme 
de gif animés. Comprend aussi d'autres gif animés sur d'autres jeux et 
thèmes. 

  en:0.8571409211892799
  fr:0.14285614364391172

Think? Elle est une fille tres intelligent. Jour d'une étudiante à la 
bibliothèque.Les personnages des deux premières versions du jeu sous forme de 
gif animés. Comprend aussi d'autres gif animés sur d'autres jeux et thèmes.

  en:0.9999967379292005

--- <<Another run of the test case>>.....

This is a wonderful way to live, don't you think so too? Elle est une fille 
tres intelligent

  en:0.9999960212736638

Elle est une fille tres intelligent. This is a wonderful way to live, don't you 
think so too? 

  en:0.9999976272295874

This is a wonderful way to live, don't you think so too? Elle est une fille 
tres intelligent. Jour d'une étudiante à la bibliothèque. Les personnages 
des deux premières versions du jeu sous forme de gif animés. Comprend aussi 
d'autres gif animés sur d'autres jeux et thèmes. 

  en:0.9999949693813923

Don't you think so too? Elle est une fille tres intelligent. Jour d'une 
étudiante à la bibliothèque. Les personnages des deux premières versions du 
jeu sous forme de gif animés. Comprend aussi d'autres gif animés sur d'autres 
jeux et thèmes. 

  en:0.999997346681345

Think so too? Elle est une fille tres intelligent. Jour d'une étudiante à la 
bibliothèque. Les personnages des deux premières versions du jeu sous forme 
de gif animés. Comprend aussi d'autres gif animés sur d'autres jeux et 
thèmes.

  en:0.9999966219581277

Think? Elle est une fille tres intelligent. Jour d'une étudiante à la 
bibliothèque.Les personnages des deux premières versions du jeu sous forme de 
gif animés. Comprend aussi d'autres gif animés sur d'autres jeux et thèmes.

  en:0.9999962868341218

What version of the product are you using? On what operating system?

langdetect-03-03-2014 on
Windows 7

Please provide any additional information below.

Ran these tests within JetBrains Intellij 11.0
I have not yet run the same tests from a command line outside of IntelliJ. And 
yes, this is an older version of the community
edition of IntelliJ.

Original issue reported on code.google.com by sfgo...@gmail.com on 12 Jun 2014 at 4:09