parallel-p / thehat

Mobile application for the game «The Hat»
9 stars 1 forks source link

Улучшить графики scatter и heatmap #37

Closed goldvitaly closed 10 years ago

goldvitaly commented 10 years ago

График по длине выглядит очень дискретно и не очень красиво. Я предлагаю доопределить количество слов c фиксированной сложностью до дробных значений длины слова: NUM(E, K + a) = NUM(E, K + 1) * a + NUM(E, K) * (1 - a) (для 0 < a < 1).

Это сделает график более красивым и показывающим тоже самое.

nzinov commented 10 years ago

Возможно лучше поставить количество делений по оси поменьше. Посмотрите, как сейчас

i-pavlov commented 10 years ago

Выглядит неплохо, а что это за странная полоса посреди графика?

nzinov commented 10 years ago

Какого из графиков? Меня смущает вертикальный пробел на scatter для 75%. Он слишком вертикальный.

i-pavlov commented 10 years ago

Он есть на всех scatter. Не может же так случиться, что эти слова не играются.. Возможно, стоит попробовать перезалить частотный словарь, если там все еще frequency --- [1..100]

nzinov commented 10 years ago

Нет, я сделал просто частоты и логарифмическую шкалу. Правда, я залил только те слава, которые всегда существительные. То есть например слова "милый" в частотном словаре нет. Но вряд ли это сильно повлияло. Вроде пробел приходится на 10-20 употреблений на миллион слов.

nzinov commented 10 years ago

Я в частотном словаре нашел этот диапазон: какое слово ни возьму, его нет в глобальном словаре. А как мы для него слова выбирали? Может дело в этом?

nzinov commented 10 years ago

Сейчас попробую перезалить его

i-pavlov commented 10 years ago

Ок. Просто каждый, кто увидит эти графики в первую очередь заинтересуется этим пробелом.

nzinov commented 10 years ago

У меня появилась интересная теория: когда заливали словарь, то слова были упорядочены по частоте. И тот task в котором был этот диапазон провалился почему-то

i-pavlov commented 10 years ago

Потому что слов слишком много, такое было пару раз. Точнее не слов, а суммарная длина большая

nzinov commented 10 years ago

Кстати, у нас какое-то тормознутое удаление слов из словаря. Зачем ему считывать слова, если для удаления достаточно ключа?

i-pavlov commented 10 years ago

Да не за чем. Я и думал, почему так долго.

nzinov commented 10 years ago

Там можно очень хорошо соптимизировать:

keys = GlobaldictionaryWord.query().fetch(keys_only=True)
ndb.delete_multi(keys)
nzinov commented 10 years ago

О, вот теперь неплохо выглядит. Только теперь в 75% используемых слов входят и совсем не используемые. Так что полоска проходит по графику. Кстати, там тоже нужно оптимизировать: зачем-то из словаря извлекаются все слова, даже если понадобится 10%