Closed goldvitaly closed 10 years ago
Возможно лучше поставить количество делений по оси поменьше. Посмотрите, как сейчас
Выглядит неплохо, а что это за странная полоса посреди графика?
Какого из графиков? Меня смущает вертикальный пробел на scatter для 75%. Он слишком вертикальный.
Он есть на всех scatter. Не может же так случиться, что эти слова не играются.. Возможно, стоит попробовать перезалить частотный словарь, если там все еще frequency --- [1..100]
Нет, я сделал просто частоты и логарифмическую шкалу. Правда, я залил только те слава, которые всегда существительные. То есть например слова "милый" в частотном словаре нет. Но вряд ли это сильно повлияло. Вроде пробел приходится на 10-20 употреблений на миллион слов.
Я в частотном словаре нашел этот диапазон: какое слово ни возьму, его нет в глобальном словаре. А как мы для него слова выбирали? Может дело в этом?
Сейчас попробую перезалить его
Ок. Просто каждый, кто увидит эти графики в первую очередь заинтересуется этим пробелом.
У меня появилась интересная теория: когда заливали словарь, то слова были упорядочены по частоте. И тот task в котором был этот диапазон провалился почему-то
Потому что слов слишком много, такое было пару раз. Точнее не слов, а суммарная длина большая
Кстати, у нас какое-то тормознутое удаление слов из словаря. Зачем ему считывать слова, если для удаления достаточно ключа?
Да не за чем. Я и думал, почему так долго.
Там можно очень хорошо соптимизировать:
keys = GlobaldictionaryWord.query().fetch(keys_only=True)
ndb.delete_multi(keys)
О, вот теперь неплохо выглядит. Только теперь в 75% используемых слов входят и совсем не используемые. Так что полоска проходит по графику. Кстати, там тоже нужно оптимизировать: зачем-то из словаря извлекаются все слова, даже если понадобится 10%
График по длине выглядит очень дискретно и не очень красиво. Я предлагаю доопределить количество слов c фиксированной сложностью до дробных значений длины слова: NUM(E, K + a) = NUM(E, K + 1) * a + NUM(E, K) * (1 - a) (для 0 < a < 1).
Это сделает график более красивым и показывающим тоже самое.