Nashev / TextBrain

experiments with AI;
http://innenashev.narod.ru
4 stars 1 forks source link

График изменения частотности слов/словосочетаний в текстах из одного источника в разное время #170

Open Nashev opened 2 years ago

Nashev commented 2 years ago

В частности, из блога одного автора, из ленты новостей одной газеты/страны, из корпуса всех тестов на одном языке и т.п.

Интересно было бы увидеть, как меняется повестка, терминология и т.п.

Представляю себе на ленте времени множество линий, из которых один пучок идёт поверху (это всякие союзы и прочие часто и повсеместно встречающиеся слова), довольно большое количество линий под ним тоже идут почти горизонтально (это не столь частые, но не специфические слова), некоторое количество одноразовых слов где-то внизу, и самое интересное — кажется, должны быть слова, линии которых будут похожи на шляпы разных форм: в какой-то момент появляются, активно используются некоторое время, и затем с той или иной скоростью выходят из употребления.

Все эти категории слов по-своему интересны.

На ленте времени тут могут быть предложения, абзацы, главы, тексты, корпуса за день, неделю, месяц, год, пятилетку, и т.п. Суммирование за разные периоды может, кажется, менять форму шляп и выявлять разные шляпы на разных периодах. И сглаживать горизонтали должно...

Аналог - https://trends.google.ru/trends/?geo=RU, но там ещё и географическая «шкала» есть