hatbot-team / hatbot_resources

Repository for raw data and its processing
MIT License
1 stars 0 forks source link

Совпадающие в точности объяснения #27

Closed moskupols closed 9 years ago

moskupols commented 9 years ago

Не дубликат :smile:. Количества объяснений в мастере, которые совпадают с точностью до title и text:

for i in *.asset; do echo $i; cut -f1,2 $i | sort | uniq -d | wc -l ; done
Antonyms.asset
15
BookTitles.asset
348
Collocations.asset
1
Crosswords.asset
1
Definitions.asset
11
FilmTitles.asset
82
Phraseological.asset
3
Sample.asset
0
Synonyms.asset
65

Как видно, беда в основном в Synonyms и BookTitles/FilmTitles. prior_rate у коллизий, как правило, разный.

AlexeyZhuravlev commented 9 years ago

Исправил проблему везде, кроме толкового словаря:

for i in *.asset; do echo $i; cut -f1,2 $i | sort | uniq -d | wc -l ; done
Antonyms.asset
0
BookTitles.asset
0
Collocations.asset
0
Crosswords.asset
0
Definitions.asset
11
FilmTitles.asset
0
Phraseological.asset
0
Synonyms.asset
0
moskupols commented 9 years ago

Круто, Ожегова, вероятно, лучше подождать нового от @makrusak

AlexeyZhuravlev commented 9 years ago
for i in *.asset; do echo $i; cut -f1,2 $i | sort | uniq -d | wc -l ; done
Antonyms.asset
0
BookTitles.asset
0
Collocations.asset
0
Crosswords.asset
0
Definitions.asset
0
FilmTitles.asset
0
Ngram.asset
0
Phraseological.asset
0
Synonyms.asset
0