wainshine / Chinese-Names-Corpus

中文人名语料库。人名生成器。中文姓名,姓氏,名字,称呼,日本人名,翻译人名,英文人名。可用于中文分词、人名实体识别。
https://open.namemoe.com/
Apache License 2.0
3.95k stars 984 forks source link

请问能否提供下不删除生僻字和低频字的数据呢?我们想统计下非一级字频的比例 #10

Closed smilelc3 closed 5 years ago

smilelc3 commented 5 years ago

请问能否提供下不删除生僻字和低频字的数据呢?我们想统计下非一级字频的比例

wainshine commented 5 years ago

你好,萌名的词频数据,不会公开。

不过,observerss的“根据姓名来判断性别”里有一份词频表,你可以去看看:https://github.com/observerss/ngender/blob/master/ngender/charfreq.csv