Closed CNMan closed 5 years ago
cat UnicodeCJK-WuBi06/CJ*.txt | awk '{ print $3 }' | sort | uniq -c | sort -nr | head -n 3000 >chongma.txt
统计重码前3000,第一行请忽略
5085=(92960-92884)+7+5002
https://cnnews.info/share/uploads/chongma.txt
多多码表编辑器统计信息
--------------------统计信息开始------------------ 编码总数: 99074个 重码总数: 58507个,占编码总数的 59.05% 码元集总数: 25个,所有码元:abcdefghijklmnopqrstuvwxy 各码元占用率统计如下: 编码 a 出现次数 17117 ,占码表编码字符总数的 4.51%。 编码 b 出现次数 8971 ,占码表编码字符总数的 2.36%。 编码 c 出现次数 11574 ,占码表编码字符总数的 3.05%。 编码 d 出现次数 15989 ,占码表编码字符总数的 4.21%。 编码 e 出现次数 14399 ,占码表编码字符总数的 3.80%。 编码 f 出现次数 22533 ,占码表编码字符总数的 5.94%。 编码 g 出现次数 24467 ,占码表编码字符总数的 6.45%。 编码 h 出现次数 20718 ,占码表编码字符总数的 5.46%。 编码 i 出现次数 12133 ,占码表编码字符总数的 3.20%。 编码 j 出现次数 15240 ,占码表编码字符总数的 4.02%。 编码 k 出现次数 18413 ,占码表编码字符总数的 4.85%。 编码 l 出现次数 9493 ,占码表编码字符总数的 2.50%。 编码 m 出现次数 13305 ,占码表编码字符总数的 3.51%。 编码 n 出现次数 19036 ,占码表编码字符总数的 5.02%。 编码 o 出现次数 13586 ,占码表编码字符总数的 3.58%。 编码 p 出现次数 9978 ,占码表编码字符总数的 2.63%。 编码 q 出现次数 16014 ,占码表编码字符总数的 4.22%。 编码 r 出现次数 10712 ,占码表编码字符总数的 2.82%。 编码 s 出现次数 10224 ,占码表编码字符总数的 2.70%。 编码 t 出现次数 21665 ,占码表编码字符总数的 5.71%。 编码 u 出现次数 13684 ,占码表编码字符总数的 3.61%。 编码 v 出现次数 8695 ,占码表编码字符总数的 2.29%。 编码 w 出现次数 20925 ,占码表编码字符总数的 5.52%。 编码 x 出现次数 8808 ,占码表编码字符总数的 2.32%。 编码 y 出现次数 21665 ,占码表编码字符总数的 5.71%。 ----------------------------------- 1键编码总数 : 75个,占编码总数的 0.08%,码元空间利用率: 300.00% 2键编码总数 : 1747个,占编码总数的 1.76%,码元空间利用率: 279.52% 3键编码总数 : 13233个,占编码总数的 13.36%,码元空间利用率: 84.69% 4键编码总数 : 84019个,占编码总数的 84.80%,码元空间利用率: 21.51% 多键编码总数: 0个,占编码总数的 0.00%,码元空间利用率无法统计. ----------------------------------- 1键重码数 : 75个,占1键编码总数的 100.00%,占重码总数的 0.13%,占编码总数的 0.08% 2键重码数 : 1725个,占2键编码总数的 98.74%,占重码总数的 2.95%,占编码总数的 1.74% 3键重码数 : 9173个,占3键编码总数的 69.32%,占重码总数的 15.68%,占编码总数的 9.26% 4键重码数 : 47534个,占4键编码总数的 56.58%,占重码总数的 81.24%,占编码总数的 47.98% 多键重码数: 0个,占多键编码总数的 0.00%,占重码总数的 0.00%,占编码总数的 0.00% ----------------------------------- 单字数 : 99074个,占编码总数的 100.00% 二字词数: 0个,占编码总数的 0.00% 三字词数: 0个,占编码总数的 0.00% 四字词数: 0个,占编码总数的 0.00% 多字词数: 0个,占编码总数的 0.00% ----------------------------------- 相同词条编码重定义(容错码)总数: 20926个,占编码总数的 21.12%,其中: 单字编码重定义数 : 20926个,占重定义总数的 100.00%,占编码总数的 21.12% 二字词编码重定义数: 0个,占重定义总数的 0.00%,占编码总数的 0.00% 三字词编码重定义数: 0个,占重定义总数的 0.00%,占编码总数的 0.00% 四字词编码重定义数: 0个,占重定义总数的 0.00%,占编码总数的 0.00% 多字词编码重定义数: 0个,占重定义总数的 0.00%,占编码总数的 0.00% --------------------统计信息结束------------------
统计重码前3000,第一行请忽略
5085=(92960-92884)+7+5002
https://cnnews.info/share/uploads/chongma.txt
多多码表编辑器统计信息