CNMan / UnicodeCJK-WuBi06

新世纪版五笔字型超大字符集编码
https://06wb.github.io/
156 stars 37 forks source link

静态重码统计bash命令 #16

Closed CNMan closed 5 years ago

CNMan commented 6 years ago
cat UnicodeCJK-WuBi06/CJ*.txt | awk '{ print $3 }' | sort | uniq -c | sort -nr | head -n 3000 >chongma.txt

统计重码前3000,第一行请忽略

5085=(92960-92884)+7+5002

https://cnnews.info/share/uploads/chongma.txt

多多码表编辑器统计信息

--------------------统计信息开始------------------

编码总数:   99074个
重码总数:   58507个,占编码总数的 59.05%
码元集总数:    25个,所有码元:abcdefghijklmnopqrstuvwxy
各码元占用率统计如下:
编码 a 出现次数    17117 ,占码表编码字符总数的  4.51%。
编码 b 出现次数     8971 ,占码表编码字符总数的  2.36%。
编码 c 出现次数    11574 ,占码表编码字符总数的  3.05%。
编码 d 出现次数    15989 ,占码表编码字符总数的  4.21%。
编码 e 出现次数    14399 ,占码表编码字符总数的  3.80%。
编码 f 出现次数    22533 ,占码表编码字符总数的  5.94%。
编码 g 出现次数    24467 ,占码表编码字符总数的  6.45%。
编码 h 出现次数    20718 ,占码表编码字符总数的  5.46%。
编码 i 出现次数    12133 ,占码表编码字符总数的  3.20%。
编码 j 出现次数    15240 ,占码表编码字符总数的  4.02%。
编码 k 出现次数    18413 ,占码表编码字符总数的  4.85%。
编码 l 出现次数     9493 ,占码表编码字符总数的  2.50%。
编码 m 出现次数    13305 ,占码表编码字符总数的  3.51%。
编码 n 出现次数    19036 ,占码表编码字符总数的  5.02%。
编码 o 出现次数    13586 ,占码表编码字符总数的  3.58%。
编码 p 出现次数     9978 ,占码表编码字符总数的  2.63%。
编码 q 出现次数    16014 ,占码表编码字符总数的  4.22%。
编码 r 出现次数    10712 ,占码表编码字符总数的  2.82%。
编码 s 出现次数    10224 ,占码表编码字符总数的  2.70%。
编码 t 出现次数    21665 ,占码表编码字符总数的  5.71%。
编码 u 出现次数    13684 ,占码表编码字符总数的  3.61%。
编码 v 出现次数     8695 ,占码表编码字符总数的  2.29%。
编码 w 出现次数    20925 ,占码表编码字符总数的  5.52%。
编码 x 出现次数     8808 ,占码表编码字符总数的  2.32%。
编码 y 出现次数    21665 ,占码表编码字符总数的  5.71%。
-----------------------------------
1键编码总数 :      75个,占编码总数的 0.08%,码元空间利用率: 300.00%
2键编码总数 :    1747个,占编码总数的 1.76%,码元空间利用率: 279.52%
3键编码总数 :   13233个,占编码总数的 13.36%,码元空间利用率: 84.69%
4键编码总数 :   84019个,占编码总数的 84.80%,码元空间利用率: 21.51%
多键编码总数:       0个,占编码总数的 0.00%,码元空间利用率无法统计.
-----------------------------------
1键重码数 :      75个,占1键编码总数的 100.00%,占重码总数的 0.13%,占编码总数的 0.08%
2键重码数 :    1725个,占2键编码总数的 98.74%,占重码总数的 2.95%,占编码总数的 1.74%
3键重码数 :    9173个,占3键编码总数的 69.32%,占重码总数的 15.68%,占编码总数的 9.26%
4键重码数 :   47534个,占4键编码总数的 56.58%,占重码总数的 81.24%,占编码总数的 47.98%
多键重码数:       0个,占多键编码总数的 0.00%,占重码总数的 0.00%,占编码总数的 0.00%
-----------------------------------
单字数  :   99074个,占编码总数的 100.00%
二字词数:       0个,占编码总数的 0.00%
三字词数:       0个,占编码总数的 0.00%
四字词数:       0个,占编码总数的 0.00%
多字词数:       0个,占编码总数的 0.00%
-----------------------------------
相同词条编码重定义(容错码)总数:   20926个,占编码总数的 21.12%,其中:
单字编码重定义数  :   20926个,占重定义总数的 100.00%,占编码总数的 21.12%
二字词编码重定义数:       0个,占重定义总数的 0.00%,占编码总数的 0.00%
三字词编码重定义数:       0个,占重定义总数的 0.00%,占编码总数的 0.00%
四字词编码重定义数:       0个,占重定义总数的 0.00%,占编码总数的 0.00%
多字词编码重定义数:       0个,占重定义总数的 0.00%,占编码总数的 0.00%

--------------------统计信息结束------------------