BYVoid / OpenCC

Conversion between Traditional and Simplified Chinese
https://opencc.byvoid.com/
Apache License 2.0
8.3k stars 974 forks source link

請教 opencc_phrase_extract 的用法 #854

Closed doggy8088 closed 3 weeks ago

doggy8088 commented 4 months ago

OpenCC 有內建一個 opencc_phrase_extract 工具,因為找不到文件,不太確定用法。

我嘗試用以下命令分析 test\benchmark\zuozhuan.txt 檔案,得到以下詞頻:

opencc_phrase_extract -o G:\zuozhuan.stats.txt -- G:\zuozhuan.txt
请求 450 -7.92801 6.196 8.46437 4.06399 4.40038
进攻 450 -7.92801 6.32893 7.79145 3.96637 3.82508
自己 373 -8.11568 6.63321 8.2558 4.40675 3.84905
作为 360 -8.15115 5.04801 9.17502 4.75278 4.42223
准备 310 -8.30068 7.50026 7.68159 3.32492 4.35667
攻打 303 -8.32352 6.33506 8.10207 3.90545 4.19662
将要 276 -8.41685 5.03276 8.05812 3.76809 4.29003

想請問這裡的每一個欄位分別代表什麼意思?我大概看的懂前兩個,第一個是比對到的詞,第二個欄位是在文章中出現的次數,後面就不知道了。是否有參考文章可以提供進一步瞭解?謝謝。

BYVoid commented 3 weeks ago
    ofs << word << " " << signals.frequency << " " << logProbablity << " "
        << signals.cohesion << " " << entropy << " " << signals.prefixEntropy
        << " " << signals.suffixEntropy << std::endl;

這個工具暫時僅僅內部開發時使用。