liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
11 stars 6 forks source link

【术语库】SDL Trados微软术语库 #78

Closed voidf closed 2 months ago

voidf commented 3 months ago

https://pan.baidu.com/s/1hVTWjATzRN9qosz8YXi6RQ?pwd=vs6s

这是翻译工具 trados的术语库 微软官方的 。里面数据应该都是整句句子翻译。

voidf commented 2 months ago

词语太多,实际看了下数据觉得质量太差,放弃处理。统计结果:

包含2个单词的句子数量及占总行数比例:
数量: 388626, 比例: 51.12%
包含1个单词的句子数量及占总行数比例:
数量: 194832, 比例: 25.63%
包含3个单词的句子数量及占总行数比例:
数量: 126549, 比例: 16.65%
包含4个单词的句子数量及占总行数比例:
数量: 34069, 比例: 4.48%
包含6个单词的句子数量及占总行数比例:
数量: 3534, 比例: 0.46%
包含5个单词的句子数量及占总行数比例:
数量: 10063, 比例: 1.32%
包含8个单词的句子数量及占总行数比例:
数量: 568, 比例: 0.07%
包含9个单词的句子数量及占总行数比例:
数量: 297, 比例: 0.04%
包含10个单词的句子数量及占总行数比例:
数量: 118, 比例: 0.02%
包含7个单词的句子数量及占总行数比例:
数量: 1364, 比例: 0.18%
包含13个单词的句子数量及占总行数比例:
数量: 35, 比例: 0.00%
包含11个单词的句子数量及占总行数比例:
数量: 79, 比例: 0.01%
包含12个单词的句子数量及占总行数比例:
数量: 53, 比例: 0.01%
包含31个单词的句子数量及占总行数比例:
数量: 1, 比例: 0.00%
包含28个单词的句子数量及占总行数比例:
数量: 1, 比例: 0.00%
包含15个单词的句子数量及占总行数比例:
数量: 13, 比例: 0.00%
包含16个单词的句子数量及占总行数比例:
数量: 13, 比例: 0.00%
包含17个单词的句子数量及占总行数比例:
数量: 8, 比例: 0.00%
包含14个单词的句子数量及占总行数比例:
数量: 20, 比例: 0.00%
包含18个单词的句子数量及占总行数比例:
数量: 8, 比例: 0.00%
包含19个单词的句子数量及占总行数比例:
数量: 3, 比例: 0.00%
包含23个单词的句子数量及占总行数比例:
数量: 5, 比例: 0.00%
包含22个单词的句子数量及占总行数比例:
数量: 3, 比例: 0.00%
包含20个单词的句子数量及占总行数比例:
数量: 3, 比例: 0.00%
包含25个单词的句子数量及占总行数比例:
数量: 1, 比例: 0.00%
包含29个单词的句子数量及占总行数比例:
数量: 1, 比例: 0.00%
voidf commented 2 months ago

关闭之前分派给霖,后续有疑问再交接