issues
search
liyongsea
/
parallel_corpus_mnbvc
parallel corpus dataset from the mnbvc project
Apache License 2.0
8
stars
5
forks
source link
feat[en]: rule-based english paragragh join
#6
Closed
voidf
closed
9 months ago
voidf
commented
1 year ago
针对英文写的一些规则,实现的功能有:
去除每页页码和文件标识符
去除每个文件开头的会议时间、地点、语言、主席名以及一些重复模式
将行首带标号(1. 2.或者是• )的段落特判并且将同段内容合并起来
将满足一些规则的行后的换行符去掉,见下表: 根据观察,有至少三个因素影响一行结尾的回车能不能被删掉
次行首字母是不是小写字母
本行末尾字符是不是句号
本行是不是约有50个字符
voidf
commented
1 year ago
去噪(肉眼看,写规则)
segmentation(中/英分别处理)(找轮子!)
让chatgpt给一个对齐的样例来评判
交给bertalign
voidf
commented
1 year ago
可能用得上的文章:
成段(成句):
https://centre-borelli.github.io/ruptures-docs/examples/text-segmentation/
针对英文写的一些规则,实现的功能有: