liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
11 stars 6 forks source link

【联合国语料】docx表格检测工具 - xml形式里面能不能对齐 #87

Open voidf opened 1 month ago

voidf commented 1 month ago

Liu

voidf commented 3 weeks ago
  1. 先研究怎么从docx里面提取xml,根据xml找一下有没有类似“表格”的结构,然后拿来用?
  2. 你可以找第三方的轮子做这件事
  3. 你可以用解压软件直接把docx打开,然后肉眼看里面的xml布局