Closed fseasy closed 4 years ago
HI,非常感谢,从这里的链接里下载到了非常不好下载的 newsroom 数据集。我看下载的数据以及README里的描述
newsroom
其中公开数据集(CNN/DailyMail, Newsroom, arXiv, PubMed)预处理之后的下载地址:
请问这个预处理具体是怎么做的呢?
预处理
我看结果,里面应该是做了 tokenization, sentence-split 操作,想问一下这两个操作是具体拿什么工具做的呢? 万分感谢!
这个是StanfordCoreNLP做的tokenize,nltk做的sentence split。
HI,非常感谢,从这里的链接里下载到了非常不好下载的
newsroom
数据集。我看下载的数据以及README里的描述请问这个
预处理
具体是怎么做的呢?我看结果,里面应该是做了 tokenization, sentence-split 操作,想问一下这两个操作是具体拿什么工具做的呢? 万分感谢!