facebookresearch / cc_net

Tools to download and cleanup Common Crawl data
MIT License
972 stars 142 forks source link

从wet格式中提取文本 #46

Open wwfcnu opened 1 year ago

wwfcnu commented 1 year ago

我已经下好了文件,如何提取呢,脚本是下载和提取一起的,我只想要提取部分,该怎么处理

hfjiao commented 1 year ago

你现在解决这个问题了吗? 我也想知道处理方式

yangyang0202 commented 1 year ago

你好。请问你解决了吗?