wjn1996 / scrapy_for_zh_wiki

基于scrapy的层次优先队列方法爬取中文维基百科,并自动抽取结构和半结构数据
128 stars 19 forks source link

能将爬取出来的实例分享一下格式吗 #1

Open Lan1991Xu opened 3 years ago

wjn1996 commented 3 years ago

您好,数据格式样例如下:

      {
          'entity': 'KTorrent',
          'category': ['KDE Extragear', '使用Qt的软体'],
          'url': 'https://zh.wikipedia.org/wiki/KTorrent',
          'time': '1606017460.8569758',
          'structure_know': {'开发者': 'JorisGuisson,IvanVasić', '稳定版本': '5.2.0(2020年6月6日,\u200b5个月前\u200b(2020-06-06))'},
          'corrseponding_know': [{'KDE': [{'软体集': ['KDE 1', 'KDE 2', 'KDE SC 4', 'KDE Applications', 'KDE Plasma 5', '第四版以后', 'KDE 3', 'KDE Frameworks 5']}, {'其他': ['BitTorrent Open Source License', 'aXXo', 'Peer Media Technologies', 'MPAA', 'TorrentFreak', 'Slyck.com']}]}],
          'smi-structure_know':
          {
              'abstract': [['KTorrent', '是使用', 'C++', '和', 'Qt', '写的BitTorrent客户端。被分类于KDE', 'Extragear', '中。']],
              'paragraphs': {'功能': [['上传和下载速度上限/节流与调度', '互联网搜索与种子搜索引擎使用', 'KHTML', 'part', '支持', 'UDP', '连接。', 'DHT', ',可支援没有', 'tracker', '的种子', '协议加密', '文件优先序', 'RSS', '来源支持', '支援', 'UPnP', 'IPv6', '支持', 'SOCKS', 'v4 和 v5 支持', '新的伫列管理 GUI', 'IP地址过滤'], ['KTorrent 4的新特点:'], ['支援', 'µTP', '协议', '支援', 'Magnet链接', '增强的队列管理器', '添加', 'UDP', 'tracker scrape', '可暂时禁用网路验证和频宽调度器']]},
              'entities': {'SOCKS', 'Tracker', 'Wikipedia:失效链接', '互联网档案馆', 'KPart', 'RSS', 'KGet', 'Magnet链接', 'KHTML', 'Micro Transport Protocol', 'Extragear', 'DHT', 'Qt', 'Tracker scrape(页面不存在)', 'UPnP', 'IPv6', 'C++', 'UDP'}
          }
      }