Semantic Web的应用现状与发展前景

本文的契机是一个报告， Is the Semantic Web what we expected? Adoption Patterns and Content-driven Challenges (ISWC 2016 Keynote) by Chris Bizer

这个报告用Web上的真实数据统计来解读Semantic Web，确切的说linked data这一部分的现状。linked data 的几个特征：公网数据（on public web）, 多数据源（many data sources）, 自主发布（no central control）。其主要发布方式为 linked open data (这方面以dbpedia, wikidata 为代表) , html-embedded data （这方面以schema.org 的common crawl的解析结果为代表)。从他的报告出发，梳理一下我对linked data, semantic web 和知识图谱的一些看法。

一、 linked data 在过去的几年里年中没有实质进展。Linked Data Stat 2017年的统计是这样的 “149,423,660,620 triples from 2973 datasets (192,230,648 triples from 2838 dumps, 149,231,429,972 from 151 datasets via SPARQL)”。近2亿triple来自dump, 1400亿triple来自SPARQL看起来还是有些夸张的。那再仔细看数据集层面的统计， SPARQL endpoint 版本的数据里充斥着融合的数据和重复的数据，最大的数据集仍然是dbpedia 和 Geodata。现在linked data publishing的特征还是跟十几年前semantic web类似，类名缺乏复用, 属性名依然就是复用rdf, dc, foaf

二、 schema.org 的应用突飞猛进 common crawl 到2016年底，已经可以解析出440亿triple，其增长趋势还是比较明显的。这可以算是搜索引擎优化（SEO）驱动的结果。

基于2015的统计，其领域网站覆盖率为：电商：60%，旅行：86%，工作：70%

三、 linked data 和schema.org 到底满足了Semantic Web的预期没有？从下表中可以看出schema.org的数据应用价值更大。但是semantic web 的预期却仍然存在疑团。从整个报告中看，搜索引擎是给semantic web 买单的最大客户（schema.org），另外一大客户是科学家（linked data)。虽然schema.org对于搜索引擎确实有一定的意义，进一步在应用中使用这些数据还不是非常清晰，特别在没有数据质量控制和数据融合的情况下。对于科学家而言，linked data 的潜力毋庸置疑，但可衡量的应用价值却仍然没有太多的事实支持。进一步说，semantic web 的预期大多都是针对数据发布者的，这样就缺乏对数据使用者的预期，也不容真正打通价值实现的闭环，让数据发布者和使用者形成互益的生态圈。这样，linked data 要想在工业中应用，仍然要解决利益分享的问题，也就是说，让数据发布者有足够的利益为数据使用者着想。

四、数据发布的走向。报告中提到了数据发布的四个常见问题。但是这些问题本质上还是因为数据发布者是基于最大化自身利益，最小化发布成本的角度来看的。这种现象或者因新的利益分配机制而改变，或者就会一直持续下去。那么一个肥胖的客户端就是数据使用者不可避免的开发代价。如果涉及到足够大的利益，知识图谱生产服务作为中间商就会应运而生。

Missing links and shared identifiers -- 如果互联了产品实体，那消费者全网比价怎么办？
Flat data structures -- 数据库表就是那样，深度结构化用户也无法感知
Heterogeneity of taxonomies -- 产品分类本质上是各家营销优化策略
Mixed data quality -- 书籍质量高能给我带来更大流量吗？

总结。

不论是linked data, html-embedded data 都是代价不小的数据发布方式。数据发布的可衡量价值（提高影响力，导引流量）以及发布难度（使用插件，自主发布）决定了这些技术被数据发布者采用的可能性。
领域知识图谱生产服务的契机，在某些有明确价值的领域中，构建从原始数据到数据使用的桥梁。领域知识图谱的质量也可以依据应用的需求从semantic network 到严谨的数据库表格选择。

lidingpku / DataReused

Semantic Web的应用现状与发展前景 #4