Closed haoawesome closed 9 years ago
http://jcst.ict.ac.cn:8080/jcst/CN/abstract/abstract716.shtml 中文信息处理技术发展现状与未来展望(2006)
http://www.zhihu.com/question/21211466 自然语言处理中的语义到底是个什么概念?语义分析是要分析出什么结果?
http://www.zhihu.com/question/20769365 Siri 是如何识别语义的?
http://www.360doc.com/content/13/0317/14/9156119_272039618.shtml 中文语义识别技术发展现状 (博客)
http://www.matrix67.com/blog/archives/4212 漫话中文自动分词和语义识别(上):中文分词算法 http://www.matrix67.com/blog/archives/4870 漫话中文自动分词和语义识别(下):句法结构和语义结构
@刘群MT-to-Death @白硕SH 老师的报告“语义技术探索”:http://t.cn/RvWEZdm ,非常精彩。把一些容易混淆的概念讲得很清楚。“符号根基”和“角色指派”的提法非常好。两个观点我不赞同:1.“统计方法不是语义”。2.我不赞成脱离“符号根基”的去做大规模语义资源建设。知识图谱一定程度上解决了符号根基问题,是正道。 http://www.weibo.com/1917491813/B9Y7cvkdO
"完成角色指派的方式有多种,但归根结底是两种:一种是句法结构制导的,一种是模板制导的。前者严谨,后者轻便。前者更多地被称为“语义分析”,后者更多地被称为“语义识别”。
代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://memect.co/FAhnpzb
@昊奋 针对@白硕SH 老师说的符号根基和角色指派两方面,其实对应的最简单的语义技术分别是实体链接(entity linking)和关系抽取(relation extraction)。前者可以通过Edgar Meij的tutorial http://t.cn/RhIljVR 了解,后者看UMass Yao Liming的工作
http://edgar.meij.pro/entity-linking-retrieval-semantic-search-wsdm-2014/ Entity Linking and Retrieval for Semantic Search (WSDM 2014)
http://www.icip.org.cn/papers/hxp/hsz-sigir11.pdf Collective Entity Linking in Web Text: A Graph-Based Method (sigir 2011) Xianpei Han, Le Sun, Jun Zhao
http://dbgroup.cs.tsinghua.edu.cn/wangjy/papers/TKDE14-entitylinking.pdf Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions (tkde2014) Wei Shen, Jianyong Wang, Jiawei Han
http://people.cs.umass.edu/~lmyao/papers/unsuprel-acl12.pdf Unsupervised Relation Discovery with Sense Disambiguation (ACL2012) Limin Yao Sebastian Riedel Andrew McCallum
http://rtw.ml.cmu.edu/rtw/ NELL: Never-Ending Language Learning
https://github.com/knowitall/reverb ReVerb is a program that automatically identifies and extracts binary relationships from English sentences. https://github.com/knowitall/ollie Ollie is designed for Web-scale information extraction, where target relations are not specified in advance.
http://www2009.eprints.org/11/1/p101.pdf StatSnowball : a Statistical Approach to Extracting Entity Relationships (www2009)
http://www.cs.cmu.edu/~nbach/papers/A-survey-on-Relation-Extraction.pdf A Review of Relation Extraction (Literature review for Language and Statistics II, 2007) Nguyen Bach , Sameer Badaskar (CMU)
@昊奋 EL方面,国内@韩先培 和清华的王建勇老师团队做得工作也非常出色。 http://www.weibo.com/2045933955/BmCoUdnAP
@昊奋 大规模语义资源库的构建不是很容易,现在普遍认为可以用相对廉价的方式来构建不完全准确且包含噪声的部分标注资源库,这里众包技术(crowdsourcing),主动学习(active learning),以及远程监督(distant supervision)都是常用的技术。
http://www.weibo.com/2045933955/BmCDU7XPL
@昊奋 对于关系抽取,根据白老师说的基于模版的以及基于句法的,也可以对应到基于本体或语义角色的关系抽取,这里最近的典型代表有CMU Tom Michell做的NELL,而后者对应到以华盛顿大学Oren Ezioni为首的开放信息抽取Reverb或OLLIE等,大家有兴趣都可以去看看。 http://www.weibo.com/2045933955/BmCCNfhUw
@波多野丽猪 其实有点请错人了,我们做的是在语义识别完成后,知识库建立好后,再去做语义推理,比如某人对花生过敏(1),宫保鸡丁里面有花生(2),人不能吃过敏的东西(3),所以他不能吃这道菜(4)。这里面语义识别,先用一系列技术把(1)(2)转换为逻辑fact,我们在知识库中有一系列公理(3),然后推出(4)。
http://www.weibo.com/1788897365/BmCRNvXHW
@波多野丽猪 这方面一直没人应用也是因为如@昊奋说的,语义知识库的建立很难,往往质量不高,质量高的需要大量人工成本,但随着最近两年技术的发展,特别是Google Knowledge Graph在这方面的工业界推动,建立起来一些很不错的知识库。
http://www.weibo.com/1788897365/BmCYkkNMQ
@波多野丽猪 这方面一直没人应用也是因为如@昊奋 说的,语义知识库的建立很难,往往质量不高,质量高的需要大量人工成本,但随着最近两年技术的发展,特别是G家在这方面的工业界推动,建立起来一些很不错的知识库。但之后逻辑推理用多少都不好说,毕竟复杂度摆在那里,一些问答系统常常只是用了最简单的吧。
http://www.weibo.com/1788897365/BmD340TM7
@昊奋 回复@波多野丽猪: 完全同意,这里分互联网应用和企业级应用。前者还是走量轻量级道路,后者可以满足更多复杂的需求和分析。
http://www.weibo.com/2045933955/BmDasAUZX
@我是无聊的猿始人 :人家微信里面的语音功能,都是一群码农写的,但是为什么源代码不给我们看看呢?我们课程项目就是这个语义识别,但是网上没有源代码,这叫我们如何是好!大神救救我吧!
9月9日04:51 http://weibo.com/2919081061/BmeeF1BLl
@东北大学自然语言处理实验室 :目前NiuParser系统支持中文句子级的自动分词、词性标注、命名实体识别、组块识别、成分句法分析、依存句法分析和语义角色标注七大语言分析技术。后续我们NiuParser团队会快速升级来提供更加强大的中文句法语义分析功能。谢谢关注。
http://www.niuparser.com/ NiuParser
@王利锋Fandy :硕士时搞“实体关系抽取(Relation Extraction)”,拜读过他的文章《StatSnowball: a statistical approach to extracting entity relationships》(http://t.cn/zTeVifR ),就是大家熟知的人立方 (http://t.cn/hIhVO )
@宋阳秋 :Google knowledge graph 看上去整合了它的knowledgebase (free base, entity graph, web tables, deep web extraction结果)、social graph(G+)和click graph(user preference, entity relationships),freebase看上去只是其中比较干净的一部分而已。 http://weibo.com/1995534513/zi8KT6CWu
@刘知远THU :NLP blog对NAACL13的论文介绍,http://t.cn/hq4Cv2 。提到两篇有意思的文章:(1)Relation Extraction with Matrix Factorization and Universal Schemas,两个当红主题凑在一起很吸引眼球;(2)Learning a Part-of-Speech Tagger from Two Hours of Annotation,题目就很诱人,Hal给了很高评价。 http://weibo.com/1464484735/A2Cps2m8y
52nlp :google 了一下,stackoverflow上有个回答列了一些工具,貌似主要还是针对英文的 Anyone know of some good Word Sense Disambiguation software? http://t.cn/8ssDhfw ,看看其他同学有没有好的线索
@李志飞AI 做一个通用的semantic parser是不是一个伪命题?因为涉及到semantic的东西都很application-specific,既然这样就很难做成通用,对吧?比如说对下面这个句子通用的semantic该怎么表示:“明天我想坐飞机去北京,从上海出发,下午3点后走,最好是南航的”?@刘洋THU @52nlp @刘群MT-to-Death @孙乐_ISCAS http://www.weibo.com/2144212553/zo122vTOn
看评论
白硕SH:在汉语里,语义是一个在句法阶段就必须要碰到的东西,因为句法分析中不确定的东西,要靠一种隐性的标签来消除,这种隐性标签目前看就是语义,当然可以把语义的使用限制在提高效率即可的范围内,不要动辄用重兵。不是不能等到语义分析阶段一起搞,而是等下去必然造成伪歧义泛滥。汉语的纠结就在这里。 (2013-3-18 23:46)
@唐杰THU :KDD CUP 2013是一个Name Disambiguation的task,Author-Paper Identification Challenge, http://t.cn/zTMNVbC 这个问题几乎是所有以人为中心的搜索,如专家搜索、学术搜索、知立方面临的问题,研究可以追溯到20年前,最早叫Entity resolution,后来disambiguation, 再后来entity linking. 赶快参加!
@王威廉 CMU LTI与谷歌合作,今天放出了知识图谱的重要资源:800万ClueWeb文档通过自动标注产生的110亿短语。这些短语全部与Freebase实体对应,使得目前大家在ClueWeb上的字符串和n-gram操作,转变成在知识图谱上对实体和概念的操作,对众多应用影响重大。下载:http://t.cn/zQGszlm http://t.cn/zQGszl3
@奇点公司黄老师 一个模型转换到另外一个模型。NLP的麻烦在于语言的模型本身就难以建。 http://www.weibo.com/2012263470/BmFrRy5F1
@昊奋 所以基于模板的方法会优先商用,这种属于局部理解和匹配,允许有部分缺失和不对应,鲁棒性强。当然模板的构建,其质量和泛化能力是关键。真正理解是长期艰巨的工作。
http://www.weibo.com/2045933955/BmFAh9rSC
@孙明明_SmarterChina 知识图谱的killing app 目前还没有出现。目前看,对非结构化信息的优化组织方向比较有前景。
http://www.weibo.com/1914450674/BmHHBnMUH
@昊奋 这一块对于通用知识图谱来说确实是,但是对于企业级应用还是要更多从结构化数据出发,各种异构数据的整合,以及更深度的应用(包括推理,决策支持等)。
http://www.weibo.com/2045933955/BmHLjArL2
@孙明明_SmarterChina 回复@昊奋:我的看法是:无论是否企业应用,如需从非结构信息中提取结构化数据,那当前KBC实践所能达到的精度,决定了大家对KB的置信度是比较低的,从而需要回看原始信息。因此它的价值更多体现在对非结构信息的组织。如果不需要从非结构信息中提取,那传统的bayes网络概率推理就可以解决。
http://www.weibo.com/1914450674/BmHPs61Kt
@昊奋 从企业来说,因为你KB质量要求比较高且有比较充足的结构化数据,所以首选从结构化数据或现有知识库出发来构建自己的KB,然后和非结构化信息的交互更多体现在语义标注或链接。当然这块本身也存在置信度比较低和存在噪声等问题,所以也确实需要做组织上的优化。
http://www.weibo.com/2045933955/BmHRG5hkW
@波多野丽猪 回复@昊奋:企业应用数据往往很针对,噪声也可以控制,之前面试nuance,他们就在做law data还有health data的rule based reasoning,实习过的IBM做的是traffic data的reasoning,数据针对性强也就容易构建KB。
@昊奋 回复@波多野丽猪: 嗯,这也是我的意思。当然这个不是企业级知识图谱的全部,:)
@Copper_PKU 很多小企业做知识图谱 就约等于元数据管理 http://www.weibo.com/1758509357/BmI5QyHAJ
私信