hongliang5623 / Highgarden

Growing Strong
0 stars 0 forks source link

Tag论文材料 #15

Open hongliang5623 opened 6 years ago

hongliang5623 commented 6 years ago

重组标签云:http://blog.csdn.net/tianxuzhang/article/details/20304953 电影标签:https://api.douban.com/v2/movie/subject/1292529/tags 用户标签:https://movie.douban.com/api/v2/user_tags/120164074 标签的设计:https://www.zhihu.com/question/19561383

hongliang5623 commented 6 years ago

社会化书签网站第一次广泛使用了协作式标注系统(CTS, Collabrative Tagging System)。随着xx的流行,信息架构(IA, Information Architect)师们开始意识到这种标注非常类似于他们创造的受控词表(Controlled Vocabularies)。虽然这种低成本的元数据(Metadata)也因为一些缺点,而饱受争议。但关于社会化标注(FT)的使用和研究还是迅速的发展了起来。 2006年国际WWW会议上举办了关于标注(Tagging)的Workshop里面收集了到当时为止的关于标注的大量研究。其中包括了Flickr的Cameron, Marlow等人发表的《》的创始人兼CEO,Rashmi, Sinha也发表了她在其个人网站上发表的博文,是对标注的认知过程最重要的文献。在2007和2008年的WWW会议上,都有大量关于标注系统的文章。聚类算法(Clustering Algorithm)等算法,在语义一致性(Semantic Consistency)上的贡献是这两年的一个重点。随着语义网概念的兴起,概念模型的明确的规范说明,即本体概念模型(Ontology);也被重新重视,成为研究标注系统和传统分类之间融合的重点。Gene, Smith在2008年发表的《Tagging: People-Powered Metadata for the Social Web》是现阶段对标注系统(Tagging System)最完备的著作。09年,Motriz, Stefaner和Giovanni, Maria Sacco、Sébastien, Ferré、Yannis, Tzitzikas、Saverio, Perugini、Jonathan, Koren、Yi, Zhang、Wisam, Dakka、Panagiotis, Ipeirotis一起发表了《Dynamic Taxonomies and Faceted Search》对标注和传统分类的融合进行了更深入的探索。<br>近年来,随着国内互联网的迅速发展,特别是SNS在国内的高速发展,国内对标注的应用也极其广泛。众多从业人员也在博客和互联网社区中不断的探讨和研究标注。百度、阿里巴巴、腾讯等国内领先的互联网企业,也展开了对标注的研究。<br>研究机构中,清华大学的皋琴,戴玉森,傅凯发表的《通过标注相关性的可视化增强个人标注一致性(Improving Personal Tagging Consistency through Visualization of Tag Relevancy)》被收录在了期刊当中其中对标注在脑力负荷(Mental Workload)方面的研究填补了这一领域的空白,其对标注系统的认知模型的修订也处于领先水平。

hongliang5623 commented 6 years ago

标签在UGC网站中应用较为普遍,如豆瓣网使用标签对书影音等条目标注。因为标签比分类来说具备几个良好的特性: 一篇文章可以隶属于多个标签;标签可以自由扩充;可以把一些标签归到某个分类下,来对内容进行灵活的分类。 然而由于语言分词带来的天然屏障中文网站要想用好标签是极难的,英文单词是空格分词的,打标签不容易出现大量重复含义的标签,而中文分词没有固定的标准,用户打标签的时候,很容易打大量重复含有的tag,导致tag系统的失效。

hongliang5623 commented 6 years ago

作为UGC数据标签具有不可控的特点,尽管系统会提供备选标签作为引导,但是在课题研究中还是发现许多由于格式不同或词形不同的同义标签,如recommender system和recommendation system等, 据豆瓣网介绍同一热门电影不同用户产生的标签数据高达上千种,而冷门电影由于受众较少可能仅有若干标签,并且标签存在许多情绪次、词根不同的同义词,停止词等,在使用的过程中为避免无意义标签干扰需要进行初步处理标签库清洗掉这些无意义词汇,另外本课题拟采基于同义词词林的词语相似度计算标签语义相似度,并在计算权重时将这些语义标签合并计算;另一方面,对于冷门电影、新上映的电影只能由编辑为电影打上模糊标签,这样的标签集合必不全面,甚至于大众认知相悖,对于新用户甚至也可能只有注册时选择的大众热门标签,因此需要通过标签扩展来解决数据稀疏的问题,上文介绍过标签是物品语义的表达,即同一物品的不同标签具有某种相关性,如果两个标签同时出现在较多电影集合中,可以认为这两个标签具有高度相似性,基于此,我们在使用标签推荐电影时可以使用相似度计算公式找出与电影和用户标签集合相似的标签加入电影和用户标签集合来提高推荐的准确率和召回率,同时也可以为对本次的推荐给出较高质量的解释。 另外一部电影由于受用户所处的不同环境以及心理认识等因素的影响,会产生许多词义不同的标签,不同使用的频次的标签所承载的大众对于电影的认识自然不相同,本课题根据标签被不同用户在该部电影中使用的次数作为计算标签权重的依据,权重越高的标签越能代表大众对该电影的认识。

hongliang5623 commented 6 years ago

为了可以可视化浏览,社会书签系统通常提供一个成为称为标签云的接口模型。这些云的一个主要方法浏览和发现社交书签系统中的web文档,作为一个结构,提供了集合中最受欢迎主题的一个视觉总结。标签云由网站上最受欢迎的50到200标签组成,越受欢迎的标签,字体大小越大。有时,标签是按照字母顺序排列的,随机的或使用其他非语义序列。因此,一个开放的问题是确定在标签云中内在关联的标签和他们之间的关系,以提高社会标签系统的浏览阶段。这是本文的主要目的之一。

hongliang5623 commented 6 years ago

然而,另一方面,词汇的开放性带来了几个问题,如:(i)不同的标签可以同义词或相关(例如,照片和摄影),(ii)不同标签有不听的特征级别可能就是上位词/下位词(例如,编程和java),(iii)标记也可以有多种解释的(例如,图书馆,这可能意味着一个包含书籍的地方和子程序的集合),(iv)标记的目的可以是任何事实(例如,设计),主观标记(例如,有趣的),或个人标记(例如,要读)(Sen等,2006)。从社会书签系统的开放词汇出现的问题使标签的管理更具挑战性,强烈地需要一个方法来更好地处理标签。尽管这项工作没有对上面的问题进行特殊处理,但是实验的分析可以进一步了解为什么他们发生和什么时候发生

hongliang5623 commented 6 years ago

标签共现模型用来定义当标签X潜在的属于标签Y 在他的概念示例图中边的权重就是标签的共现数

hongliang5623 commented 6 years ago

deliciousT140数据集 140个标签的最终人工类目

hongliang5623 commented 6 years ago

引导打标签 清洗降噪 重组标签云 基于共现模型的权重计算 推荐电影

hongliang5623 commented 6 years ago

标签不适合聚类因为之前无法给出K的大小

hongliang5623 commented 6 years ago

RAKEL(random k-labelsets)算法是一种集成技术,能有效解决多标签分类问题.它将原始标签集随机选用一小部分标签子集构成的数据集来训练每个分类器,但由于RAKEL算法构造标签空间的随机性,并未充分考察到样本多个标签之间的相关性,从而造成分类精度不高,泛化性能受到一定影响

hongliang5623 commented 6 years ago

聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类产生的是一些数据集合,在同一个集合中这些数据彼此相似。目前常见的聚类方法有:划分法,如K-MEANS算法、K-MEDOINS算法;层次法,如BIRCH算法、CURE算法;密度算法,如DBSCAN算法、OPTICS算法;网格算法,如STRING算法;模型算法,如神经网络等。 本文是在模糊K-MEANS聚类算法的基础上,用标签之间的相似度代替欧几里德距离进行标签聚类。模糊K-MEANS聚类算法是K-MEANS聚类的模糊形式,与K-MEANS聚类数据必须属于某一类不同,模糊K-MEANS聚类中数据根据所占的权重不同可以分别属于多个聚类集合。下面是标签聚类的具体内容。 1.计算标签之间的相似度 标签之间的相似度可以通过标签共现和相似度算法进行计算。标签共现指的是某个资源被两个以上的标签共同标注过。当标签之间共同标注的资源的次数越多说明它们之间的相关度就越大。 2.进行模糊聚类 标签的聚类是在模糊K-MEANS聚类算法的基础上,用标签之间的相似度代替欧几里德距离进行聚类。假设把标签集合T分类成k个兴趣集合,那么标签的隶属矩阵GM可表示为 矩阵GM表格 标签聚类的算法描述如下, 输入:资源集合R;标签集合T;标签总数n;标签关联矩阵U聚类数k。 输出:隶属矩阵:兴趣集合K(Ki,K2,K3,...,Kk)。 在初始化隶属矩阵GM中,隶属度W的值是在0~1之间随机选择的,因此隶属矩阵初始化的好坏会直接影响杨签聚类的效果。为了保证标签能有好的聚类结果,本文进行了多次标签聚类计算,选择聚类效果较好的那次作为最终的标签聚类结果。 聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类产生的是一些数据集合,在同一个集合中这些数据彼此相似。目前常见的聚类方法有:划分法,如K-MEANS算法、K-MEDOINS算法;层次法,如BIRCH算法、CURE算法;密度算法,如DBSCAN算法、OPTICS算法;网格算法,如STRING算法;模型算法,如神经网络等。 本文是在模糊K-MEANS聚类算法的基础上,用标签之间的相似度代替欧几里德距离进行标签聚类。模糊K-MEANS聚类算法是K-MEANS聚类的模糊形式,与K-MEANS聚类数据必须属于某一类不同,模糊K-MEANS聚类中数据根据所占的权重不同可以分别属于多个聚类集合。下面是标签聚类的具体内容。 1.计算标签之间的相似度 标签之间的相似度可以通过标签共现和相似度算法进行计算。标签共现指的是某个资源被两个以上的标签共同标注过。当标签之间共同标注的资源的次数越多说明它们之间的相关度就越大。 2.进行模糊聚类 标签的聚类是在模糊K-MEANS聚类算法的基础上,用标签之间的相似度代替欧几里德距离进行聚类。假设把标签集合T分类成k个兴趣集合,那么标签的隶属矩阵GM可表示为 矩阵GM表格 标签聚类的算法描述如下, 输入:资源集合R;标签集合T;标签总数n;标签关联矩阵U聚类数k。 输出:隶属矩阵:兴趣集合K(Ki,K2,K3,...,Kk)。 在初始化隶属矩阵GM中,隶属度W的值是在0~1之间随机选择的,因此隶属矩阵初始化的好坏会直接影响杨签聚类的效果。为了保证标签能有好的聚类结果,本文进行了多次标签聚类计算,选择聚类效果较好的那次作为最终的标签聚类结果。

hongliang5623 commented 6 years ago

一部电影由于受用户所处的不同环境以及心理认识等因素的影响,会产生许多词义不同的标签,不同使用的频次的标签所承载的大众对于电影的认识自然不相同,本课题根据标签被不同用户在该部电影中使用的次数作为计算标签权重的依据,权重越高的标签越能代表大众对该电影的认识

hongliang5623 commented 6 years ago

调研发现群体行为在某些情况下具有惊人的一致性,这种一致性产生了对事物的有意义的社会定义。这种社会化标签这种大众分类还解决了传统自上而下分类系统的不足,把信息管理权交还给用户,这种大众分类成为了一个辅助信息架构的重要解决方案,标注集有利于改善信息管理任务成功地成为一种缓解信息搜索和共享的手段。然而在信息总量不变的前提下,标签的总数量和精确度是一组负相关数值。在具有大量信息的数据平台,在大量存在的标签数量和每一个标签涵盖的内容数量中,就需要进行平衡,以保证标签的高速和高效。 本文将基于标签共现模型来定义标签的权重,就是标签的共现数 。

hongliang5623 commented 6 years ago

没有标签的数据: https://movie.douban.com/subject/26424867/ https://movie.douban.com/subject/26615495/

hongliang5623 commented 6 years ago

usql> select count(distinct(xxx)) from xxx where xxxx;

╔════════════════════╗ ║count(distinct(tag))║ ╠════════════════════╣ ║2397024 ║ ╚════════════════════╝