X-lab2017 / open-research

📚 用开源的方法来研究开源的现象。(open source methodology for open source phenomena)
50 stars 17 forks source link

[研究方向促进] 开源社区知识问答关键技术研究 @PureNatural #222

Open will-ww opened 11 months ago

will-ww commented 11 months ago

Description

结合 10 月 5 日与 @PureNatural 碰头讨论的情况,有如下几个较为有效的价值输入:

确定了以开源社区知识问答关键技术研究为大方向:

1、数据集方面

2、关键任务

3、问答关键技术

4、数据增强

5、PolarDB + Hypercrx 项目的落地

6、论文写作

PureNatural commented 11 months ago

我安排研一游明东同学先帮我查一些相关文献,后续也可能会协助我一起构建数据集,这部分工作还是比较多,从数据集到方法构思,再到实验,再到领域应用,值得读博阶段深入探索。

Tenth-crew commented 10 months ago

目前看了三篇论文,与开源社区问答系统直接相关的论文研究几乎没有,所以看了几篇关于社区问答系统的论文并附上我的阅读报告。关于数据集方面,社区问答的数据集发现大家使用的基本都是雅虎问答的数据,在一篇综述文章中还提到了stack exchange和StackOverflow的数据集。

Tenth-crew commented 10 months ago

LSTM vs. BM25 for Open-domain QA: A Hands-on Comparison of Effectiveness and Efficiency

Link

https://dl.acm.org/doi/10.1145/3077136.3084147

Year

2017

Author and affiliation

Sosuke Kato, Waseda University Riku Togashi, Yahoo Japan Corporation Hideyuki Maeda, Yahoo Japan Corporation Sumio Fujita, Yahoo Japan Corporation Tetsuya Sakai, Waseda University

Conference or Journal

SIGIR '17: Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information

Key word

社区问答,LSTM,BM25

Rank

B-

Selecting reason

之所以我给他评分为B-,是因为该文章只进行了一些基础的验证,并和BM25只进行了感性上的对比。但是社区问答的相关研究很少,只能矮个子里找将军了。

文章阅读报告

创新点 在神经网络模型之前,优秀的问答模型往往是IR模型,比如BM25。以前的问答系统总是使用TREC(文本检索大会)的老数据,而且数据集比较小,但是该文使用的数据集来自日本雅虎,有1100万条问题数据和超过2740万条答案数据作为训练数据。且使用的模型是神经网络模型LSTM,该文意图证明LSTM模型经过海量数据训练后的模型相比于传统的BM25模型表现更好。 本文使用的数据是社区问答数据而不是网页和新闻。(但并没有给出数据集) 问题与答案的配对方法 通过设计的模型计算方式获得question和answer的对应输出向量,计算向量之间的欧氏距离,由距离值的从近到远排序。 LSTM与BM25的对比 这篇文章不好的地方就在与没有给出两个模型数字上的对比而只是感性的对比,通过给出一个长搜索语句然后让读者自行判断两个模型给出的答案的质量。 文章中给出的表格展示的数据有训练和测试使用的数据大小以及训练后的LSTM获取指定数目的答案所需要的时间。 对我们的帮助 虽然文章确实没有给出具体的数据对比,甚至最后也没有给出自己的结论,但是本文让我们可以试着尝试使用神经网络模型构建社区问答系统。

Tenth-crew commented 10 months ago

QuestionHolic: Hot topic discovery and trend analysis in community question answering systems

Link

https://www.sciencedirect.com/science/article/abs/pii/S0957417410014156

Year

2011

Author and affiliation

Zhongfeng Zhang, Key Laboratory of Complex System and Intelligence Science, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China Qiudan Li, Key Laboratory of Complex System and Intelligence Science, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China

Conference or Journal

Expert Systems with Applications Volume 38, Issue 6, June 2011, Pages 6848-6855 Key word

社区问答,热门主题, 趋势分析

Rank

B

Selecting reason

文章中提出的热门主题与热门词挖掘或许对问答系统有帮助.

阅读报告

创新点

在热门词提取上, 处理考虑一个TF-PDF方法, 还综合考虑了一个"生命周期模型"来一起决定term的权重. 这个生命周期模型考虑了term随时间变化的一些情况,并考虑这些情况引入了一个评估参数,最后结合TF-PDF来决定term的权重. 在相关问题聚类的时候, 传统模型往往一般先聚类再贴标签,但是该文章是先通过自己提出的方法找到最合适的标签,再聚类.这里的先自动获得标签的方法先通过一系列文本处理方法获得更好的关键词作为标签. 之后再根据问题与标签的余弦相似度来聚类. 基于社区问答数据

数据集

也是采用的雅虎问答数据集,但是数据量不大,收集了四个话题的数据,一共10000个问题和24263个答案.

实验与结果

将系统完成的热词提取功能与单纯的TF-PDF模型进行比较,这里交由人们自己感性的判断结果是否更好. 将聚类标签, 标签下聚类的问题进行了展示. 针对话题"recess"进行了问题聚类展示. 针对"Elections"以及四个相机品牌这两个话题对比本系统和谷歌搜索的趋势分析结果. 存在的问题 存在的问题有:由于单个字词可能存在歧义,存在部分关键词不能很好的概括主题的情况,考虑使用概率模型给出一组关键词用来描述,未来的工作考虑可以得到随时间变化的主题关系图 对我们的帮助 问答系统里面热门话题的发现

Tenth-crew commented 10 months ago

Analysis of community question-answering issues via machine learning and deep learning: State-of-the-art review

Link

https://ietresearch.onlinelibrary.wiley.com/doi/full/10.1049/cit2.12081

Author and affiliation

Pradeep Kumar Roy,Department of Computer Science and Engineering, Indian Institute of Information Technology, Surat, India Sunil Saumya,Indian Institute of Information Technology, Dharwad, India Jyoti Prakash Singh,Department of Computer Science and Engineering, National Institute of Technology, Patna, India Snehasish Banerjee,The York Management School, University of York, York, UK Adnan Gutub,Computer Engineering Department, College of Computer & Information Systems, Umm Al-Qura University, Makkah, Saudi Arabia

Conference or Journal

CAAI Transactions on Intelligence Technology

Key word

answer quality, community question answering, deep learning, expert user, machine learning, question quality

Rank

A-

Selecting reason

开源社区问答系统几乎没有文章,大多数的社区文档也是基于雅虎问答,Stack Exchange等平台的数据集,和知乎类似,是专门的问答社区,但是开源社区本质上并不是问答社区,但为了了解相关研究,所以最后还是以社区问答系统做为相关关键字进行了文章检索。 该文章发布于2023年,系统介绍了社区问答相关的研究问题和方法,并做出了合适的对比,但是和智能问答系统这个主题的关联还是没那么强,所以给出A-。

阅读报告 文章将CQA(community question answer)系统分为三个模块,问题模块,答案模块,用户模块,并在三个大类下继续划分出小类并介绍相关技术和其对比。 个人认为对智能问答系统没有太多帮助的模块就没有过多介绍。

image

PureNatural commented 10 months ago

1.QuestionHolic: Hot topic discovery and trend analysis in community question answering systems

热门主题与热门词挖掘确实可以会提升问答的整体质量,这个我之前也想到过,也是我要在方法是要去考虑的创新点之一。

2.LSTM vs. BM25 for Open-domain QA: A Hands-on Comparison of Effectiveness and Efficiency

这篇文章时间也是相对较早了,17年时LSTM确实比较火,毕竟预训练模型还没出来,个人认为作者应该也是抓住了时机把这个坑占住了,所以能发CCF-A类会议,是比较顶级的会议了,所以说能把握好时机也是很关键的~

3.Analysis of community question-answering issues via machine learning and deep learning: State-of-the-art review

读综述可以帮我们节省查阅大量文献的时间,也可以了解一个研究问题的发展史。

根据明东的反馈,我们确实可以在开源社区知识问答中下一些功夫。有一个地方明东 @Tenth-crew 可以再跟进一下,我看到你的导图中有关于特定领域问答系统的研究问题,后面可以再看看这方面的论文四五篇即可,近3年的,尽量是CCF-A的期刊或者会议的,不需要全文通读,大致了解其方法即可,这样可以后续借鉴到我们的研究中。 image

关于数据集,我的想法是我们可以先做github内部的数据集,随后迭代再加入外部(例如stackoverflow)的数据集,后续我再详细跟进。

Tenth-crew commented 10 months ago

好的韩博,我会再去找找相关论文。并附上上次忘记贴出来的数据集相关链接,可以通过文字识别直接得到链接 image

Tenth-crew commented 10 months ago

韩博你好,在最近找论文和看论文的中间遇到了一些问题:为了尽量满足CCFA和三年内文章的要求,我在CSCW会议上找了两篇文章,但是感觉作为A类文章,它却没有什么实际性的内容,例如下面这篇文章,论文内容只有几页的同时,几乎只讲了讲表面的东西,例如chat-bot的界面设计,和极小样本(7个参与者)的无客观数据实验,感觉很像是文科的论文,几乎没有介绍什么的技术方面内容。

Action-a-Bot: Exploring Human-Chatbot Conversations for Actionable Instruction Giving and Following

Link:https://dl.acm.org/doi/10.1145/3500868.3559476

目前我的论文检索能力还是比较匮乏,基于韩博上次的回复,关于特定领域的问答系统,我用Domain-specific interactive chat-bot system作为关键词在谷歌学术和相关的A类会议以及华师大图书馆资源上搜不到什么符合要求的文章。韩博有什么好的方法能够指导检索文献吗

Tenth-crew commented 10 months ago

Prototyping Kodi: Defining Design Requirements to Develop a Virtual Chat-bot for Autistic Children and Their Caregivers

Link

https://dl.acm.org/doi/10.1145/3584931.3606958

Author and affiliation

Narayan Ghiotti,University of Florida Gainesville David Clulow,University of Florida Gainesville Serene Cheon,University of Florida Gainesville Kevin Cui,University of Florida Gainesville Hyo Kang,University of Florida Gainesville

Conference or Journal

Computer Supported Cooperative Work and Social Computing. 2023: 126-131(CSCW)

Key word

autism, social chat bot, conversational agent

Rank

B-

Selecting reason

CCFA类会议的文章,时间也很近。题目关于自闭症儿童的虚拟对话机器人符合特定领域chat-bot的要求,想看看能不能为开源社区chat-bot提供什么思路。

阅读报告

该文主要写的是应用程序设计思路,并没有写什么具体细节。这令我苦恼,但是转念想着还是看看能不能为chat-bot提供什么思路。

引导问题

在面对自闭症儿童时,该文提到的应用程序Kodi会引导孩子表达自己的情绪,通过孩子的表达,针对性的选择合适的方法来解答。我们也可以根据用户的提问,分析出用户可能想知道的问题答案进行引导,这里可以参考第三方网站POE(https://poe.com/)使用GPT的展现形式。例如下图所示,下方展示了引导提问的方式

image

带情绪化的表达

人们判断机器人和人的很重要的区别是情绪化的表达,在该文的面对自闭症儿童时的对话情况中应用了该方法,测试者们纷纷表示这个非常有用。或许OSS-GPT能够通过训练,从而给出略带情绪的语言,使得用户与OSS-GPT的交流更轻松。

总结 在自闭症儿童对话机器人这一特定领域下,确实比较难找到关于开源社区对话机器人的共通之处,之后继续找更相关的文章。

Tenth-crew commented 10 months ago

Intelligent System for Skin Disease Detection of Dogs with Ontology Based Clinical Information Extraction

Link

https://ieeexplore.ieee.org/abstract/document/9965696

Author and affiliation

Rathnayaka R.M.N.A,Department of Information Technology Sri Lanka Institute of InformationTechnology Anuththara K.G.S.N,Department of Information Technology Sri Lanka Institute of Information Technology Wickramasinghe R.J.P,Department of Software Engineering Sri Lanka Institute of Information Technology Gimhana P.S,Department of Software Engineering Sri Lanka Institute of Information Technology Lokesha Weerasinghe,Department of Information Technology Sri Lanka Institute of Information Technology Geethanjali Wimalaratne,Department of Software Engineering Sri Lanka Institute of Information Technology

Conference or Journal

2022 IEEE 13th Annual Ubiquitous Computing, Electronics & Mobile Communication Conference (UEMCON)

Key word

NLP, CNN, DL, AI, Image Process

Rank

B

Selecting reason

非CCFA类,但是相比于之前看的CSCW的文章更有技术部分的内容,同时也更契合特定领域的chat-bot这一主题

阅读报告

用户的输入会被处理并组织为json文件,并被匹配出几个合适的答案。文件中的每一个字典都会有一个标签来标识其属于的组。

主要方法

因为词干能表达词语更广泛的含义,所以对输入语句进行词干提取技术。接着利用词袋模型来表示每一个句子,具体方法是:将句子们表示为一个列表,每个句子的值是其单词有多少在模型的词汇表中。 该文章使用DNN模型,并使用修改隐藏层和扩大数据集的方法来提高回答的准确率,具体的方式为:使用具有两个非常常见的的隐藏层的前馈神经网络(非常常见在这里没有具体说明)。该模型的训练epochs是2000,batch_size为8,模型输出结果是句子分别属于各个类别的一串可能性,以最高的可能性针对性地回答。这里的针对回答是因为,这个chat-bot接收你的输入,分析你的句子描述属于哪一类情况后,会在这个类别下选择一个回答回复。(感觉是因为犬类皮肤疾病种类不是那么多,所以在罗列所有类别后,chat-bot获取输入后判断文本表达的内容属于哪一类疾病内容,然后在该类别下选择一个已有的解决方法进行回复) 最后有使用TextBlob库来评估用户回答的情感极性,以此方便进行调整和迭代。

Tenth-crew commented 10 months ago

FashionVQA: A Domain-Specific Visual Question Answering System

Link

https://openaccess.thecvf.com/content/CVPR2023W/CVFAD/html/Wang_FashionVQA_A_Domain-Specific_Visual_Question_Answering_System_CVPRW_2023_paper.html

Author and affiliation Min Wang Ata Mahjoubfar Anupama Joshi

Conference or Journal

CVF Conference on Computer Vision and Pattern Recognition.

Key word

Visual Questioning Answer, question template

Rank

B

Selecting reason

题目足够契合,也确实提出了一些有用的东西,比如特定领域的问答系统数据集自动生成。

阅读报告

有关视觉领域的问答系统,主要实现的任务是针对服装图片,能够回答用户相关的问题,比如照片中的服装或配饰是什么,或者某个东西是不是什么。

本文的内容可以分为数据集创建,问题模板两个大部分。 视觉问答系统数据集自动生成

在这个视觉问答系统中,问答数据集表示为三元组“问题-答案-图片”。这里的问答系统中用户想要的答案一般是图片中的某个属性,所以答案是天然存在的,需要自己生成问题,所以需要问题模板。

问题模板 模板: filling the question templates with specific item attribute (e.g., color, pattern...etc), attribute value (e.g. red, green, stripe...), category (e.g, shirt, pants...etc), and location (e.g. "on the top", "on the bottom"...) 示例: For example, "what is the sleeve length of this shirt on the top?" or "is this a white v-neck sweater?". The basic template is structured as "{question type} {this/these} {a/an/} {pair of/pairs of/} {object} {location}?". 在问题中,该文章讨论了二分类问题和非二分类问题的模板。 二分类模板:"{location} {a}/{a pair of/}/{} {attribute value 1} {attribute value 2} {category} " 二分类示例:"can you see", or "is there any {part} on this/these" 非二分类模板:无具体模板 非二分类示例:"what" / "why" / "when" / "how" followed by terms of attribute. 对于二分类问题,还通过调整正负样本比例使得二分类问题有更好的表现。在最后和人类专家的视觉问答测试中,该文首先让读者自行判断了人类和模型的注意区别。之后邀请人类专家提出问题,让另一个人类专家和模型进行比较,最后得出结果是模型的准确率更高。另外针对搜索引擎提供的结果作为陌生数据集,和人类专家比也是模型的表现效果更好。

总结

也许自动创建问答数据集的方式可以参考,但是我们的目标明显难度更高,答案并不是天然存在的。

PureNatural commented 10 months ago

明东辛苦了,之前因为个人的原因未做回复,但是我想你已经探索出了一些搜索文献的方法,你找的这几篇文章已经具备了一定的典型性,我后面阅读后会尝试套用里面的一些方法,之前我说搜索一些特定领域的文献,其实是想让你搜索一些具体领域的一些研究,比如金融领域,医疗领域,教育领域等等,所以搜索关键词应该是金融或者医疗等等,文章应该比较多,直接以特定领域为关键词肯定相对少一些,其实很多论文都是把一个在A领域用到的方法直接迁移到B领域,所以我们才会做这些工作,你找的几篇论文也差不多够用。后面我会安排你做一些数据集的工作,到时候再细聊~

will-ww commented 10 months ago

@PureNatural

这有个著名的开放问答数据集,从构建形式和过程,应该是个不错的参考:https://huggingface.co/datasets/truthful_qa?ref=interconnected.blog

Tenth-crew commented 9 months ago

数据集论文写作研究

参考论文

DeepScenario: An Open Driving Scenario Dataset for Autonomous Driving System Testing GIRT-Data: Sampling GitHub Issue Report Templates

1.Abstract

背景:技术发展,研究需要 原因:为什么需要数据集(时间,资源,实际测试的困难) 介绍:简要介绍数据集,不必过于具体,大概数据量,如何收集的,大概构成(可以针对一个情形举例) 用途:帮助开发者测试产品或科研,或者是为了推广某种更好的标准

2.Key word 略

3.Introduction

对摘要的扩写 1.首先详细介绍背景和原因,为什么要有这个数据集,原本没有数据集的情况多困难? 2.介绍已经有的数据集,指出现有数据集的不足(太片面?缺少其他信息?) 3.介绍自己的数据集,与之前的数据集不一样的点 3.1 本文研究可能遇到的困难(实际上就是自己解决的困难) 4.本论文的贡献

4.Methodology(The DataSet) 0.这里主要说的制作方法(如果以The DataSet命名,4和5应该就合并一起写了) 1.数据集制作方法总览,最好有总览图,接着详细介绍方法的每一步,这里是针对自己生成数据集的方法(数据提取过程,主要是面向收集来的数据,对收集方法详细介绍,比如确定搜索目标,搜索目标的特点,收集工具) 2.数据集生成的配置方法,原理方法的介绍(测试性地搜索数据,分析分布或关联) 3.正式测试前的测试设置(如有),讲清楚自己在何种情形下测试。以及测试执行的方法 4.数据集生成(根据配置条件和结果组成record)

5.Description 1.对数据集的准确描述,在我看的第一篇论文中,首先对使用场景的场景做了定义,或许开源社区数据集首先也要对开源社区做出定义,并对智能问答的场景做出严谨的描述。 2.数据集详细介绍 2.1 数据量介绍,如果有些条件的数据量较少,解释原因,贴上数据集的overview 2.2 数据分布,介绍哪些情况比较多,哪些比较少,原因是什么。比如根据属性一有什么分布,根据属性二有什么分布,这里可以选取比较重要的属性进行介绍,贴上分布图并解释原因。 2.3 具体的介绍属性(前面也有属性介绍,但是这里最具体) 2.4 可以更具体地针对一个属性进行分布分析

6.Usage and limitation 1.详细丰富地介绍使用场景 2.数据集的缺陷

7.Conclusion 类似于introduction