ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
115 stars 30 forks source link

实战Elicit, 让你惊艳的AI学术研究工作神器(二) #4319

Closed ixxmu closed 9 months ago

ixxmu commented 9 months ago

https://mp.weixin.qq.com/s/R_1lCUuZyzLOF8MEMoCw0g

ixxmu commented 9 months ago

实战Elicit, 让你惊艳的AI学术研究工作神器(二) by 门童靖博士

Systematic Literature Review绝对是每个学术研究工作者的必经之路,顺利完成一篇SLR才能代表你真正了解该领域,成为该领域的专家,并且知道在该领域有哪些Gap值得后来者继续研究。



接上一篇《实战Elicit, 让你惊艳的AI学术研究工作神器(一)》,继续实践并探讨Elicit对于研究工作的实际效用。

以之前的主题“How the IoT data affect machine learning models?作为初始问题


1. 反馈结果中常规字段是否有包含?

以下是主页面,默认对应的Paper Title和摘要总结:



以其中一篇文章为例,包含Paper主题、作者、发表年份、引用次数、Journal信息、以及该Journal的Impact指数



同时,也可以直接访问DOI和源文件的路径如下:

基于以上,基本可以获得该Paper的主要字段和相应信息。



2. 能否通过更多字段来展示Paper的关键信息?

通过左下角的模块可以对主页面的表格直接添加相应的字段,比如增加"Outcomes measured", 即如果是Experimental paper, 它主要验证了哪些关键指标?


当然,也可以增加“Number of participants”, 也就是一般用于实验的样本是多少,一般社科、经管类文章都需要考虑样本空间。而以我们提的主题为例,下面这篇Paper 中的41代表的是数据集的特征数量



3. Elicit能否从所有的文档内容中,提取更多字段信息呢?

其实在做SLR的时候,相信大家都能感受到,最头疼的就是在已经过滤完成后的文章中,快速找到并提取相应字段的信息,然后填入并统一成一个表格,再进行分类分析。

如果有上百篇paper需要阅读并提取相应的信息,很有可能会花掉你两周甚至更多的时间,那么针对这个问题,我们看看Elicit能否在Data Extraction这个工作上为我们做些什么呢?

下面回到Elicit的左下角,"Search for paper information"~


首先,是该文章基础的元数据:



其次,是关于实验样本的基本信息:



然后,是关于研究干预的字段:



甚至,通过下面字段,可以直接获取文章的结论



最后,基于该文章的结论,它的研究方法也可以一并拿来:

至此,相信大家应该都知道了,对于文章的基本信息,甚至是文章当中的核心信息,包括采样、结论、方法等信息,可以直接从该工具中获取!

下面我们继续,基于这个问题的研究方向,提取相应字段的信息,看看通过简单的操作,是否能够完成SLR中Data Extraction这项繁琐的工作~



4. 尝试通过Elicit做SLR过程中的Data Extraction

先说下理论:

Data Extraction在SLR(Systematic Literature Review,系统综述)中起着很重要的作用。它的主要目的是从纳入研究的文献中提取相关的数据和信息,这些数据和信息通常包括:

1. 研究的特征,比如研究设计、样本量、研究时间等。这些信息可以用于评价研究的质量和可比性。

2. 研究结果和结论,这些直接关系到SLR的研究问题和目的。需要提取出研究报告的定量和定性结果。

3. 其他上下文信息,比如研究的限制、影响因素等。这些信息有助于正确理解和解释研究结果。

一般进行Data Extraction,主要包含以下几点:

1. 设计一个数据提取表格,事先确定需要提取的具体信息项,这可以保证不同研究的信息以标准化和可比的方式提取。

2. 由至少两名研究人员独立进行数据提取,然后对比和讨论,达成一致。这可以减少主观误差和遗漏。

3. 对定性信息进行归纳和总结,而不仅仅是简单的复制粘贴。同时保留原文引用以备查阅。

4. 记录研究的特有术语,并在数据提取表中给出解释或定义。这有助于理解和解释研究结果。

5. 数据提取结束后,对所有提取信息进行整理和清理,评估数据的完整性、质量和可比性,必要时返回文献对疑问进行澄清。

6. 数据提取的结果应该作为SLR的重要组成部分,在研究报告中明确呈现。这使得研究过程的透明性和结果的可信度得以提高。

好了,回到Elicit,我们主要提取几个关键信息,结论、主要发现和验证指标,看下结果如何~



为了展示方便,我们将结果转换成CSV文件如下:

做到这一步,相信大家应该非常熟悉了,每一个写过文献综述的同学,都知道要花多少时间来更新和维护这张表格,做过的都懂的~

当然,Elicit肯定不完美,对于相应字段提取出来的内容,还是需要从自己的专业领域进行验证,这一点对于所有用于研究的AI辅助工具,都是必不可少的步骤!


5. 你还可以对你提出的问题进行头脑风暴,缩小研究范围!

当你提出的问题稍显笼统或者不够精准时,Elicit也可以对这个问题进行头脑风暴,从而缩小研究问题的范围。

原问题是How the IoT data affect machine learning models?

也就是“A如何影响B?”

经过AI头脑风暴后,所产生的几个问题,明显对A和B都分别进行了不同维度的细化。

那么我们选择其中之一“How does the quality of IoT data affect machine learning models?”

那么,又可以开始新的一轮研究了!



当然,你也可以继续头脑风暴,根据这个问题进一步调整,Elicit会进一步提出不同的问题,激发你的灵感!

要知道,一个好的问题,比解决方案更重要!

以上,是Elicit第二部分的实战分享,大家也可以根据自己的研究方向和研究问题玩起来,相信走到这一步,大家应该可以通过Elicit激发自己的想法和思路,同时完成大部分Data Extraction的工作啦!



下一篇文章,会继续实践和探讨Elicit在每一篇文章中,能够给我们带来哪些灵感和思路~