实战Elicit, 让你惊艳的AI学术研究工作神器(二） - Githubissues

ixxmu / mp_duty

抓取网络文章到github issues保存

https://archives.duty-machine.now.sh/

115 stars 30 forks source link

实战Elicit, 让你惊艳的AI学术研究工作神器(二） #4319

Closed ixxmu closed 9 months ago

ixxmu commented 9 months ago

https://mp.weixin.qq.com/s/R_1lCUuZyzLOF8MEMoCw0g

ixxmu commented 9 months ago

实战Elicit, 让你惊艳的AI学术研究工作神器(二） by 门童靖博士

Systematic Literature Review绝对是每个学术研究工作者的必经之路，顺利完成一篇SLR才能代表你真正了解该领域，成为该领域的专家，并且知道在该领域有哪些Gap值得后来者继续研究。

接上一篇《实战Elicit, 让你惊艳的AI学术研究工作神器(一）》，继续实践并探讨Elicit对于研究工作的实际效用。

仍以之前的主题“How the IoT data affect machine learning models?”作为初始问题。

1. 反馈结果中常规字段是否有包含？

以下是主页面，默认对应的Paper Title和摘要总结：

以其中一篇文章为例，包含Paper主题、作者、发表年份、引用次数、Journal信息、以及该Journal的Impact指数：

同时，也可以直接访问DOI和源文件的路径如下：

基于以上，基本可以获得该Paper的主要字段和相应信息。

2. 能否通过更多字段来展示Paper的关键信息？

通过左下角的模块可以对主页面的表格直接添加相应的字段，比如增加"Outcomes measured", 即如果是Experimental paper, 它主要验证了哪些关键指标？

当然，也可以增加“Number of participants”，也就是一般用于实验的样本是多少，一般社科、经管类文章都需要考虑样本空间。而以我们提的主题为例，下面这篇Paper 中的41代表的是数据集的特征数量：

3. Elicit能否从所有的文档内容中，提取更多字段信息呢？

其实在做SLR的时候，相信大家都能感受到，最头疼的就是在已经过滤完成后的文章中，快速找到并提取相应字段的信息，然后填入并统一成一个表格，再进行分类分析。

如果有上百篇paper需要阅读并提取相应的信息，很有可能会花掉你两周甚至更多的时间，那么针对这个问题，我们看看Elicit能否在Data Extraction这个工作上为我们做些什么呢？

下面回到Elicit的左下角，"Search for paper information"～

首先，是该文章基础的元数据：

其次，是关于实验样本的基本信息：

然后，是关于研究干预的字段：

甚至，通过下面字段，可以直接获取文章的结论！

最后，基于该文章的结论，它的研究方法也可以一并拿来：

至此，相信大家应该都知道了，对于文章的基本信息，甚至是文章当中的核心信息，包括采样、结论、方法等信息，可以直接从该工具中获取！

下面我们继续，基于这个问题的研究方向，提取相应字段的信息，看看通过简单的操作，是否能够完成SLR中Data Extraction这项繁琐的工作～

4. 尝试通过Elicit做SLR过程中的Data Extraction

先说下理论：

Data Extraction在SLR(Systematic Literature Review,系统综述)中起着很重要的作用。它的主要目的是从纳入研究的文献中提取相关的数据和信息,这些数据和信息通常包括:

1. 研究的特征,比如研究设计、样本量、研究时间等。这些信息可以用于评价研究的质量和可比性。

2. 研究结果和结论,这些直接关系到SLR的研究问题和目的。需要提取出研究报告的定量和定性结果。

3. 其他上下文信息,比如研究的限制、影响因素等。这些信息有助于正确理解和解释研究结果。

一般进行Data Extraction,主要包含以下几点:

1. 设计一个数据提取表格,事先确定需要提取的具体信息项,这可以保证不同研究的信息以标准化和可比的方式提取。

2. 由至少两名研究人员独立进行数据提取,然后对比和讨论,达成一致。这可以减少主观误差和遗漏。

3. 对定性信息进行归纳和总结,而不仅仅是简单的复制粘贴。同时保留原文引用以备查阅。

4. 记录研究的特有术语,并在数据提取表中给出解释或定义。这有助于理解和解释研究结果。

5. 数据提取结束后,对所有提取信息进行整理和清理,评估数据的完整性、质量和可比性,必要时返回文献对疑问进行澄清。

6. 数据提取的结果应该作为SLR的重要组成部分,在研究报告中明确呈现。这使得研究过程的透明性和结果的可信度得以提高。

好了，回到Elicit，我们主要提取几个关键信息，结论、主要发现和验证指标，看下结果如何～

为了展示方便，我们将结果转换成CSV文件如下：

做到这一步，相信大家应该非常熟悉了，每一个写过文献综述的同学，都知道要花多少时间来更新和维护这张表格，做过的都懂的～

当然，Elicit肯定不完美，对于相应字段提取出来的内容，还是需要从自己的专业领域进行验证，这一点对于所有用于研究的AI辅助工具，都是必不可少的步骤！

5. 你还可以对你提出的问题进行头脑风暴，缩小研究范围！

当你提出的问题稍显笼统或者不够精准时，Elicit也可以对这个问题进行头脑风暴，从而缩小研究问题的范围。

原问题是“How the IoT data affect machine learning models?”

也就是“A如何影响B？”

经过AI头脑风暴后，所产生的几个问题，明显对A和B都分别进行了不同维度的细化。

那么我们选择其中之一“How does the quality of IoT data affect machine learning models?”

那么，又可以开始新的一轮研究了！

当然，你也可以继续头脑风暴，根据这个问题进一步调整，Elicit会进一步提出不同的问题，激发你的灵感！

要知道，一个好的问题，比解决方案更重要！

以上，是Elicit第二部分的实战分享，大家也可以根据自己的研究方向和研究问题玩起来，相信走到这一步，大家应该可以通过Elicit激发自己的想法和思路，同时完成大部分Data Extraction的工作啦！

下一篇文章，会继续实践和探讨Elicit在每一篇文章中，能够给我们带来哪些灵感和思路～