X-lab2017 / open-wonderland

X-lab 开放实验室的开源奇妙世界
56 stars 11 forks source link

关于本学期 DaSE 系列课程的开展 #308

Open will-ww opened 12 months ago

will-ww commented 12 months ago

本学期实验室承担如下课程的授课工作:

课程配套教材:https://github.com/will-ww/IntroDaSE

根据前期积累与实验室开展工作,希望来做一些教改方面的探讨:

1、开源授课模式

2、GitHub 行为数据分析实验

3、面向数据科学的提示词工程

欢迎大家头脑风暴,提出更多的想法与可能性~

will-ww commented 11 months ago

更新了一份用 GPT 辅助做数据分析任务的文档:https://xlab2017.yuque.com/msdpvs/me6vqg/otd9iy12g797ur9f?singleDoc# 《GPT 数据科学系列课程规划》

will-ww commented 11 months ago

更新了一份用开源生态数据作为数据分析任务的文档: https://xlab2017.yuque.com/msdpvs/me6vqg/pffx1f7lrqkbcegl?singleDoc# 《开源生态分析挖掘任务 - 数据科学系列课程规划》

will-ww commented 11 months ago

随着 23 级同学入学,上述内容可以进行分工协作了,总的思路可以考虑:

编号 任务 内容 Issue 负责人
01 问题定义 开源领域问题 [Issue] @bifenglin
02 数据收集 开源数据采集 [Issue] @wj23027 @andyhuang18
03 数据预处理 开源数据预处理 [Issue] @wj23027 @andyhuang18
04 数据探索 开源数据探索 [Issue] @wj23027 @andyhuang18
05 特征工程 开源特征工程 [Issue] @wj23027 @andyhuang18
06 数据建模 开源数据建模 [Issue] @lhbvvvvv
07 结果评估 开源结果评估 [Issue] @Zzzzzhuzhiwei
08 结果解释与展示 开源解释与展示 [Issue] @wj23027 @andyhuang18
编号 任务 内容 Issue 负责人
01 问题定义 GPT 商业分析 [语雀] @PureNatural
02 数据收集 GPT 数据收集 [语雀] @游明东
03 数据预处理 GPT 数据预处理 [语雀] @zhaosj975
04 数据探索 GPT 数据探索 [语雀] @zhaosj975
05 特征工程 GPT 特征工程 [语雀] @游明东
06 数据建模 GPT 数据建模 [语雀] @王衍童
07 结果评估 GPT 结果评估 [语雀] @游明东
08 结果解释与展示 GPT 结果解释与展示 [语雀] @zhaosj975
will-ww commented 11 months ago

一个可以用的工具:https://www.lepton.ai/

bifenglin commented 11 months ago

问题定义可参照以下思维导图

OSS 开源研究 (2)

bifenglin commented 11 months ago

需要确定输出什么内容?是实验报告?

will-ww commented 11 months ago

需要确定输出什么内容?是实验报告?

实验手册~

PureNatural commented 11 months ago

@will-ww 这个完成的截止日期大概是多久呢?

bifenglin commented 11 months ago

那么我这边推荐个实验手册制作方式,使用Professor Synapse的任务拆分方法对实验拆分,先将实验目标拆分成一级内容,例如数据收集,数据预处理。再对数据收集进行拆分,根据gpt反馈形成二级内容。再整理如何处理,和相关的prompt,完成实验手册。 拆分的prompt如下:

Act as Professor Synapse🧙🏾‍♂️, a conductor of expert agents. Your job is to support the user in accomplishing their goals by aligning with their goals and preference, then calling upon an expert agent perfectly suited to the task by initializing "Synapse_COR" = "${emoji}: I am an expert in ${role}. I know ${context}. I will reason step-by-step to determine the best course of action to achieve ${goal}. I can use ${tools} to help in this process

I will help you accomplish your goal by following these steps:
${reasoned steps}

My task ends when ${completion}. 

${first step, question}."

Follow these steps:
1. 🧙🏾‍♂️, Start each interaction by gathering context, relevant information and clarifying the user’s goals by asking them questions
2. Once user has confirmed, initialize “Synapse_CoR”
3.  🧙🏾‍♂️ and the expert agent, support the user until the goal is accomplished

Commands:
/start - introduce yourself and begin with step one 
/save - restate SMART goal, summarize progress so far, and recommend a next step
/reason - Professor Synapse and Agent reason step by step together and make a recommendation for how the user should proceed
/settings - update goal or agent
/new - Forget previous input

Rules:
-End every output with a question or a recommended next step
-List your commands in your first output or if the user asks
-🧙🏾‍♂️, ask before generating a new agent
birdflyi commented 11 months ago

歪个楼,突然发现放的论文碰巧中有我在去年调查中划分的几个主要团队~ image (截图来自:文献调查OSS-粗筛1.pptx)

will-ww commented 11 months ago

@will-ww 这个完成的截止日期大概是多久呢?

咱们十一期间可以完成初稿,10月8日 一起来过一遍初稿,有问题可以随时讨论~

bifenglin commented 11 months ago

为了更聚焦,和结合已有的成果,我们将实验手册的任务定位:github异常账户检测任务下面的机器人账号识别任务。

相关内容说明请参照https://github.com/X-lab2017/Data-Science-Experiment-Handbook 下面的Readme. 其中包含整个实验手册所必需的内容,若有修改建议请指出。 最终呈现结果是一个git repository. 相关内容安排参照本issue的安排。

PureNatural commented 11 months ago

和同学们讨论后有几个问题需要确定一下,避免一些工作可能出现错误

  1. GPT 辅助做数据分析任务的实验手册我看到语雀文档中没有提到一定要使用开源领域的数据集,针对传统领域的分析任务展开工作是不是即可,例如新闻,股票,房价等 image
  2. GPT 辅助做数据分析任务第一项是问题定义,内容给出的提示是商业分析 image 问题定义一般就是明确分析目的和需求,包括确定要解决的问题,设定目标和预期结果。以垃圾邮件任务过滤为例,垃圾邮件过滤任务是一种分类任务,其目标是自动将收件箱中的电子邮件分为两个主要类别: 垃圾邮件(或称为垃圾信息、垃圾信、垃圾箱)和非垃圾邮件 (合法邮件、正常邮件)。我理解的问题定义就是针对具体的任务对其进行一定的描述,不同的任务肯定有不同的定义,然后我可以利用GPT给出详细的定义帮我明确该任务输入输出等关键信息,不知道这样做是否合理。GPT商业分析不知道和问题定义是有怎样的联系。
  3. 因为有些同学的工作可能是数据预处理,有些同学是实验,有些同学是实验结果可视化,如果我们只针对一个任务从头做到尾,那么负责实验结果可视化的同学可能前期基本就啥也干不了,就一定要等到前面的同学工作都做完了才能展开。 我的想法是,其实有一些任务的数据集是不需要做额外处理的,一些经典领域下的经典任务有一些公开的不错的数据集可以让跑实验的同学先展开,而针对一些任务如果数据集确实是要做前期处理,那就让负责这部分的同学先做处理,简单地说就是尽可能让工作并行展开~
will-ww commented 11 months ago

和同学们讨论后有几个问题需要确定一下,避免一些工作可能出现错误

三个问题的回答:

1、肯定不用开源的数据,这样只会门槛更高,用普通开放数据和场景即可; 2、这个问题可以参考这本书这本书中的内容,本质上就是做行业研究,目前还没有直接的参考,这块可以我们一起来做 3、嗯,这个你们定,尽可能并行

will-ww commented 11 months ago

为了更聚焦,和结合已有的成果,我们将实验手册的任务定位:github异常账户检测任务下面的机器人账号识别任务。

相关内容说明请参照https://github.com/X-lab2017/Data-Science-Experiment-Handbook 下面的Readme. 其中包含整个实验手册所必需的内容,若有修改建议请指出。 最终呈现结果是一个git repository. 相关内容安排参照本issue的安排。

感觉这样范围会太窄了。而且机器人识别,不算是一个很有意思的事情,领域知识门槛也比较高~

远没有像数 star 数,以及充分利用实验室的 OpenDigger 和 Hypercrx 项目的基础有效。只有在讲到异常检测算法内容的时候,这个例子才是比较合适的~ @bifenglin

bifenglin commented 11 months ago
为了让实验更全面,在7号完成第一个实验手册的任务基础上,再增加更多种类的任务: 题目 任务 负责人
开源社区发现 聚类任务 @wj23027
预测项目star数 回归任务 @lhbvvvvv
开源社区评论情感分析 NLP/分类任务 @Zzzzzhuzhiwei
对开发者推荐感兴趣的项目 推荐任务 @andyhuang18

若有问题请大家及时反馈,另外提醒6号完成第一个版本内容。

PureNatural commented 10 months ago

本周讨论后,请几位同学针对内容做出以下修改: 赵:

游: 第2章可以参考现在标准的爬虫教程爬的什么网站,如果和现在做的内容类似可以不用添加内容。 王: 暂无 三位同学可以自己做补充。

HalloMelon commented 10 months ago

好的~

Tenth-crew commented 10 months ago

本周讨论后,请几位同学针对内容做出以下修改: 赵:

  • 第3章、第4章、第8章尝试使用简短的语句对GPT提问,与现在的内容做对比。
  • 3.1数据质量可以使用其他的现成数据集尝试完成。
  • 第8章可以看第7章的实验结果,描述实验分析结果,例如模型的结果准确率多高,比其他模型更好等等,类比期刊论文的实验结果部分。使用什么样的图表让GPT做决定。

游: 第2章可以参考现在标准的爬虫教程爬的什么网站,如果和现在做的内容类似可以不用添加内容。 王: 暂无 三位同学可以自己做补充。

如果能够爬取到示例网站的相关字段,再去爬取其他网站流程大同小异,本质上并无什么区别,所以个人认为可以不用再添加其他网站的爬取教程。