关于本学期 DaSE 系列课程的开展

will-ww commented 12 months ago

本学期实验室承担如下课程的授课工作：

《数据科学与工程导论》（数据专业，1~18周），助教 @andyhuang18 @wj23027
《数据科学导论》（计算机拔尖班，1~9周），助教 @Zzzzzhuzhiwei
《数据思维与实践》（全校通识课，10~18周），助教 @lhbvvvvv

课程配套教材：https://github.com/will-ww/IntroDaSE

根据前期积累与实验室开展工作，希望来做一些教改方面的探讨：

1、开源授课模式

类似 oss101，通过建立仓库的方式进行全流程授课
将所有的课堂讨论、课后作业、lab 实验等，均放在该仓库下
将 Hypercrx 中的 oss-chat 作为课程助教
将同学的 Activity 和 OpenRank 纳入课程期末总评中

2、GitHub 行为数据分析实验

教授 GitHub 相关知识与操作技能
用 GitHub 行为数据作为实验对象，并在其上开发不同的实验
包括 Python 基础实验、Python 分析实验、SQL 实验、Python机器学习、图分析、可视化等
例如：Everything You Always Wanted To Know About GitHub

3、面向数据科学的提示词工程

除了 Python、SQL 传统分析语言，引入类 GPT 工具协助开展数据分析任务
设计基于类 GPT 工具的数据分析实验
例如，Code Interpreter、ChatGPT写作，数据分析，编程，效率工具

欢迎大家头脑风暴，提出更多的想法与可能性~

will-ww commented 11 months ago

更新了一份用 GPT 辅助做数据分析任务的文档：https://xlab2017.yuque.com/msdpvs/me6vqg/otd9iy12g797ur9f?singleDoc# 《GPT 数据科学系列课程规划》

will-ww commented 11 months ago

更新了一份用开源生态数据作为数据分析任务的文档： https://xlab2017.yuque.com/msdpvs/me6vqg/pffx1f7lrqkbcegl?singleDoc# 《开源生态分析挖掘任务 - 数据科学系列课程规划》

will-ww commented 11 months ago

随着 23 级同学入学，上述内容可以进行分工协作了，总的思路可以考虑：

2022 级主要开展：开源生态数据作为数据分析任务（负责人@bifenglin）
2023 级主要开展：GPT 辅助做数据分析任务（负责人@PureNatural）

编号	任务	内容	Issue	负责人
01	问题定义	开源领域问题	[Issue]	@bifenglin
02	数据收集	开源数据采集	[Issue]	@wj23027 @andyhuang18
03	数据预处理	开源数据预处理	[Issue]	@wj23027 @andyhuang18
04	数据探索	开源数据探索	[Issue]	@wj23027 @andyhuang18
05	特征工程	开源特征工程	[Issue]	@wj23027 @andyhuang18
06	数据建模	开源数据建模	[Issue]	@lhbvvvvv
07	结果评估	开源结果评估	[Issue]	@Zzzzzhuzhiwei
08	结果解释与展示	开源解释与展示	[Issue]	@wj23027 @andyhuang18

编号	任务	内容	Issue	负责人
01	问题定义	GPT 商业分析	[语雀]	@PureNatural
02	数据收集	GPT 数据收集	[语雀]	@游明东
03	数据预处理	GPT 数据预处理	[语雀]	@zhaosj975
04	数据探索	GPT 数据探索	[语雀]	@zhaosj975
05	特征工程	GPT 特征工程	[语雀]	@游明东
06	数据建模	GPT 数据建模	[语雀]	@王衍童
07	结果评估	GPT 结果评估	[语雀]	@游明东
08	结果解释与展示	GPT 结果解释与展示	[语雀]	@zhaosj975

will-ww commented 11 months ago

一个可以用的工具：https://www.lepton.ai/

bifenglin commented 11 months ago

问题定义可参照以下思维导图

OSS 开源研究 (2)

bifenglin commented 11 months ago

需要确定输出什么内容？是实验报告？

will-ww commented 11 months ago

需要确定输出什么内容？是实验报告？

实验手册~

PureNatural commented 11 months ago

@will-ww 这个完成的截止日期大概是多久呢？

bifenglin commented 11 months ago

那么我这边推荐个实验手册制作方式，使用Professor Synapse的任务拆分方法对实验拆分，先将实验目标拆分成一级内容，例如数据收集,数据预处理。再对数据收集进行拆分，根据gpt反馈形成二级内容。再整理如何处理，和相关的prompt，完成实验手册。拆分的prompt如下：

Act as Professor Synapse🧙🏾‍♂️, a conductor of expert agents. Your job is to support the user in accomplishing their goals by aligning with their goals and preference, then calling upon an expert agent perfectly suited to the task by initializing "Synapse_COR" = "${emoji}: I am an expert in ${role}. I know ${context}. I will reason step-by-step to determine the best course of action to achieve ${goal}. I can use ${tools} to help in this process

I will help you accomplish your goal by following these steps:
${reasoned steps}

My task ends when ${completion}. 

${first step, question}."

Follow these steps:
1. 🧙🏾‍♂️, Start each interaction by gathering context, relevant information and clarifying the user’s goals by asking them questions
2. Once user has confirmed, initialize “Synapse_CoR”
3.  🧙🏾‍♂️ and the expert agent, support the user until the goal is accomplished

Commands:
/start - introduce yourself and begin with step one 
/save - restate SMART goal, summarize progress so far, and recommend a next step
/reason - Professor Synapse and Agent reason step by step together and make a recommendation for how the user should proceed
/settings - update goal or agent
/new - Forget previous input

Rules:
-End every output with a question or a recommended next step
-List your commands in your first output or if the user asks
-🧙🏾‍♂️, ask before generating a new agent

birdflyi commented 11 months ago

歪个楼，突然发现放的论文碰巧中有我在去年调查中划分的几个主要团队~ （截图来自：文献调查OSS-粗筛1.pptx）

will-ww commented 11 months ago

@will-ww 这个完成的截止日期大概是多久呢？

咱们十一期间可以完成初稿，10月8日一起来过一遍初稿，有问题可以随时讨论~

bifenglin commented 11 months ago

为了更聚焦，和结合已有的成果，我们将实验手册的任务定位：github异常账户检测任务下面的机器人账号识别任务。

相关内容说明请参照https://github.com/X-lab2017/Data-Science-Experiment-Handbook 下面的Readme. 其中包含整个实验手册所必需的内容，若有修改建议请指出。最终呈现结果是一个git repository. 相关内容安排参照本issue的安排。

PureNatural commented 11 months ago

和同学们讨论后有几个问题需要确定一下，避免一些工作可能出现错误

GPT 辅助做数据分析任务的实验手册我看到语雀文档中没有提到一定要使用开源领域的数据集，针对传统领域的分析任务展开工作是不是即可，例如新闻，股票，房价等
GPT 辅助做数据分析任务第一项是问题定义，内容给出的提示是商业分析问题定义一般就是明确分析目的和需求，包括确定要解决的问题，设定目标和预期结果。以垃圾邮件任务过滤为例，垃圾邮件过滤任务是一种分类任务，其目标是自动将收件箱中的电子邮件分为两个主要类别: 垃圾邮件(或称为垃圾信息、垃圾信、垃圾箱)和非垃圾邮件 (合法邮件、正常邮件)。我理解的问题定义就是针对具体的任务对其进行一定的描述，不同的任务肯定有不同的定义，然后我可以利用GPT给出详细的定义帮我明确该任务输入输出等关键信息，不知道这样做是否合理。GPT商业分析不知道和问题定义是有怎样的联系。
因为有些同学的工作可能是数据预处理，有些同学是实验，有些同学是实验结果可视化，如果我们只针对一个任务从头做到尾，那么负责实验结果可视化的同学可能前期基本就啥也干不了，就一定要等到前面的同学工作都做完了才能展开。我的想法是，其实有一些任务的数据集是不需要做额外处理的，一些经典领域下的经典任务有一些公开的不错的数据集可以让跑实验的同学先展开，而针对一些任务如果数据集确实是要做前期处理，那就让负责这部分的同学先做处理，简单地说就是尽可能让工作并行展开～

will-ww commented 11 months ago

和同学们讨论后有几个问题需要确定一下，避免一些工作可能出现错误

三个问题的回答：

1、肯定不用开源的数据，这样只会门槛更高，用普通开放数据和场景即可； 2、这个问题可以参考这本书和这本书中的内容，本质上就是做行业研究，目前还没有直接的参考，这块可以我们一起来做 3、嗯，这个你们定，尽可能并行

will-ww commented 11 months ago

为了更聚焦，和结合已有的成果，我们将实验手册的任务定位：github异常账户检测任务下面的机器人账号识别任务。

相关内容说明请参照https://github.com/X-lab2017/Data-Science-Experiment-Handbook 下面的Readme. 其中包含整个实验手册所必需的内容，若有修改建议请指出。最终呈现结果是一个git repository. 相关内容安排参照本issue的安排。

感觉这样范围会太窄了。而且机器人识别，不算是一个很有意思的事情，领域知识门槛也比较高~

远没有像数 star 数，以及充分利用实验室的 OpenDigger 和 Hypercrx 项目的基础有效。只有在讲到异常检测算法内容的时候，这个例子才是比较合适的~ @bifenglin

bifenglin commented 11 months ago

为了让实验更全面，在7号完成第一个实验手册的任务基础上，再增加更多种类的任务：	题目	任务
开源社区发现	聚类任务	@wj23027
预测项目star数	回归任务	@lhbvvvvv
开源社区评论情感分析	NLP/分类任务	@Zzzzzhuzhiwei
对开发者推荐感兴趣的项目	推荐任务	@andyhuang18

若有问题请大家及时反馈，另外提醒6号完成第一个版本内容。

PureNatural commented 10 months ago

本周讨论后，请几位同学针对内容做出以下修改：赵：

第3章、第4章、第8章尝试使用简短的语句对GPT提问，与现在的内容做对比。
3.1数据质量可以使用其他的现成数据集尝试完成。
第8章可以看第7章的实验结果，描述实验分析结果，例如模型的结果准确率多高，比其他模型更好等等，类比期刊论文的实验结果部分。使用什么样的图表让GPT做决定。

游：第2章可以参考现在标准的爬虫教程爬的什么网站，如果和现在做的内容类似可以不用添加内容。王：暂无三位同学可以自己做补充。

HalloMelon commented 10 months ago

好的~

Tenth-crew commented 10 months ago

本周讨论后，请几位同学针对内容做出以下修改：赵：

第3章、第4章、第8章尝试使用简短的语句对GPT提问，与现在的内容做对比。

3.1数据质量可以使用其他的现成数据集尝试完成。

第8章可以看第7章的实验结果，描述实验分析结果，例如模型的结果准确率多高，比其他模型更好等等，类比期刊论文的实验结果部分。使用什么样的图表让GPT做决定。

游：第2章可以参考现在标准的爬虫教程爬的什么网站，如果和现在做的内容类似可以不用添加内容。王：暂无三位同学可以自己做补充。

如果能够爬取到示例网站的相关字段，再去爬取其他网站流程大同小异，本质上并无什么区别，所以个人认为可以不用再添加其他网站的爬取教程。

X-lab2017 / open-wonderland

关于本学期 DaSE 系列课程的开展 #308