X-lab2017 / open-wonderland

X-lab 开放实验室的开源奇妙世界
51 stars 9 forks source link

[产学研] 和百度 PaddlePaddle 社区联合举办黑客松活动 #99

Open will-ww opened 2 years ago

will-ww commented 2 years ago

经过前期探讨,初步确定和 PaddlePaddle 社区联合举办黑客送活动,主题为:PaddlePaddle 社区的数据洞察

黑客松:开源社区数据洞察

需求一:issue响应情况可视化展示与分析

需求二:【过滤飞桨员工后的外部开发者】pr响应情况可视化展示与分析

需求三:外部开发者行为可视化展示与分析

6dd1b9450ce48706215e9bae8aba5486_

如上图,这种是属于体验的,具体的量化要自己做,例如找开发者去使用,看使用过程中每一种的体验情况,然后汇总,毕竟这种体验与开发者自身也有很大的关系,例如对项目的了解程度、对特定技术的理解等。这种更类似于社科中的量表+调研的方式,而不是来源于自动化的数据统计,其实也是运营中常见的一种手段。

我们需要在本周尽量确定好:

will-ww commented 2 years ago
xgdyp commented 2 years ago

想到的几个可行的问题:

bifenglin commented 2 years ago

预测类的问题适合机器学习方法,第三个问题可以变成一个预测类问题,例如上面说的社区开发者流动/流失预测。而且相关指标和数据也比较好获取。

Ligoml commented 2 years ago

我们现在可以确定的两个任务是:

两个任务的产出都应该是一个开源的工具库与一份分析报告

前面提到的一些开发者下一步行为的预测,感觉一方面数据不好标,另一方面也不好去判断准确性,相比较确定性的数据分析可能优先级没有那么高

另外还有一个新的任务可以讨论一下,不一定要加,就是 paddle 社区与国内外其他优秀开源社区的对比研究,如"online social structure"等,偏社会学研究,我们想看一看从外部视角去看这些开源社区会有什么样不一样的新结论~

frank-zsy commented 2 years ago

【任务说明】

任务标题:Paddle 社区数据分析

技术标签:GitHub 社区数据分析,深度学习

任务难度:中等

详细描述:使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区进行深度的分析。

分析任务包含:

【提交流程】

对任务进行分析工作,并将结果汇总为 Jupyter Notebook 报告文件,上传至 https://github.com/X-lab2017/open-digger 仓库 Hackathon 文件夹中。

【提交内容】

提交内容为一个完成的分析报告的 Jupyter Notebook 文件,至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

【评判标准】

合入分析结果和说明的 Notebook 文件即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜。

【技术要求】

熟悉 Python 或 Node.js,熟悉 Clickhouse SQL 语法,了解 GitHub 日志数据。

【参考内容】

数据集获取:https://github.com/X-lab2017/open-digger/tree/master/sample_data

熟悉 Node.js,可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作。

也可自行构建 Python Kernel 并进行分析工作。

【答疑交流】

如果在开发中对于上述任务有任何问题,欢迎在本 Issue 下留言交流。

如果有 OpenDigger 使用相关问题,欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

frank-zsy commented 2 years ago

【任务说明】

任务标题:Paddle 外部开发者行为可视化

技术标签:GitHub 社区数据分析,深度学习

任务难度:中等

详细描述:使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区中的开发者进行深入分析。

分析任务包含:

【提交流程】

对任务进行分析工作,并将结果汇总为 Jupyter Notebook 报告文件,上传至 https://github.com/X-lab2017/open-digger 仓库 Hackathon 文件夹中。

【提交内容】

提交内容为一个完成的分析报告的 Jupyter Notebook 文件,至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

【评判标准】

合入分析结果和说明的 Notebook 文件即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜。

【技术要求】

熟悉 Python 或 Node.js,熟悉 Clickhouse SQL 语法,了解 GitHub 日志数据。

【参考内容】

数据集获取:https://github.com/X-lab2017/open-digger/tree/master/sample_data

熟悉 Node.js,可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作。

也可自行构建 Python Kernel 并进行分析工作。

【答疑交流】

如果在开发中对于上述任务有任何问题,欢迎在本 Issue 下留言交流。

如果有 OpenDigger 使用相关问题,欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

Ligoml commented 2 years ago

有几个问题想要沟通一下:

frank-zsy commented 2 years ago

有几个问题想要沟通一下:

  • 数据问题:归档数据只有2021年以前的吗?其实是很希望能获取最近的数据,比如2022年上半年
  • 如果是历史数据,那么 PR reviewer推荐 可能意义就不是太大了,情感分析 可以保留,且需要在题目中说明是都要做的,如果区分基础任务和进阶任务可能会给大家一种只需要做基础就可以的感觉
  • 外部开发者如何定义?因为不方便直接给出 paddle 员工以外的开发者 github 清单,所以这个定义可能只能根据公开数据,如邮箱后缀等来做分析。可以把第二个任务改为开发者行为分析,其中重点关注 paddle 以外的成员行为,并描述一些典型画像
  • 任务的冠军评定标准需要做额外的说明,在飞桨其他任务中,会把 pr 合入作为任务完成的标志,第一个合入 pr 的开发者即为任务冠军。但是 社区洞察 这三个任务我理解应该是择优的,所以需要额外的说明,否则开发者会产生一些疑惑
Ligoml commented 2 years ago

感谢~