[产学研] 和百度 PaddlePaddle 社区联合举办黑客松活动

X-lab2017 / open-wonderland

X-lab 开放实验室的开源奇妙世界

51 stars 9 forks source link

[产学研] 和百度 PaddlePaddle 社区联合举办黑客松活动 #99

Open will-ww opened 2 years ago

will-ww commented 2 years ago

经过前期探讨，初步确定和 PaddlePaddle 社区联合举办黑客送活动，主题为：PaddlePaddle 社区的数据洞察

黑客松：开源社区数据洞察

需求一：issue响应情况可视化展示与分析

issue响应效率：首次非机器人答复时间
issue处理效率：多久内被解决，多少issue长时间未解决
issue comment 情感分析，正向与负向情感展示
issue后续跟进情况：后续无人跟进、关闭后仍有讨论、长期hold等情况

需求二：【过滤飞桨员工后的外部开发者】pr响应情况可视化展示与分析

pr review效率：响应速度如何？pr 合入时间？pr review comment数量，pr review人数
pr reviewer推荐

需求三：外部开发者行为可视化展示与分析

【过滤飞桨员工后的外部开发者】行为可视化展示，包括：issue数量与列表、pr数量与列表、所属方向分析（感兴趣方向挖掘）、活跃度排名（按照时间区间展示）...
过滤后的基础指标竞品对比（如活跃度）

如上图，这种是属于体验的，具体的量化要自己做，例如找开发者去使用，看使用过程中每一种的体验情况，然后汇总，毕竟这种体验与开发者自身也有很大的关系，例如对项目的了解程度、对特定技术的理解等。这种更类似于社科中的量表+调研的方式，而不是来源于自动化的数据统计，其实也是运营中常见的一种手段。

我们需要在本周尽量确定好：

[ ] 定义好具体的任务
[ ] 确定数据范围和结构
[ ] 确定黑客松流程
[ ] 确定评价机制

will-ww commented 2 years ago

上一期的黑客松：https://www.paddlepaddle.org.cn/PaddlePaddleHackathon-2022-3
开发者社区：https://www.paddlepaddle.org.cn/developercommunity

xgdyp commented 2 years ago

想到的几个可行的问题：

社区开发者流动/流失预测：类似于电商的客户流失预测类的比赛，可以预测社区内开发者未来是否有可能流失
社区成员onboarding晋升机制刚刚看了下paddle的仓库，成员只有几个人，貌似是组织不会有成员的变化。但是我们可以根据数据进行分析从而确定一个用户在贡献多少的情况下应该给他发放一些奖励（例如开发者证书之类）对于有晋升机制的社区，这完全可以成为判断成员晋升的事实（因为现在很多社区都是通过主观判断进行投票的）
开发者推荐有点类似于会议上所说的，例如paddle组织下有很多仓库，可以通过用户过往的数据判断用户的技能，从而当其他仓库需要该技能的成员时可以进行匹配

bifenglin commented 2 years ago

预测类的问题适合机器学习方法，第三个问题可以变成一个预测类问题，例如上面说的社区开发者流动/流失预测。而且相关指标和数据也比较好获取。

Ligoml commented 2 years ago

我们现在可以确定的两个任务是：

任务1：paddle的PR和issue的可视化展示与分析。（需求一和需求二）
任务2：外部开发者行为可视化展示与分析。（需求三）

两个任务的产出都应该是一个开源的工具库与一份分析报告

前面提到的一些开发者下一步行为的预测，感觉一方面数据不好标，另一方面也不好去判断准确性，相比较确定性的数据分析可能优先级没有那么高

另外还有一个新的任务可以讨论一下，不一定要加，就是 paddle 社区与国内外其他优秀开源社区的对比研究，如"online social structure"等，偏社会学研究，我们想看一看从外部视角去看这些开源社区会有什么样不一样的新结论~

frank-zsy commented 2 years ago

【任务说明】

任务标题：Paddle 社区数据分析

技术标签：GitHub 社区数据分析，深度学习

任务难度：中等

详细描述：使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区进行深度的分析。

分析任务包含：

各类统计型任务（如 Issue、PR 数量，响应周期，解决周期等）并进行可视化和介绍。可参考 CHAOSS 指标体系：https://chaoss.community/metrics/
评论的情感分析：使用算法对 Issue 和 PR 中的评论内容进行情感分析，对正面或负面情绪进行识别。
PR 的 reviewer 推荐：使用算法对特定 PR 进行 Reviewer 推荐。

【提交流程】

对任务进行分析工作，并将结果汇总为 Jupyter Notebook 报告文件，上传至 https://github.com/X-lab2017/open-digger 仓库 Hackathon 文件夹中。

【提交内容】

提交内容为一个完成的分析报告的 Jupyter Notebook 文件，至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

【评判标准】

合入分析结果和说明的 Notebook 文件即为完成任务，最终排名由评判委员会对完成任务的参赛者打分，分数最高者获胜。

【技术要求】

熟悉 Python 或 Node.js，熟悉 Clickhouse SQL 语法，了解 GitHub 日志数据。

【参考内容】

数据集获取：https://github.com/X-lab2017/open-digger/tree/master/sample_data

熟悉 Node.js，可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作。

也可自行构建 Python Kernel 并进行分析工作。

【答疑交流】

如果在开发中对于上述任务有任何问题，欢迎在本 Issue 下留言交流。

如果有 OpenDigger 使用相关问题，欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

frank-zsy commented 2 years ago

【任务说明】

任务标题：Paddle 外部开发者行为可视化

技术标签：GitHub 社区数据分析，深度学习

任务难度：中等

详细描述：使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区中的开发者进行深入分析。

分析任务包含：

对 Paddle 社区的开发者的行为进行统计性分析，如日常贡献项目、使用语言、活跃情况、在 Paddle 社区的活跃周期等。进阶任务：
利用算法对 Paddle 社区的贡献者进行开发者画像分析，如开发者的技能标签预测、所在时区分析等。

【提交流程】

对任务进行分析工作，并将结果汇总为 Jupyter Notebook 报告文件，上传至 https://github.com/X-lab2017/open-digger 仓库 Hackathon 文件夹中。

【提交内容】

提交内容为一个完成的分析报告的 Jupyter Notebook 文件，至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

【评判标准】

合入分析结果和说明的 Notebook 文件即为完成任务，最终排名由评判委员会对完成任务的参赛者打分，分数最高者获胜。

【技术要求】

熟悉 Python 或 Node.js，熟悉 Clickhouse SQL 语法，了解 GitHub 日志数据。

【参考内容】

数据集获取：https://github.com/X-lab2017/open-digger/tree/master/sample_data

熟悉 Node.js，可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作。

也可自行构建 Python Kernel 并进行分析工作。

【答疑交流】

如果在开发中对于上述任务有任何问题，欢迎在本 Issue 下留言交流。

如果有 OpenDigger 使用相关问题，欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

Ligoml commented 2 years ago

有几个问题想要沟通一下：

数据问题：归档数据只有2021年以前的吗？其实是很希望能获取最近的数据，比如2022年上半年
如果是历史数据，那么 PR reviewer推荐 可能意义就不是太大了，情感分析 可以保留，且需要在题目中说明是都要做的，如果区分基础任务和进阶任务可能会给大家一种只需要做基础就可以的感觉
外部开发者如何定义？因为不方便直接给出 paddle 员工以外的开发者 github 清单，所以这个定义可能只能根据公开数据，如邮箱后缀等来做分析。可以把第二个任务改为开发者行为分析，其中重点关注 paddle 以外的成员行为，并描述一些典型画像
任务的冠军评定标准需要做额外的说明，在飞桨其他任务中，会把 pr 合入作为任务完成的标志，第一个合入 pr 的开发者即为任务冠军。但是 社区洞察 这三个任务我理解应该是择优的，所以需要额外的说明，否则开发者会产生一些疑惑

frank-zsy commented 2 years ago

有几个问题想要沟通一下：

数据问题：归档数据只有2021年以前的吗？其实是很希望能获取最近的数据，比如2022年上半年

如果是历史数据，那么 PR reviewer推荐 可能意义就不是太大了，情感分析 可以保留，且需要在题目中说明是都要做的，如果区分基础任务和进阶任务可能会给大家一种只需要做基础就可以的感觉

外部开发者如何定义？因为不方便直接给出 paddle 员工以外的开发者 github 清单，所以这个定义可能只能根据公开数据，如邮箱后缀等来做分析。可以把第二个任务改为开发者行为分析，其中重点关注 paddle 以外的成员行为，并描述一些典型画像

任务的冠军评定标准需要做额外的说明，在飞桨其他任务中，会把 pr 合入作为任务完成的标志，第一个合入 pr 的开发者即为任务冠军。但是 社区洞察 这三个任务我理解应该是择优的，所以需要额外的说明，否则开发者会产生一些疑惑

数据是可以拿到最新的，例如今天制作数据的话就是到 2022.06.30 的
主要区分是基础任务偏统计，而进阶任务偏算法。如果都需要做的话那就取消基础任务和进阶任务的区分。
因为之前提到会开放 PaddlePaddle 组织的 Member 信息，如果暂时不方便的话那对于参赛者来说就比较困难区分内外部的开发者了，要不就不再区分内外部，对头部开发者都做画像分析。
是的，如果这样的话可以再说明一下评判标准。

Ligoml commented 2 years ago

感谢~

数据ok的，提供到2022.6.30就好
一起做吧，只做情感分析
典型画像吧，不强调头部，如果分析头部的话大概率是内部员工了，比如做个聚类，每类开发者选取一个典型画像这样