X-lab2017 / open-wonderland

X-lab 开放实验室的开源奇妙世界
56 stars 11 forks source link

2023 中国开源年度报告(@wj23027) #341

Closed will-ww closed 7 months ago

will-ww commented 8 months ago

随着 Gitee 数据的合入、开源治理标准的发布、开放原子大屏的落地、OpenLeaderboard 榜单变化、以及 OpenRank 论文的录用等一系列事件,2023 中国开源年度报告相较于 2022 年度报告,预计可以有一个较大的变化与更新,大家可以在此帖下集思广益,提出各种新的需求和分析形式~

比较早的时候,曾经画过下面的图,希望来分层分类的分析开源数字生态:

年报后续时间节点:

此次年报采用 hackmd 协作,麻烦大家完成相应章节的的报告(markdowm 格式)后,将 hackmd 链接更新至 2023 中国开源年度报告的数据篇中~

wj23027 commented 8 months ago

这是目前整理的2023年开源年报数据篇的大纲:https://kaiyuanshe.feishu.cn/docx/BorEdojRAoJygxxOxToc97lFnSf 欢迎大家提出新的想法~

will-ww commented 8 months ago

因此,一个可能的框架包括:

1、宏观洞察 负责人@wj23027,@andyhuang18

1.1 总体活跃度与影响力(展示 Activity 和 OpenRank 全域变化情况,以及 Github/Gitee 细分情况) @wj23027 1.2 仓库数量、活跃用户数量、日志事件数量的趋势图 @wj23027 1.3 地域相关的趋势分析 @wj23027 1.4 平台相关的趋势分析(例如 Gitee 平台整体 OpenRank 值的全球占比) @andyhuang18 1.5 供应链趋势分析 @andyhuang18 1.6 开源许可证方面的统计与分析 @andyhuang18

2、排行榜 负责人@tyn1998

排行版作为 OpenRank 的重要呈现形式,可以考虑放在宏观洞察的后面,展示其重要性。

2.1 全球开源项目 OpenRank 排名(Top 30) 2.2 中国开源项目 OpenRank 排名(Top 30) 2.3 全球企业 OpenRank 排名(Top 20) 2.4 中国企业 OpenRank 排名(Top 20) 2.5 全球基金会 OpenRank 排名(Top 10) 2.6 全球开发者 OpenRank 排名(Top 30) 2.7 全球协作机器人 OpenRank 排名(Top 30)

3、技术领域洞察 负责人@PureNatural,@birdflyi

六大技术领域:操作系统、数据库、云原生、大数据、人工智能、前端

3.1 各领域总体情况与比较(各领域排名前10的OpenRank项目)@PureNatural 3.2 近 5 年各领域 OpenRank 演变图(折线图)@birdflyi 3.3 编程语言排名和演变 @birdflyi

4、企业洞察 负责人@zhicheng-ning,@TieWay59

4.1 近 10 年全球企业 OpenRank 演变图 @TieWay59 4.2 近 10 年中国企业 OpenRank 演变图 @TieWay59 4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比 @zhicheng-ning

5、基金会洞察 负责人@xiaoya-yaya,@longyanz

七个国内外基金会,具体为:Apache Foundation、CNCF Foundation、OpenJS Foundation、LF AI&Data、Eclipse Foundation、OpenInfra Foundation、OpenAtom Foundation(开放原子基金会)

6、开源项目洞察 负责人@PureNatural,@Zzzzzhuzhiwei

以活跃度排名前 10000 的项目作为分析对象

6.1 不同项目类型数量比例五种类型)@Zzzzzhuzhiwei 6.2 不同项目类型 OpenRank 加总比例 @PureNatural 6.3 数据库领域项目分析(可以参考当时使用dataease制作的大屏) @birdflyi 6.4 AIGC 领域项目分析(Openrank排名前10的项目,前10项目近五年的演变图,各个子领域近五年Openrank演变图) @PureNatural 6.5 项目 Topic 分析 @Zzzzzhuzhiwei

7、开发者洞察 负责人@bifenglin,@lhbvvvvv

7.1 开发者的地区分布 @lhbvvvvv

7.2 开发者类型数据可视化分布 @xgdyp 7.3 开发者工作时间 @xgdyp 7.4 机器人洞察 @bifenglin

7.5 开发者 sponsor 数据分析 @yoyo-wu98

8、案例分析 @frank-zsy 8.1 openEuler 开源社区洞察 8.2 阿里巴巴开源开发者贡献榜 8.3 其他有趣的案例

PureNatural commented 8 months ago

6.4 大模型/AIGC 领域项目分析 在我们的标签下分为了大语言模型和AIGC项目, 大语言模型标签下的项目活跃度和影响力高的项目我之前统计的结果都不超过5个,因为大语言模型当初在打标签的时候限制它必须是自然语言模型。 所以这里我建议标题直接以AIGC领域项目为主,该领域相对还是比较广泛的。同时参考GenOs Index将项目分为了model,infra,application,三个子领域,可以做进一步分析。

will-ww commented 8 months ago

6.4 大模型/AIGC 领域项目分析 在我们的标签下分为了大语言模型和AIGC项目, 大语言模型标签下的项目活跃度和影响力高的项目我之前统计的结果都不超过5个,因为大语言模型当初在打标签的时候限制它必须是自然语言模型。 所以这里我建议标题直接以AIGC领域项目为主,该领域相对还是比较广泛的。同时参考GenOs Index将项目分为了model,infra,application,三个子领域,可以做进一步分析。

updated~

will-ww commented 8 months ago

Gitee 的《2023 中国开源开发者报告》已发布,正好可以启发不少内容:https://talk.gitee.com/report/china-open-source-2023-annual-report.pdf

欢迎大家增加:

又看了下,貌似也没啥能够可参考的~ :-(

对目录随时做更新,也不是上面的内容全部都要分析,根据数据情况和时间来完成,需要大家一起来细化~

时间节点如下:

tyn1998 commented 8 months ago

2、排行榜 负责人@tyn1998

排行版作为 OpenRank 的重要呈现形式,可以考虑放在宏观洞察的后面,展示其重要性。

最近协助 @frank-zsy 学长给开放原子做了一个放在展厅里的大屏,该大屏展示了4个榜单:

image

atomboard-large

王老师给出的7个OpenRank排名,只要 @frank-zsy 学长支持到数据,我可以尽量利用现有设计和代码做7张静态图出来~

TieWay59 commented 8 months ago

4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比

目前 github 上的企业 openrank 数据在 https://open-leaderboard.x-lab.info/ 是已经有的,我想了解下 gitee 上是不是也有对应的? @will-ww

will-ww commented 8 months ago

4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比

目前 github 上的企业 openrank 数据在 https://open-leaderboard.x-lab.info/ 是已经有的,我想了解下 gitee 上是不是也有对应的? @will-ww

是的,Gitee 上的数据目前都集成到 OpenDigger 中了~

TieWay59 commented 8 months ago

4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比

目前 github 上的企业 openrank 数据在 https://open-leaderboard.x-lab.info/ 是已经有的,我想了解下 gitee 上是不是也有对应的? @will-ww

是的,Gitee 上的数据目前都集成到 OpenDigger 中了~

有没有对应的手册呀?我找了一下 open-digger 的仓库没搜到关于 Gitee 比较介绍性的文本,可能得直接看代码。 https://github.com/search?q=repo%3AX-lab2017%2Fopen-digger+gitee&type=code

PureNatural commented 8 months ago

任务细分 3、技术领域洞察 负责人@PureNatural,@birdflyi

六大技术领域:操作系统、数据库、云原生、大数据、人工智能、前端

3.1 各领域总体情况与比较(各领域排名前10的OpenRank项目)@PureNatural 3.2 近 5 年各领域 OpenRank 演变图(折线图)@birdflyi 3.3 编程语言排名和演变 @birdflyi

6、开源项目洞察 负责人@PureNatural,@Zzzzzhuzhiwei

以活跃度排名前 10000 的项目作为分析对象

6.1 不同项目类型数量比例(五种类型)@Zzzzzhuzhiwei 6.2 不同项目类型 OpenRank 加总比例 @PureNatural 6.3 数据库领域项目分析(可以参考当时使用dataease制作的大屏) @birdflyi 6.4 AIGC 领域项目分析(Openrank排名前10的项目,前10项目近五年的演变图,各个子领域近五年Openrank演变图) @PureNatural 6.5 项目 Topic 分析 @Zzzzzhuzhiwei

TieWay59 commented 8 months ago

4.1 近 10 年全球企业 OpenRank 演变图 4.2 近 10 年中国企业 OpenRank 演变图

王老师 @will-ww 我的一个主要目标是产出两个图片。我还不太明确演变图是否可以用 Bumps chart 来表示 (我是参考这些图片: https://duckduckgo.com/?q=bump+chart+wiki&atb=v351-4__&iax=images&ia=images

我的示例 notebook 代码:

https://github.com/TieWay59/eoss_observe/blob/master/eoss_observe/main.ipynb

目前先做了一个最初版的草图。如果合适的话我可以再在这个基础上优化。有不对的地方欢迎老师同学们提出意见 review 我代码。先做到这里,等待后续进一步反馈。

我的示例如下:

UPD:@will-ww 细化了最后一年 15 个企业的排名。

zhicheng-ning commented 8 months ago

4、企业洞察 负责人@zhicheng-ning,@TieWay59

4.1 近 10 年全球企业 OpenRank 演变图 4.2 近 10 年中国企业 OpenRank 演变图 4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比

任务细分:

wj23027 commented 8 months ago

任务细分:

1、宏观洞察 负责人@wj23027,@andyhuang18

1.1 总体活跃度与影响力(展示 Activity 和 OpenRank 全域变化情况,以及 Github/Gitee 细分情况)@wj23027 1.2 仓库数量、活跃用户数量、日志事件数量的趋势图@wj23027 1.3 地域相关的趋势分析@wj23027 1.4 平台相关的趋势分析(例如 Gitee 平台整体 OpenRank 值的全球占比)@andyhuang18 1.5 供应链趋势(待定)@andyhuang18 1.6 开源许可证方面的统计与分析@andyhuang18

will-ww commented 8 months ago

4.1 近 10 年全球企业 OpenRank 演变图 4.2 近 10 年中国企业 OpenRank 演变图

王老师 @will-ww 我的一个主要目标是产出两个图片。我还不太明确演变图是否可以用 Bumps chart 来表示

形式应该可以,具体应该是在 ipynb 文件中进行协作,可以参见去年的年报

bifenglin commented 8 months ago

7、开发者洞察 负责人@bifenglin,@lhbvvvvv 7.1 开发者的地区分布 7.2 开发者的类型比例(核心、外围、访客等)@xgdyp 7.3 开发者工作时间分布 7.4 机器人洞察 7.5 开发者 sponsor 数据分析 @yoyo-wu98

7.1 开发者的地区分布 @lhbvvvvv

7.2 开发者类型数据可视化分布 @xgdyp

7.3 开发者工作时间 @xgdyp

7.4 机器人洞察 @bifenglin

7.5 开发者 sponsor 数据分析 @yoyo-wu98

xiaoya-yaya commented 8 months ago

5、基金会洞察 负责人@xiaoya-yaya,@longyanz

5.1 近 5 年各基金会 OpenRank 演变图 5.2 各基金会中国项目的 OpenRank 演变图 5.3 开放原子开源基金会详解(待定)

1. 分析对象

7个国内外基金会,具体为:

2.工作拆解

a. 将这7个基金会旗下在 GitHub 和 Gitee 平台上的项目补充到 OpenDigger 标签体系中 @longyanz b. 对基金会下涉及到的中国项目进行标注,补充到 OpenDigger 标签体系中 @longyanz c. 开放原子基金会详解:近五年基金会项目OpenRank排名、项目OpenRank变化趋势 @xiaoya-yaya d. 近五年各基金会 OpenRank 演变数据,各基金会中国项目 OpenRank 演变数据,开放原子项目 OpenRank 数据 @frank-zsy

frank-zsy commented 8 months ago

8 案例分析

另外 PolarDB 和 NPM 生态不是很好分析,我想可以引入一下洞察案例,具体思路是:

birdflyi commented 8 months ago

任务细分 3、技术领域洞察 负责人@PureNatural,@birdflyi

六大技术领域:操作系统、数据库、云原生、大数据、人工智能、前端

3.1 各领域总体情况与比较(各领域排名前10的OpenRank项目)@PureNatural 3.2 近 5 年各领域 OpenRank 演变图(折线图)@birdflyi 3.3 编程语言排名和演变 @birdflyi

6、开源项目洞察 负责人@PureNatural,@Zzzzzhuzhiwei

以活跃度排名前 10000 的项目作为分析对象

6.1 不同项目类型数量比例(五种类型)@Zzzzzhuzhiwei 6.2 不同项目类型 OpenRank 加总比例 @PureNatural 6.3 数据库领域项目分析(可以参考当时使用dataease制作的大屏) @birdflyi 6.4 AIGC 领域项目分析(Openrank排名前10的项目,前10项目近五年的演变图,各个子领域近五年Openrank演变图) @PureNatural 6.5 项目 Topic 分析 @Zzzzzhuzhiwei

根据3.2, 3.3, 6.3, 任务细分self-assign:

参考材料:

拟完成图表:

frank-zsy commented 8 months ago

openEuler 社区案例分析

在 2023 年,Gitee 数据首次融入 OpenDigger 社区,使得 Gitee 上的项目也参与到了 OpenRank 的计算中。在这一年,openEuler 社区以 16728 的 OpenRank 值超越 PaddlePaddle,成为仅次于 openHarmony 的中国第二大开源社区。

在 2023 年,openEuler 社区吸引了 3941 名开发者参与 Issue 或 PR 的协作讨论,其中有 1934 名贡献者成功为 openEuler 社区的仓库贡献并合入了至少一个 PR。尤其值得一提的是,openEuler 社区在 2023 年初发起了文档捉虫活动,并在社区文档官网中嵌入了与 Gitee 打通的交互式页面贡献机制。这一机制使得开发者在阅读文档时发现错误时,能够在官网上直接修改并一键发起 Gitee 轻量级 PR,无需跳转到 Gitee 平台或进行 Git 操作。这一创新的机制带来的数据变化令人瞩目,openeuler/docs 仓库在 2023 年合入了 7764 个 PR,其中 74% 的 PR 是通过官网页面直接提交的。这一机制的上线也显著提升了每月平均活跃贡献者数量(从 30 人提升到 80 人)和每月平均合入 PR 数量(从 116 个提升到 722 个)。

另一个值得关注的项目是 openeuler/mugen,作为 openEuler 社区的测试框架项目,该项目活跃度极高。在2023 年,有 138 位开发者参与到项目讨论和贡献中,其中 95 位开发者成功合入了PR。该项目在整个 openEuler 社区中的 OpenRank 排名第三,仅次于 openeuler/docs 文档仓库和 openeuler/kernel 内核仓库。优秀的测试框架为开发者提供了快速编写和运行测试用例的便利,可以帮助他们验证贡献代码的正确性和有效性,极大降低了后续贡献的流程成本。

综上所述,openEuler 社区之所以取得较高的 OpenRank 值,并非偶然。他们不仅为高频低门槛的文档贡献设计了几乎零流程成本的交互式贡献机制,还提供了优秀的测试框架,助力贡献者在贡献代码的同时快速验证其正确性。这些优秀的开发者体验优化是各个开源社区值得学习和推广的范例。

PureNatural commented 8 months ago

AI/技术领域年度报告初稿,后续补充文字 https://github.com/PureNatural/open-digger/blob/2023_technical_report/notebook/China_open_source_techinical_report_2023.ipynb

bifenglin commented 8 months ago

机器人账号数据分析

本报告旨在分析和解读GitHub平台上机器人账号与仓库事件的数据。数据集涵盖了活跃的1229个机器人账号和机器人账号所在的7698411个仓库,记录了从2015年到2023年的事件数量变化。其中2023年机器人账号事件总数是7,698,411,所在仓库事件总数是598,532,723。2015年-2023年的事件总数对比如图1,机器人账号的事件数占总事件数很大的比例,侧面说明了机器人账号的行为在仓库的协作方面起到了重要作用。从2015年的4,217,635个事件增长至2023年的304,257,084个事件,显示了显著的增长趋势如图2。特别是从2019年开始,机器人事件数量急剧上升。机器人账号在GitHub上的活动量呈现出爆炸式的增长,特别是在2019年至2021年间,增长率极为显著。这可能与GitHub自动化、持续集成/持续部署(CI/CD)工具的普及和完善有关。尽管机器人账号数量不多,但多数机器人账号服务于多个仓库,展现了极高的效率和广泛的影响力。

will-ww commented 8 months ago

机器人账号数据分析

本报告旨在分析和解读GitHub平台上机器人账号与仓库事件的数据。数据集涵盖了活跃的1229个机器人账号和机器人账号所在的7698411个仓库,记录了从2015年到2023年的事件数量变化。其中2023年机器人账号事件总数是7,698,411,所在仓库事件总数是598,532,723。2015年-2023年的事件总数对比如图1,机器人账号的事件数占总事件数很大的比例,侧面说明了机器人账号的行为在仓库的协作方面起到了重要作用。从2015年的4,217,635个事件增长至2023年的304,257,084个事件,显示了显著的增长趋势如图2。特别是从2019年开始,机器人事件数量急剧上升。机器人账号在GitHub上的活动量呈现出爆炸式的增长,特别是在2019年至2021年间,增长率极为显著。这可能与GitHub自动化、持续集成/持续部署(CI/CD)工具的普及和完善有关。尽管机器人账号数量不多,但多数机器人账号服务于多个仓库,展现了极高的效率和广泛的影响力。

2023 年 Bot Events 下降了,有什么说法不?

will-ww commented 8 months ago

4.1 近 10 年全球企业 OpenRank 演变图 4.2 近 10 年中国企业 OpenRank 演变图

UPD:@will-ww 细化了最后一年 15 个企业的排名。

类似这样的图就非常好了,能够很好表现华为在过去几年的突飞猛进,话题性强,需要改进的就是,最右边的 symbol,要按照最终的排序进行排序,否则不容易找到每条线对应的企业是哪个~ @TieWay59

bifenglin commented 8 months ago

本报告旨在分析和解读GitHub平台上机器人账号与仓库事件的数据。数据集涵盖了1229个机器人账号和机器人账号所在的7698411个仓库,记录了从2015年到2023年的事件数量变化。其中2023年机器人账号事件总数是7,698,411,所在仓库事件总数是598,532,723。2015年-2023年的事件对比如图1。从2015年的4,217,635个事件增长至2023年的304,257,084个事件,显示了显著的增长趋势如图2。特别是从2019年开始,机器人事件数量急剧上升。机器人账号在GitHub上的活动量呈现出爆炸式的增长,特别是在2019年至2021年间,增长率极为显著。这可能与GitHub自动化、持续集成/持续部署(CI/CD)工具的普及和完善有关。尽管机器人账号数量不多,但每个机器人服务于多个仓库,展现了极高的效率和广泛的影响力。在2023年的机器人事件数量有所下降。为此我们进一步进行分析。 图3展示了2015年至2023年间GitHub上多种事件类型的数量变化。特别是,PushEvent(代码推送)事件,作为开发者提交代码的直接体现,其数量的显著增长暗示着绝大多数开发者越来越倾向于使用机器人账号提交代码。2023年相比2022年,这一增长达到了约40.5%,凸显出代码推送活动的显著增长。同时,ReleaseEvent(发布事件)的增长则表明自动化发布工具的使用频率在不断上升。这一趋势可能反映了开发活动的全面加强、项目规模的扩大以及自动化流程的广泛采用。 IssueCommentEvent(问题评论)事件2023年相比2022年减少了约27.1%,显示了问题讨论活动的减少,可能表明机器人在处理和响应问题方面变得更加高效,或者是对机器人自动化回复策略的调整。PullRequestEvent(拉取请求)事件2023年相比2022年减少了约52.6%,这可能表明了合作模式的变化,或者是对代码合并策略的调整。原因可能是服务的个人开发者项目增加或者在内部协作平台沟通的数量增加。CreateEvent(创建事件)事件2023年相比2022年减少了约44.5%,显示了新项目或分支的创建量减少。项目或分支的创建量减少可能反映了自动化流程的集中化和标准化,或者是在现有项目上进行更深入的开发而非频繁创建新项目。这些事件类型下,机器人账号的事件与所有账号的事件趋势大致相同,整体趋势如图4。 另外,ForkEvent(复制项目)、GollumEvent(Wiki页面事件)、MemberEvent(团队成员添加事件)、PublicEvent(私有仓库公开事件)和WatchEvent(关注/星标事件)数量非常低可能有以下几个原因:机器人账号通常用于自动化任务,如CI/CD流程,而不太涉及复制项目。Fork操作通常需要特定的开发背景和目的,这超出了大多数机器人账号的常规使用范围。Wiki的编辑和管理通常需要人工参与,以确保内容的质量和准确性。机器人账号更多用于代码相关的自动化任务,而非文档或Wiki页面的维护。团队成员的添加和管理往往涉及人力资源决策,这通常是由真人进行操作。机器人账号在这方面的用途相对较少,因为涉及到团队管理和权限控制等敏感操作。将私有仓库转为公开通常是一个重大决策,涉及到项目的可见性和安全性。这类操作不太可能交由机器人账号执行,因为它们可能缺乏进行这种重要决策的上下文信息和判断能力。关注或星标一个项目通常是基于用户的兴趣或对项目的支持,这是一种个人偏好的表现,而非自动化流程的一部分。因此,机器人账号不太可能参与此类活动。 image

image

image

image

后续再增加机器人账号的7X24的时间打孔图。来看一下机器人账号的工作时间规律。

zhicheng-ning commented 8 months ago

[ ] 4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比 @zhicheng-ning

相关的 PR:https://github.com/TieWay59/eoss_observe/pull/1 ,@TieWay59 有空可以 review 下 ~

image

will-ww commented 8 months ago

[ ] 4.3 中国企业在 GitHub/Gitee 平台上的 OpenRank 占比 @zhicheng-ning

相关的 PR:TieWay59/eoss_observe#1 ,@TieWay59 有空可以 review 下 ~

你这个全球企业的界定是啥?OpenDigger里面全球企业的标注数据是有的,对吧?正好是不是把美国企业也拉出来看看。按照开放原子的大屏,中国企业影响力排第二,对吧?@zhicheng-ning

Zzzzzhuzhiwei commented 8 months ago

6.1 不同项目类型数量比例

Application Software 2434 Libraries and Frameworks 3136 Non Software 2317 Software Tools 1888 System Software 225

image

  1. Libraries and Frameworks占比较高: 这一类项目占比约31.36%。这可能意味着在开源社区中,对于构建和提供工具、框架以及库的需求非常高。这些项目对于其他开发者来说是重要的基础资源。
  2. Application Software也有相当份额: 这类项目占比约24.34%。这显示了开发者们不仅对于工具和基础设施感兴趣,也有很多人专注于构建实际的应用程序和软件产品。
  3. Non Software类占比较大: 这类项目占比约23.17%。这表明GitHub社区中还存在着大量非软件类项目,可能涉及文档、教育、艺术、硬件或其他非编程相关领域的创作和贡献。
  4. Software Tools和System Software占比较少: 这两类项目占比合计约21.13%。可能因为这些项目相对特定或者是较为专业化的工具和系统软件,因此数量较少。
TieWay59 commented 8 months ago

类似这样的图就非常好了,能够很好表现华为在过去几年的突飞猛进,话题性强,需要改进的就是,最右边的 symbol,要按照最终的排序进行排序,否则不容易找到每条线对应的企业是哪个~

好的 @will-ww ,已调整:

UPD 追加 23 年 12 月数据:

image

UPD2 补充全球的结果 @will-ww :

image

Zzzzzhuzhiwei commented 8 months ago

出现次数前十的topic image

出现次数前十的topic下仓库的OpenRank变化(2019-2023) image

出现次数前十的topic下仓库的2023年OpenRank image

Hacktoberfest是一个每年十月举办的活动,旨在促进开源社区的发展。它由DigitalOcean与GitHub合作发起,其目标是鼓励更多人参与开源项目,为开源社区做出贡献。它的OpenRank高反映了人们对于开源项目、社区参与和贡献的热情。开发者们积极参与这个活动,通过向开源项目提交Pull Request的方式贡献,从而帮助提升了这个仓库的声誉和影响力。

zhicheng-ning commented 8 months ago

你这个全球企业的界定是啥?

数据来自于 OpenLeaderBoard 全球企业榜单

image

看了下 OpenDigger 是有美国企业的数据:https://github.com/X-lab2017/open-digger/blob/master/labeled_data/regions/US.yml

所以是再加上美国企业的占比数据是吗?

--- 更新 ---

l1tok commented 8 months ago

7.1 开发者的地区分布 开发者经纬度分布 image 地区数量分布 2023世界活跃开发者分布 2023中国活跃开发者分布

xiaoya-yaya commented 8 months ago

5、基金会洞察

5.1 全球基金会 OpenRank 趋势分析

image

5.2 全球基金会项目 OpenRank 趋势分析

image

5.3 基金会旗下中国项目 OpenRank 趋势分析

image

5.4 开放原子基金会旗下项目 OpenRank 趋势分析

image

感谢韩博 @PureNatural 鼎力相助!

frank-zsy commented 8 months ago

阿里巴巴开源开发者贡献榜

2023 年初,阿里巴巴在其开源官网上推出了阿里巴巴开源开发者贡献榜。这一榜单的引入标志着对开源社区贡献的全新认可方式,借助 X-lab 实验室提出的 OpenRank 算法,对开发者的贡献进行统计核算,并以排行榜的形式进行公示。

这一榜单的创新之处在于其采用的 OpenRank 算法,该算法深度借鉴了 Apache Way 的理念,并不简单关注开发者贡献量的统计指标,而是将开发者和他们的贡献构建成协作网络并协同评价。这种创新的评价机制使得开发者更能理解到开源社区是一个共同体而不仅仅是技术项目,有助于激励开发者长期深度参与到开源社区的贡献之中。

为了深入理解这一算法和榜单机制对开源社区产生的影响,X-lab 实验室的两位博士生,赵生宇和夏小雅加入阿里巴巴开源办公室并展开了详尽的研究工作。他们不仅从数据统计的角度出发,分析了榜单上线前后社区项目统计指标上的变化情况,还进行了一系列深度访谈,听取了开发者们的真实声音。这一研究的成果不仅为开源社区的发展提供了宝贵的经验和启示,还被收录在软件工程领域的国际顶级学术会议 ICSE 2024 中,引起了学术界的高度关注。

总体而言,阿里巴巴开源贡献者排行榜的推出标志着开源社区评价机制的创新,为广大开发者提供了更方便、全面的贡献认可途径。这一举措不仅激发了开发者的积极性,也推动了开源社区的繁荣发展,为社区注入了新的活力,更是阿里巴巴集团鼓励创新包容创新的重要体现。


不过这个似乎数据部分的内容不多,是否可以考虑放入大事记?

will-ww commented 8 months ago

5、基金会洞察

5.1 全球基金会 OpenRank 趋势分析

5.1 中的一个问题是,Linux Foundation 旗下有很多子基金会,例如 CNCF、OpenJS、LF Networking&Edge 等,这个图里面 LF 和 CNCF 作为并列关系,细分我觉得也没有问题(这样可以看到更多的东西),但这个 LF 项目的统计计算应该不全吧,印像中 LF 应该是能够排在第一的~

另外,关于基金会(组织),下面这个资料可以参考下:https://en.wikipedia.org/wiki/List_of_free_and_open-source_software_organizations

以及,对基金会进行研究的话,这个网站貌似很全面,是一个研究型工作,论文文章、网站什么都有,值得看看。然而,当你进一步去挖掘这个作者网页的时候,会发现很多有趣的开源工作,甚至和我们很相关的一个工作 Hugging Face 的数据工具(SANER 2023)~

will-ww commented 8 months ago

5.4 开放原子基金会旗下项目 OpenRank 趋势分析

另外一个问题就是,确实需要把仓库合并成项目(例如归并 openharmony),这样的比较才更明确、有意义,否则前面的都是 openharmony 的仓库,其他的项目显露不出来;可能带来的问题就是 openharmony 的 OpenRank 值过高,可视化效果不好,可以改良的地方包括:归并 openharmony 仓库后,再给一张 openharmony 项目旗下仓库的 OpenRank 排名图(进一步下钻)~

birdflyi commented 8 months ago

3.2, 3.3, 6.3 任务: 数据库-技术领域 年度报告,代码: China_open_source_techinical_report_2023.ipynb

bifenglin commented 8 months ago

第七章开发者洞察报告已经整理一版,看看还有什么问题

内容在语雀文档里: https://xlab2017.yuque.com/me1x4f/opensource/boe8a1mrvfro9nbn

xiaoya-yaya commented 8 months ago
  1. 经和 @frank-zsy 学长讨论,Linux Foundation 已经扩张成了一个超级基金会,旗下的子基金会作为独立一级标签和其他基金会做对比分析更有意义。因此将 LF 下的诸多子基金会标签数据完善补充到了 OpenDigger 中(相关PR:https://github.com/X-lab2017/open-digger/pull/1489) ,在做对比分析时, linux_foundation 不再作为标签使用,排名时候也不计算进来。基于更新后的标签数据,排行榜中的基金会排名需要做相应的更新 #343
  2. 对于开放原子基金会旗下项目分析已以修改为 project 级别分析。

5、基金会洞察

5.1 全球基金会 OpenRank 趋势分析

相关结果已在该 comment 中更新:https://github.com/X-lab2017/open-wonderland/issues/341#issuecomment-1880614275

xgdyp commented 8 months ago

第七章开发者洞察报告已经整理一版,看看还有什么问题

内容在语雀文档里: https://xlab2017.yuque.com/me1x4f/opensource/boe8a1mrvfro9nbn

新的时区分布也更新好了

wj23027 commented 8 months ago

年报后续时间节点:

此次年报采用 hackmd 协作,麻烦大家完成相应章节的的报告(markdowm 格式)后,将 hackmd 链接更新至 2023 中国开源年度报告的数据篇中~

will-ww commented 7 months ago

2023 中国开源年度报告》的已正式发布~🎉