X-lab2017 / open-wonderland

X-lab 开放实验室的开源奇妙世界
60 stars 11 forks source link

1、宏观洞察 负责人@wj23027,@andyhuang18 #342

Closed will-ww closed 9 months ago

will-ww commented 10 months ago

第一部分各一个输入,大家可以参考。《2023 中国开源发展蓝皮书》中的部分内容,当时也是 OpenDigger 数据提供的,包括分析的内容与文字部分,可以参考,例如下面三个部分,P58、P68、P168~

image


2023 的开源年报,最大的变化是打通了 GitHub 和 Gitee 的数据,使得我们能够以一个全貌的视角观察开源世界的活动。

1、基础事件

1.1 GitHub 全域事件趋势

可以看出,由于 GitHub 平台活跃事件的庞大,我们接下来的分析工作,建立在每个平台的前 3 万个活跃仓库的基准之上。

1.2 GitHub 和 Gitee 的总事件数趋势比较

单从每个平台前 3 万个活跃仓库的总体事件日志数据上看:

进一步,从细分的基础事件数据分析可以看到:

2、活跃仓库

2.1 GitHub 全域活跃仓库数目趋势

同样,接下来的分析工作,建立在每个平台的前 3 万个活跃仓库的基准之上。

2.2 GitHub 和 Gitee 总体活跃仓库活跃度趋势与对比

从每个平台前 3 万个活跃仓库的活跃度数据来看:

进一步,从细分的活跃度组成分析可以看到:

2.3 GitHub 和 Gitee 总体活跃仓库 OpenRank 趋势与对比

从活跃仓库的总体 OpenRank 趋势分析可以看到:

3、活跃用户

3.1 GitHub 总体活跃用户数量趋势

3.2 活跃用户地理分布与排名(全球、中国)

TODO

4、开源许可证

4.1 许可证种类变化趋势

为啥 2019 年会下降呢?直觉上不是应该不断递增吗?以及,可以列一下排名靠前的许可证协议,以及过去几年的变化趋势

4.2 许可证数量变化趋势

4.2.1 MIT license 数量变化趋势

4.2.2 排名前十的许可证数量变化趋势

从排名前十的许可证数量变化趋势可以看到:

4.3 Mulan许可证变化趋势

这个可以看一个简单的年度增长趋势图即可(只有两年的话,可以按月度)

5、编程语言

GitHub 全域编程语言趋势分析

andyhuang18 commented 10 months ago

更新了我的部分,数据和报告详见:地址

wj23027 commented 10 months ago

1.2 仓库数量、活跃用户数量、日志事件数量的趋势图

image

1.3 地域相关的趋势分析

image

image

will-ww commented 10 months ago

咱们接着 GitHub 和 Gitee 的内容,一起来对齐下:

1、基础事件

2、活跃仓库

3、活跃用户

4、开源许可证

5、编程语言

wj23027 commented 10 months ago

1、基础事件

以下几项分析取前 3 万个活跃仓库作为基准

image

2、活跃仓库

以下几项分析取前 3 万个活跃仓库作为基准

活跃度组成比例 image

3、活跃用户

andyhuang18 commented 10 months ago

4、开源许可证

image image

目前mulan许可证的数据只有2022年2023年的数据,做分析趋势分析的话,数量比较单薄,该如何选择呢?

andyhuang18 commented 10 months ago

上述的绘图数据和代码均来自我的仓库

andyhuang18 commented 10 months ago

更新了mulan许可证仓库的数据,按照月份粒度排序得到的数据,并且根据数据特点画了累加图。

image
andyhuang18 commented 10 months ago

1基础事件

1.1GitHub全域事件趋势

image

通过统计全域GitHub事件⽇志,可以看到近⼏年全球开源的总体活跃情况和活跃仓库数量都在明显上升,显⽰了全球开源发展中的增速。2023年GitHub⽇志数据达到了 14 亿,相⽐2022年增⻓了约 10.32%。 在经过了 2018 ~ 2020 的高增长后,GitHub 平台的年度事件增长数量逐渐下降,2023 年的增长率为 10% 左右。可以看出,由于 GitHub 平台活跃事件的庞大,我们接下来的分析工作,建立在每个平台的前 3 万个活跃仓库的基准之上。

1.2 GitHub 和 Gitee 的总事件数趋势比较

image

对比分析不同平台的前3万个活跃仓库的总体事件日志数据时,我们发现Gitee平台呈现更为显著的增长趋势。甚至在2021年,Gitee平台的总体数量超越了GitHub,凸显了国内活跃开源项目的爆发态势。这反映了国内开发者积极参与和贡献到开源社区的热情,为技术创新和知识共享注入了新的活力。 然而,需要强调的是,单纯依靠前3万个活跃项目的数据无法完全揭示全球GitHub平台的真实情况,因为长尾效应在全球范围内仍然非常明显。这一点将在后续的分析中更为清晰地体现出来,展现出GitHub平台作为全球领先的开源社区的广泛和多样性。在未来,随着技术的不断演进和开源文化的推动,我们可以期待开源社区在全球范围内继续蓬勃发展,为创新和协作搭建更加坚实的基础。

image

进一步,从细分的基础事件数据分析可以看到:

2活跃仓库

2.1 GitHub 全域活跃仓库数目趋势

image

2.2 GitHub 和 Gitee 总体活跃仓库活跃度趋势与对比

image

从每个平台前 3 万个活跃仓库的活跃度数据来看:

image

进一步,从细分的活跃度组成分析可以看到:

2.3 GitHub 和 Gitee 总体活跃仓库 OpenRank 趋势与对比

image

从活跃仓库的总体 OpenRank 趋势分析可以看到:

3活跃用户

3.1 GitHub 总体活跃用户数量趋势

image

3.2 活跃用户地理分布与排名(全球、中国)

image

总体而言,各国的开发者都在不断增加,美国凭借强大的经济实力位居第一。印度和中国以及巴西依靠较大的人口基数和经济的迅速发展分别位居二三四位。值得一提的是,虽然欧洲各国的排名没有那么靠前,但是考虑到人口基数的原因,欧盟的开源开发者也是一股不小的势力。

image

中国的开发者分布主要和经济有关,经济强市北上广深所属的省份北京、上海、广东分别位居一二三位。浙江和江苏凭借着较高的经济水平和良好的区位因素也有较大的占比。

4开源许可证

4.1开源许可证数量

image

我们统计了GitHub和Gitee的开源许可证总体数量,发现目前使用最多的前4个开源许可证分别是MIT License、Apache License 2.0、GNU General Public License v3.0、BSD 3-Clause License。其中MIT License以接近60%的占比夺得头筹。MIT许可证以麻省理工学院(Massachusetts Institute of Technology)为名,最早由该学院使用,因此得名。MIT许可证的简洁和灵活性使其成为许多开发者选择的许可证之一。它提供了最小的法律限制,鼓励开发者自由地使用和传播软件。

4.2许可证种类变化趋势

image

总体来看,许可证的种类是在不断增多的,在2018年达到了一个小波峰,但是在2019年却下降了,原因是部分BSD的许可证在2019年后不再被使用了。目前许可证的种类也持续两年稳定在46个。

4.3 许可证数量变化趋势

4.2.1 MIT license 数量变化趋势

image

由于MIT license 强大的影响力,我们单独将其数据拿出来展示。使用MIT license的仓库情况和总仓库情况类似,都是有较大的增长,但是在2022年和2023年的增长速度有所减缓。

4.2.2 其余排名前十的许可证数量变化趋势

image

总体而言,各类许可证的数量都在增长,但是许可证种类的头牌依旧还是以MIT、Apache、GNU等为主,小众许可证和热门许可证的差异仍然存在。

4.3 Mulan许可证变化趋势

image

木兰系列许可证系列(包含“木兰宽松许可证”和“木兰公共许可证”等),均由北京大学作为牵头单位,依托全国信标委云计算标准工作组和中国开源云联盟,联合开源生态圈产学研优势团队和个体、尤其是开源法务和律师,起草、修订并发布。 其中 Mulan PSL 是国内首个被 OSI 认定的“国产开源软件协议。 我们观测了GitHub中使用木兰许可证的仓库趋势,从2022年9月开始,使用木兰许可证的仓库开始增长。知道2023年12月,已有220个仓库采用木兰许可证。木兰许可证的影响力在逐渐展现,期待它以后的表现。


@wj23027 把【】部分填充上具体数据~(已填充,初稿已经放在了 hackmd 中)然后王老师看一下木兰许可证这块有没有还要说的,可以补充一下。

will-ww commented 9 months ago

2023 中国开源年度报告》的已正式发布~🎉