X-lab2017 / open-digger

Open source analysis tools
https://open-digger.cn
Apache License 2.0
281 stars 79 forks source link

【讨论】非代码类仓库是否应该纳入统计? #1590

Closed maninhill closed 2 weeks ago

maninhill commented 3 weeks ago

Description

image

现在前两名都是非代码类仓库,如果规则不做改变,我预计后续前十名都会被非代码类仓库所占据,比如各种面试类、学习资料类及榜单类的仓库。

注:2024 年 6 月份的活跃度前 100 名中有 7 个是文档类的项目。

frank-zsy commented 2 weeks ago

从全榜的角度来说,文档型项目肯定是更容易参与和协同的,于是统计上肯定有较大的优势,但从历史趋势来看,并非文档型项目会逐渐占据榜单,依然是有来有往的,很多项目在活跃期后也会逐渐掉出。

从全榜来讲,我并不建议单独去除文档型项目,因为本就是仓库级别的统计。但可以考虑用几种方式来使得榜单更有意义:

1、对技术领域进行分榜排行,例如 CNCF 有自己的 landscape,分为多个领域,DBEngine 也有数据库相关的分类方法,于是可以在不同维度上对技术领域进行分类排行,从而可以通过领域榜单来发现优秀项目和走势。

2、添加项目级别的标签,例如 OpenHarmony 可以将自己所有仓库统计到自己的项目标签下,而不是每个仓库单独计算,这样的话活跃的项目不会占据过多的位置,也不会导致文档仓库过多。

3、相较于基于统计的活跃度指标,OpenRank 还是可以更好地体现协作网络和历史数据上的一致性。

4、其实像 DCloud 的 Docker 镜像项目突然火爆与当月的制度和大环境的变化有关,这种都是爆发性的短期的增长,并不会长期在榜单中。事实上这种个别项目还是挺有趣的,可以反映一些技术以外的事情。

maninhill commented 2 weeks ago

有道理,感谢解答。