X-lab2017 / open-wonderland

X-lab 开放实验室的开源奇妙世界
56 stars 11 forks source link

[讨论]Neo4j 服务器开通讨论 #275

Open frank-zsy opened 1 year ago

frank-zsy commented 1 year ago

由于最近与 TuGraph 的合作与测试,已经确认 Neo4j 可以支撑基于复杂网络结构的超大协作网络结构,在导入到 2022 年初时没有出现明显的导入速度降低,总体图规模如图所示,约为 5.3 亿节点,12.5 亿边:

image

故考虑进一步部署一台线上 Neo4j 图数据库服务器,用于实验室的图计算相关科研工作,并且在 GitHub 数据全部导入后开始 Gitee、GitLab、deps.dev 等平台的数据融合工作。

目前需要大家了解的信息如下:

上述操作可能导致的影响:

总结:

不知道大家有没有什么其他的问题和建议?

frank-zsy commented 1 year ago

后续该 Neo4j 实例将统一承担全域 OpenRank 与项目 OpenRank 的线上计算任务,并同时承担后续的各类数据导出任务,如 OpenGalaxy、OpenDigger CodePen Demo 等数据。

will-ww commented 1 year ago

全力支持!个人认为不管后续 TuGraph 的发展情况如何, Neo4j 也还是我们一个非常重要的基础设施,上周和大家聊开题的时候也都说明,是实验室同学参与开源活动数据分析与开发的基本工具和技能。大家看,如果没有问题,请 @zhicheng-ning 来协助 Frank 在阿里云上开通并适当维护,稳定后可以带一年级同学参与起来~

frank-zsy commented 1 year ago

额外信息:

frank-zsy commented 1 year ago

Neo4j 实例已经完全导入,总节点数 7.6 亿,总边数 18.3 亿,几个查询样例:

image image image
frank-zsy commented 1 year ago

下周会重新导入一次 Neo4j 的数据,原因是之前的导入代码是用 TuGraph 的导入程序修改而来的,created_at 字段在 TuGraph 中是 DateTime 类型,但在 Neo4j 中由于是弱 Schema 的形式,所以在没有指定类型的情况下导入的是字符串类型,这样即便在建立索引后也无法很快遍历查询某个月的所有边,所以还需要重新导入并赋值为 DateTime 类型。