Open tyn1998 opened 8 months ago
摘要:开源软件已广泛应用于多个行业,成为数字社会的基石。开源基金会、参与开源的企业和大型开源社区等组织是推动软件发展和技术创新的重要力量,这些组织在 GitHub 等大规模开源协作平台上形成了集合众多仓库和开发者的复杂协作网络。由于项目或职责的划分,同组织下的不同仓库之间、不同开发者之间的联系紧 密程度并不相同,了解和分析这些组织内部的协作模式对促进开源生态的健康发 展具有重要意义。网络可视化是获取高维信息的重要手段,考虑到人类对图形的 感知能力,一种直观而高效的开源协作网络可视化方法对于揭示网络结构、发掘 协作模式及识别关键的参与者显得尤为重要。然而,当前对于开源协作网络的可 视化研究仍处于起步阶段,几乎没有专门针对开源协作领域的可视化工具或方法。 大多数现有的图可视化方法,如力导向布局或圆形布局等,主要聚焦于通用的图结构展示,而并未将开源协作领域的特有知识融入到布局算法之中,这导致它们在呈现开源协作网络中的复杂关系和协作模式上常常力不从心,难以满足深度分析的需求。
针对上述可视化开源协作网络时面临的问题,本文重点研究基于 Infomap 聚 类算法和力导向模型的开源协作网络可视化方法,以及基于 WebGL 技术的 3D 开 源协作网络可视化应用。围绕这些研究内容,本文的主要贡献有如下三点:
(1) 提出了面向组织的开源协作数据集与网络构建方法: 本文提出了一个 GitHub 协作数据集构建方法,该方法获取并存储 GitHub 事件流数据,按指定条件筛 选后导出为 CSV 格式的协作数据集。基于 GitHub 协作数据集,本文提出了一 个 GitHub 协作网络构建方法,该方法对协作数据集进行解析后,根据定义分 别构建了三类协作网络,并以 GML 格式导出网络。此外,本文还提出了一种融 合 OpenDigger 标签数据的组织识别方法,并利用该方法对 Apache、Kubernetes 和 Microsoft 这三个组织构建了开源协作数据集和开源协作网络。
(2) 提出了基于 Infomap 和力导向模型的多级网络布局算法 InfomapML: 本文提 出了基于 Infomap 和力导向模型的多级网络布局算法 InfomapML,并对比了 InfomapML 算法与其他几种经典力导向布局算法 (FMMM、FR、SM) 在特定 组织的开源协作网络上的表现。实验结果表明,InfomapML 的综合美学评价 指标得分表现良好,以 89% 的优胜率脱颖而出。
(3) 实现了基于WebGL的开源协作网络可视化应用OpenGalaxy和AtomGalaxy: 本文基于 WebGL 技术,实现了两个可交互的 3D 应用。其中,OpenGalaxy 将 InfomapML 算法扩展到三维空间,实现了组织开源协作网络三维布局的可视 化,并强化了键盘与鼠标交互,使用户能够从宏观和微观两个视角自由探索开 源协作网络。AtomGalaxy 创新性地将 Infomap 算法的多层聚类结果对应的多 层社区结构可视化为一个嵌套的多级天体系统,支持用户通过多级下钻和回 退操作查看各级社区。此外,基于 Infomap 网络节点流量的差异性,该应用设 计了不同的轨道层次来反映节点对应社区的重要性。OpenGalaxy 已经被包括 阿里和蚂蚁在内的企业用于开源品牌宣传上,例如在 2023 年的蚂蚁外滩大会 上与 OSGraph 项目进行了结合展示,在上万规模的开发者群体面前进行曝光。 AtomGalaxy 已被开放原子开源基金会采纳,并被部署到其北京总部的展示大 厅,每年开发者曝光量在 10 万左右。
综上所述,本文基于 GitHub 事件流数据依次构建了面向特定组织的开源协作 数据集和开源协作网络,之后利用本文提出的基于 Infomap 和力导向模型的多级 网络布局算法 InfomapML 对得到的组织开源协作网络进行可视化,并通过对比实 验验证了 InfomapML 算法的有效性,最后实现了两个基于 WebGL 的交互式开源 协作网络可视化应用 OpenGalaxy 和 AtomGalaxy。
关键词: 开源协作,信息网络,网络可视化,Web3D 应用
报告PPT:毕业论文答辩_唐烨男_基于Infomap和WebGL的开源协作网络可视化研究.pptx
Description
摘要:开源软件已广泛应用于多个行业,成为数字社会的基石。开源基金会、参与开源的企业和大型开源社区等组织是推动软件发展和技术创新的重要力量,这些组织在 GitHub 等大规模开源协作平台上形成了集合众多仓库和开发者的复杂协作网络。由于项目或职责的划分,同组织下的不同仓库之间、不同开发者之间的联系紧 密程度并不相同,了解和分析这些组织内部的协作模式对促进开源生态的健康发 展具有重要意义。网络可视化是获取高维信息的重要手段,考虑到人类对图形的 感知能力,一种直观而高效的开源协作网络可视化方法对于揭示网络结构、发掘 协作模式及识别关键的参与者显得尤为重要。然而,当前对于开源协作网络的可 视化研究仍处于起步阶段,几乎没有专门针对开源协作领域的可视化工具或方法。 大多数现有的图可视化方法,如力导向布局或圆形布局等,主要聚焦于通用的图结构展示,而并未将开源协作领域的特有知识融入到布局算法之中,这导致它们在呈现开源协作网络中的复杂关系和协作模式上常常力不从心,难以满足深度分析的需求。
针对上述可视化开源协作网络时面临的问题,本文重点研究基于 Infomap 聚 类算法和力导向模型的开源协作网络可视化方法,以及基于 WebGL 技术的 3D 开 源协作网络可视化应用。围绕这些研究内容,本文的主要贡献有如下三点:
(1) 提出了面向组织的开源协作数据集与网络构建方法: 本文提出了一个 GitHub 协作数据集构建方法,该方法获取并存储 GitHub 事件流数据,按指定条件筛 选后导出为 CSV 格式的协作数据集。基于 GitHub 协作数据集,本文提出了一 个 GitHub 协作网络构建方法,该方法对协作数据集进行解析后,根据定义分 别构建了三类协作网络,并以 GML 格式导出网络。此外,本文还提出了一种融 合 OpenDigger 标签数据的组织识别方法,并利用该方法对 Apache、Kubernetes 和 Microsoft 这三个组织构建了开源协作数据集和开源协作网络。
(2) 提出了基于 Infomap 和力导向模型的多级网络布局算法 InfomapML: 本文提 出了基于 Infomap 和力导向模型的多级网络布局算法 InfomapML,并对比了 InfomapML 算法与其他几种经典力导向布局算法 (FMMM、FR、SM) 在特定 组织的开源协作网络上的表现。实验结果表明,InfomapML 的综合美学评价 指标得分表现良好,以 89% 的优胜率脱颖而出。
(3) 实现了基于WebGL的开源协作网络可视化应用OpenGalaxy和AtomGalaxy: 本文基于 WebGL 技术,实现了两个可交互的 3D 应用。其中,OpenGalaxy 将 InfomapML 算法扩展到三维空间,实现了组织开源协作网络三维布局的可视 化,并强化了键盘与鼠标交互,使用户能够从宏观和微观两个视角自由探索开 源协作网络。AtomGalaxy 创新性地将 Infomap 算法的多层聚类结果对应的多 层社区结构可视化为一个嵌套的多级天体系统,支持用户通过多级下钻和回 退操作查看各级社区。此外,基于 Infomap 网络节点流量的差异性,该应用设 计了不同的轨道层次来反映节点对应社区的重要性。OpenGalaxy 已经被包括 阿里和蚂蚁在内的企业用于开源品牌宣传上,例如在 2023 年的蚂蚁外滩大会 上与 OSGraph 项目进行了结合展示,在上万规模的开发者群体面前进行曝光。 AtomGalaxy 已被开放原子开源基金会采纳,并被部署到其北京总部的展示大 厅,每年开发者曝光量在 10 万左右。
综上所述,本文基于 GitHub 事件流数据依次构建了面向特定组织的开源协作 数据集和开源协作网络,之后利用本文提出的基于 Infomap 和力导向模型的多级 网络布局算法 InfomapML 对得到的组织开源协作网络进行可视化,并通过对比实 验验证了 InfomapML 算法的有效性,最后实现了两个基于 WebGL 的交互式开源 协作网络可视化应用 OpenGalaxy 和 AtomGalaxy。
关键词: 开源协作,信息网络,网络可视化,Web3D 应用
报告PPT:毕业论文答辩_唐烨男_基于Infomap和WebGL的开源协作网络可视化研究.pptx