[博士论文促进] 开源数据科研平台 OpenDigger 与异质信息网络中心性算法 OpenRank 设计与应用

frank-zsy commented 10 months ago

前期工作

Motivating Open Source Collaborations Through Social Network Evaluation: A Gamification Practice from Alibaba (under review)
OpenDigger：面向开源协作数字生态的数据挖掘与信息服务系统 (under review)

论文框架提纲：

I. 引言 A. 研究背景和动机 B. 目标和意义 C. 文章结构概述

II. OpenDigger —— 开源数据科研平台的设计与开发 A. 开源数据科研平台的需求分析 B. 平台设计与架构

数据采集与存储
数据处理与分析
交互界面与数据分发 C. 平台开发与实现
技术选择与工具
系统组件的实现与集成 D. 平台功能与特点
数据科学工作流支持
开源数据集集成
算法与模型开发
标签系统与标签运算 E. 实验与评估
平台性能与可扩展性评估
使用案例与用户反馈

III. OpenRank —— 面向异质信息网络的中心性评价算法 A. 异质信息网络的特点与挑战 B. 中心性评价算法的相关工作综述 C. OpenRank算法的设计与原理

异质节点特征的建模与表示
中心性度量指标的定义与计算
OpenRank 算法收敛性证明 D. 算法实现与数学性质
实验数据集与评估指标
算法鲁棒性研究

IV. GOR —— 面向开源项目和开发者的协同评价算法 A. 开源项目协同评价的重要性与挑战 B. 相关工作综述 C. GOR算法的设计与原理

开源项目和开发者网络建模与表示
协同评价指标的定义与计算 D. 算法实现与性能分析
实验数据集与评估指标
算法准确性与效率的实验结果分析

V. COR —— 面向开源社区的开发者贡献评价算法 A. 开源社区开发者贡献评价的意义与挑战 B. 相关工作综述 C. COR算法的设计与原理

开发者贡献特征的建模与表示
贡献评价指标的定义与计算
算法的贡献度分析与排名策略 D . 排名算法在业界的落地实践
阿里巴巴开源开发者贡献榜
研究问题与相关结论

VI. 结论与展望 A. 主要研究成果总结 B. 存在的不足与改进方向 C. 未来工作展望

VII. 参考文献

will-ww commented 10 months ago

题目的建议：

开源生态数据平台的关键技术研究与应用

内容结构建议：

围绕开源生态数据平台的构建，梳理四个关键技术
- 持续采集与集成技术
- OpenRank 中心性评价技术
- 面向开源社区的 GOR 协同评价技术
- 面向开发者的 COR 个性化评价技术
业务场景的落地与实效

PureNatural commented 3 months ago

关于OpenDigger英文版论文的修改建议与讨论：

OpenDigger论文在写方面确实是弱了一些，如果能够把好的内容放上去，同时在描述方面尽可能的突出其创新性是可以提高论文的录用率，关于重写Opendigger论文方面我有一些想法，想看看 @will-ww @frank-zsy 有没有什么建议

从审稿人的意见来看，被拒的主要原因在于：

OpenDigger在创新性描述方面较弱，2.实证分析部分薄弱

这个问题在初版论文确实是存在的，OpenDigger之前的创新点和贡献主要有三个

1. The open-source ecosystem data mining and information service system, OpenDigger, has been designed and implemented. It comprises data collection services, metric system, and label data, offering analytical tools and an open interface to provide information services for downstream ecosystems.
2.  Utilizing the data mining capabilities of OpenDigger, we propose and implement an open-source project impact metric based on the dimensionality reduction of heterogeneous information networks. Experimental analysis demonstrates that this metric, compared to traditional statistics-based analysis indicators, is more effective in uncovering the collaborative value of open-source projects.
3. Through practical applications deployed in various business scenarios, such as Ant Financial, Alibaba, and the Mulan Open Source Community, we substantiate the data consumption capabilities of OpenDigger in the operational aspects of the open-source digital ecosystem.

第3点其实问题还好，审稿人也是认可OpenDigger在多个行业中的应用的，但还可以突出一下OpenDigger对开发者，对高校学生的贡献，例如，有多少开发者使用过OpenDigger，使用OpenDigger后得到了哪些帮助，可以参考OpenSoda大赛的一些文案

第2点之前是匆匆忙忙的把影响力指标放了上去，审稿人提出缺少强有力的实证分析证明该指标的合理性，其实这些内容我们都有，我需要整理好之后再写上即可，同时参考夏博的工作，可以将活跃度指标/模型也作为创新点加入，也可以提供实证分析来证明该指标的合理性，这样第2点的创新性就有影响力和活跃度两个指标的提出，要饱满一些。

唯一问题大的就是第1点，现在只是表述了OpenDigger有些啥，做了啥，作为研究性论文的话，没有突出他的特点，创新性来，中文文章虽然录用了，但是也存在这样的问题，“设计并实现了开源生态数据挖掘与信息服务系统OpenDigger。它包括数据采集服务、存储模块、标签数据，并提供分析工具和开放接口为下游生态提供信息服务”

只是这样简单的描述显然从创新性的角度是不足的，我这两天也在思考怎么样表达会更好一些，我现在的想法是突出OpenDigger的采集服务，例如：设计并实现了开源生态指标体系和数据分析工具OpenDigger。该工具可以在数据采集过程进行定制与精细化控制，使应用层可以高效实现针对不同数据源的持续采集服务，并通过定时任务管理器进行调度来保证任务的自动化运行，实现数据的持续采集与存储。这里 @frank-zsy 学长可以把控一下～

核心贡献点理清的话，后面写起来就会顺畅很多了～

X-lab2017 / open-research

[博士论文促进] 开源数据科研平台 OpenDigger 与异质信息网络中心性算法 OpenRank 设计与应用 #227

前期工作

论文框架提纲：