X-lab2017 / open-perf

Benchmark suit for large scale socio-technical datasets in open collaboration
MIT License
11 stars 18 forks source link

[idea] Benchmarking dimensions #9

Open will-ww opened 2 years ago

will-ww commented 2 years ago

下面这篇文章从四个维度来分析一个 benchmark,可以参考下:

A Survey of Big Data, High Performance Computing, and Machine Learning Benchmarks.pdf

wengzhenjie commented 2 years ago

这篇论文需要分享吗?感觉还是挺全面的

will-ww commented 2 years ago

这篇论文需要分享吗?感觉还是挺全面的

好呀,安排起来~

will-ww commented 2 years ago

我们把这个工作再消化一下,然后就把我们的框架定下来吧:@bifenglin

bifenglin commented 2 years ago
bifenglin commented 2 years ago

其中,图算法个人认为用点 边 图的问题进行切分可能更好一些。后续我再更新一下。

will-ww commented 2 years ago

其中,图算法个人认为用点 边 图的问题进行切分可能更好一些。后续我再更新一下。

是可以的,一些图数据分析的教材上,也是按这个划分进行叙述~

bifenglin commented 2 years ago

根据最近讨论,现在具体进展如下:

  1. 王老师整理了开源业务中需要解决的一些问题,问题数量很多,有些可使用技术手段解决,一些可能需要使用其他方法,梳理一下能用技术手段解决的一些问题。
  2. 根据OGB论文,定义好数据集维度,然后将开源问题分类整理成点、边、图的问题。
  3. 根据问题框架和大家兴趣,每人划分到相关问题,进行数据收集整理。
  4. 研究OGB,transformers的pipline和代码结构
will-ww commented 2 years ago

我在 wiki 中更新了一版“开源业务场景全景图”,大家可以看看,还需要花些力气来迭代下~

https://github.com/X-lab2017/open-perf/wiki/Opendium

bifenglin commented 2 years ago

根据wiki中的业务场景,发现了一些问题:

  1. 很多业务场景问题具有一定的耦合,可以将几个问题合并,例如(社区角色识别、角色分类、社区角色成分分析、核心开发者识别、等等)可以抽象成人的分类,repo的分类、org的分类。
  2. 因为我知识短板,一些任务没有明确的期望目标,无法将他们抽象成技术领域分类。 所以目前我的想法是先将我能理解的问题进行抽象归类,加上讨论的数据集如何划分形成,先从0到1打个模板出来