wangzzu / awesome

不积硅步,无以至千里
227 stars 47 forks source link

Paper 阅读记录 #31

Open wangzzu opened 4 years ago

wangzzu commented 4 years ago

以后的 paper 阅读记录都放在这个 issue 下,尽量每篇 paper 都输出一篇笔记或者一段话做总结,优秀、经典的论文要参考这篇文章( 一起读 paper )的方式来阅读。

下面有几个分布式相关的论文列表:

  1. 这有个不错的系列:https://www.cnblogs.com/baiboy/p/100p.html
  2. 知乎上有个不错的系列:https://zhuanlan.zhihu.com/db-readings
  3. 这里还有一个机器学习的经典论文:https://github.com/LuckyZXL2016/Machine-Learning-Papers
  4. 分布式系统相关论文:https://www.cnblogs.com/superf0sh/p/5754283.html
  5. 读完这100篇论文 就能成大数据高手
  6. Readings in Streaming Systems
  7. My Top 10 Deep RL Papers of 2019
  8. 分布式系统领域经典论文翻译集深度探索分布式理论经典论文
  9. 计算机史上最重要的 35 篇论文
  10. A Distributed Systems Reading List

分布式系统的一些课程:

wangzzu commented 4 years ago

2019 paper 阅读记录:

序号 Paper Paper阅读完成时间 输出文章 备注
1 Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources 2019.2
2 Lightweight Asynchronous Snapshots for Distributed Dataflows 2019.10.12 Paper 阅读 Flink Snapshot 算法的文章
3 Real-Time Machine Learning: The Missing Pieces 2019.10.18 Paper 阅读
4 distributed snapshots determining global states of distributed systems 2019.10.30 Paper 阅读 Chandy-Lamport 算法
wangzzu commented 4 years ago

2020 paper 阅读记录:

序号 Paper Paper阅读完成时间 输出文章 备注
1 Maximizing the Output Rate of Multi-Way Join Queries over Streaming Information Sources
2 Ray: A Distributed Framework for Emerging AI Applications 2020-08-24
3 Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores
wangzzu commented 4 years ago

Google 最近 20 年一些论文合集 (来自 duanple)

这些优秀论文通常发表在 OSDI、SOSP、SIGMOD、VLDB、Macro、Eurosys、SIGCOMM、CIDR、SIGARCH、SIGCOMM 等顶级期刊和会议上。

Google 业务的起源相关的论文

基础设施相关的论文

计算分析系统相关的论文

存储 & 数据库

AI

Google 这 20 年的论文,前 10 年主要在解决扩展性的问题,主要是在分布式系统这块;后十年,主要在解决分布式带来的问题,比如易用性的问题,提供更加方便的编程接口和一致性模型,很多借鉴了当前传统数据库领域的一些做法。解决完扩展性和易用性之后,下一个 10 年,我们将一起见证~

lecssmi commented 4 years ago

请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗?

wangzzu commented 4 years ago

请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗?

这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。

lecssmi commented 4 years ago

现在基本上都上云了,整个大数据环境机会是封闭的,对于开发人员来说,感觉还是很不利的。中小型公司都是为业务而生。据我所知,包括阿里,也将大部分的开发人员划归到阿里云,可能楼主也是。而其他的业务线更多是一种用工具,而非造工具的情况。如果哪天离开了这个公司,基本上就没什么王牌了。去年面试了一个人就是这样,MaxCompute用得比较熟练,底层基本上不知道。

Matt Wang notifications@github.com 于2020年6月10日周三 上午10:56写道:

请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗?

这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/wangzzu/awesome/issues/31#issuecomment-641689308, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .

wangzzu commented 4 years ago

现在基本上都上云了,整个大数据环境机会是封闭的,对于开发人员来说,感觉还是很不利的。中小型公司都是为业务而生。据我所知,包括阿里,也将大部分的开发人员划归到阿里云,可能楼主也是。而其他的业务线更多是一种用工具,而非造工具的情况。如果哪天离开了这个公司,基本上就没什么王牌了。去年面试了一个人就是这样,MaxCompute用得比较熟练,底层基本上不知道。 Matt Wang notifications@github.com 于2020年6月10日周三 上午10:56写道: 请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗? 这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#31 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .

我估计你说那个同学是做业务的,不是做底层研发的同学。 关于你说的这个,我是赞同的,未来程序员的门槛肯定会越来越低,当前这些大数据框架的易用性也会越来越强,会让业务的同学更加聚焦于业务逻辑,提高研发效率,这个是趋势,不可阻挡,但带来的另一个结果是,底层系统的门槛会越来越高,现在的一些开源框架动辄都是上百万行的代码,不过底层系统的坑/机会也会越来越少,过去是这样,未来也是这样,只能期待再来一个新的技术,把当前的局面打破,这样新的机会也就来了。

kimmazhenxin commented 3 years ago

现在基本上都上云了,整个大数据环境机会是封闭的,对于开发人员来说,感觉还是很不利的。中小型公司都是为业务而生。据我所知,包括阿里,也将大部分的开发人员划归到阿里云,可能楼主也是。而其他的业务线更多是一种用工具,而非造工具的情况。如果哪天离开了这个公司,基本上就没什么王牌了。去年面试了一个人就是这样,MaxCompute用得比较熟练,底层基本上不知道。 Matt Wang notifications@github.com 于2020年6月10日周三 上午10:56写道: 请问下大神,像这种论文,基本上都是方法论,如果自己涉及不到底层开发而偏向业务开发的话,有什么实践的方式吗? 这个不太好回答,因为我是做分布式相关的,上面列的论文也是分布式相关的,对于我来说,看论文可以提高技术加强理论知识以及提高技术深度和视野,做系统(参与相关开源社区)可以提高实践能力。 做业务的话,我理解可以分两种:一种是算法(算法涉及的工作比较多,不仅仅是算法工程师)及 AI 相关的,这种工作需要与理论联系比较紧密,这种工作看论文对工作提供的帮助非常大,另一种是纯业务开发,我个人觉得对工作帮忙比较大的还是提高对业务和行业的理解,也会有一些相关的论文,不过更应该去关注一些一线大厂(特别硅谷一线大厂)他们关于业务思考的一些文章(如果对论文感兴趣,也可以花时间看看,不过最好关注于自己相关的)。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#31 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AIAEKG5ZPSQREN4MUJUJF5LRV3Y4DANCNFSM4KB57F4A .

很赞同,感觉现在趋势很不利