baidu / bigflow

Baidu Bigflow is an interface that allows for writing distributed computing programs and provides lots of simple, flexible, powerful APIs. Using Bigflow, you can easily handle data of any scale. Bigflow processes 4P+ data inside Baidu and runs about 10k jobs every day.
http://baidu.github.io/bigflow
Apache License 2.0
1.14k stars 160 forks source link

Bigflow

Bigflow 是什么?

Baidu Bigflow (以下简称 Bigflow)是百度的一套计算框架, 它致力于提供一套简单易用的接口来描述用户的计算任务,并使同一套代码可以运行在不同的执行引擎之上。

它的设计中有许多思想借鉴自 Google FlumeJava以及 Google Cloud Dataflow,另有部分接口设计借鉴自 Apache Spark

用户基本可以不去关心 Bigflow 的计算真正运行在哪里,可以像写一个单机的程序一样写出自己的逻辑, Bigflow 会将这些计算分发到相应的执行引擎之上执行。

Bigflow 的目标是: 使分布式程序写起来更简单,测起来更方便,跑起来更高效,维护起来更容易,迁移起来成本更小。

目前 Bigflow 在百度公司内部对接了公司内部的批量计算引擎 DCE(与社区 Tez 比较类似),迭代引擎 Spark,以及公司内部的流式计算引擎 Gemini。

在开源版本中,目前仅开放了Bigflow on Spark。

为什么要使用 Bigflow?

在线试用

在线试用网页(passwd:bigflow) 包含了一些简单的例子介绍Bigflow的概念和API用法,同时也可以在线编写Python代码尝试Bigflow的功能,可智能提示。

注:该页面仅提供试用功能,并没有做安全防护,相关机器每隔一段时间会被清空一次,请不要做代码存储等操作。

Bigflow详细文档

Bigflow 主页

快速入门

编程指南

API 参考

编译构建

如何贡献

设计文档

论文

http://jcst.ict.ac.cn/EN/10.1007/s11390-020-9702-3

联系我们

需要加入Bigflow微信技术讨论群的,请加微信号:iacmol 或 himddheart,然后备注一下:加入Bigflow技术讨论群