[参赛项目] filling - 可托拉拽图形化大数据处理工具, 支持流批一体的大数据中台方案

项目简述

Filling, 如其名, 致力于填充你的各种存储, 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于 Apache Flink之上。为什么我们需要 Filling 我们在使用 Flink 时发现了很多不便捷之处，通过我们的努力让Filling的使用更简单，更高效，并将业界和我们使用Flink的优质经验固化到Filling中，明显减少学习成本，加快分布式数据处理能力在生产环境落地。除了大大简化分布式数据处理难度外，Filling尽所能为您解决可能遇到的问题：

数据丢失与重复
任务堆积与延迟
吞吐量低
应用到生产环境周期长
缺少应用运行状态监控
Filling 使用场景
海量数据ETL
海量数据聚合
多源数据处理
Filling 的特性
简单易用，灵活配置，无需开发
实时流式处理
离线多源数据分析
高性能
海量数据处理能力
模块化和插件化，易于扩展
支持利用算子做数据处理和聚合

背景

大数据发展的今天, 随着着Kappa架构越来越热, 早期的sqoop已经满足不了现在的架构, 我们在使用 Flink 时发现了很多不便捷之处，通过我们的努力让Filling的使用更简单，更高效，并将业界和我们使用Flink的优质经验固化到Filling中，明显减少学习成本，加快分布式数据处理能力在生产环境落地。

目标

Filling，即基于Flink的流式数据处理工具，预期将拥有如下特性：

海量数据处理能力
可视化处理过程, 托拉拽方式
模块化和插件化，易于扩展
快速且高效处理流式数据, 离线数据, 简单易用，灵活配置，无需开发
核心模块基于Flink实现，实现精确一次语义，同时提供高性能、断点恢复等支持
核心数据抽象为table，操作过程近似对table进行操作，更加贴近数据摄取和清洗场景的用户使用习惯
实现诸如Kafka、File、JDBC、ES等常见输入输出，支持Add、Drop, Rename, 等常用转换逻辑，还支持flink所有函数, 支持流join和窗口统计，并支持sql等脚本对数据自定义操作
提供对于服务自身和运行流程任务的监控
流式处理任务运行环境支持裸机部署或对接Hadoop平台及其部分商业版本

实施方案

该应用是一个可视化拖拽的在线WEB编排服务，以低代码模式完成数据采集、数据计算、数据处理分析。

应用服务将流式计算中涉及到的几大场景进行综合抽象，完成整体编排流程中的3大类算子，数据源，数据输出、数据处理，通过统一的编排方式来适应于各类数据处理场景；以及未来AI分析。

例如：在数据混合采集场景中，通过Flink数据源算子进行各数据抽取，通过数据处理算子完成各种Join处理，完成采集的跨平台、跨数据源的采集。

长远规划

以流处理作为接入点, 以pravega为中心搭建DataHub, 提供流式数据的发布和订阅的功能，为Kappa和实时场景做基座, 打造流批一体的数据中台

成员介绍

阿里云天池昵称：蒋子函、sailyyang

flink-china / flink-forward-asia-hackathon-2021