Open tx-offerman opened 4 years ago
大菜菜-技术栈是大数据方向,经过一年的准备,秋招陆陆续续拿到了几个offer,现在在IEG供职。 现在分享下自己的准备过程和秋招时的技术能力
基本都是中规中矩的大数据技术,熟悉常用的组件,看过几个核心组件的源码, 有一些java开发的基础,但是对于javaee那些不太熟悉,勉强会用
这些技术栈也预示着,我能找到的工作都是偏大数据平台开发类的工作。
实习经历: 2019.7.2 - 至今 杭州某互联网金融有限公司 大数据开发实习生 在数据应用组实习, 在学长带领下, 负责在公司内部的大数据服务框架 XXXX 和流平台上实现新的功能, 实现数据同步,前端交互优化,完善部分权限管理等功能; 参与探索开发基于 calcite 的 hbase sql 接口支持功能: 参与优化 hbase sql 物理执行计划, 提高 hbase 表扫描的效率, 摸索多 hbase 的表连接 join 方案, 参与实现 hbase sql 的 UDF 功能优化. 参与流平台的改造项目, 更改 flink 任务提交逻辑, 参与流平台监控指标的完善工作.
项目介绍: XXXX-service 是公司内部的数据服务平台,其作为工程平台的统一数据服务,承担着将公司大数据的能力对业务赋能的重要角色,通过整合数仓、平台、算法等资源,将数据能力对反欺诈、APP 端数据、数字化运营等提供输出。 技术要点: 以 SQL 即接口的理念,对应用业务屏蔽具体的数据存储的数据服务框架. 管理以 mysql 和 hbase 为载体的数据仓库产出数据, 同时为 HBASE 表维护虚拟表元数据, 基于虚拟表元数据依赖 Calcite 为 HBase 增加了 SQL能力以及 UDF 拓展, 支持数据的各种转化处理, 在服务平台层面为应用接口提供限流与缓存等功能. 工作内容:
原有流平台是是面向标签开发人员、特征开发人员、BI 等用户的实时数据开发平台,完整覆盖实时数据开发的业务流程。但是流平台自己独用一个界面管理和入口, 现打算将流任务和离线任务的入口统一, 并对原有平台进行改造, 完善平台职责, 优化功能. 工作内容:
系统依赖:spark-2.3.3 , zookeeper-3.4.13, hadoop-2.7.6 项目内容: 在 spark-2.3.3 版本的基础上, 为 spark sql 增加跨 Driver 的磁盘缓存拓展功能. 其目的在于:
剩下的项目就没有太大参考价值了,希望想从事大数据开发,偏平台方向的能够参考
提问举例: 大菜菜群主,我想从事的是数仓相关的?这些技术栈对我适用嘛?
指点举例: 大菜菜同学,你对spark有一些认识,但是对于flink和流计算掌握是否充足? 希望同学能够进一步加强对于flink的掌握, 后续面试,会有很大收益
大菜菜-技术栈是大数据方向,经过一年的准备,秋招陆陆续续拿到了几个offer,现在在IEG供职。 现在分享下自己的准备过程和秋招时的技术能力
技术栈
基本都是中规中矩的大数据技术,熟悉常用的组件,看过几个核心组件的源码, 有一些java开发的基础,但是对于javaee那些不太熟悉,勉强会用
这些技术栈也预示着,我能找到的工作都是偏大数据平台开发类的工作。
实习经历
实习经历: 2019.7.2 - 至今 杭州某互联网金融有限公司 大数据开发实习生 在数据应用组实习, 在学长带领下, 负责在公司内部的大数据服务框架 XXXX 和流平台上实现新的功能, 实现数据同步,前端交互优化,完善部分权限管理等功能; 参与探索开发基于 calcite 的 hbase sql 接口支持功能: 参与优化 hbase sql 物理执行计划, 提高 hbase 表扫描的效率, 摸索多 hbase 的表连接 join 方案, 参与实现 hbase sql 的 UDF 功能优化. 参与流平台的改造项目, 更改 flink 任务提交逻辑, 参与流平台监控指标的完善工作.
项目经历
项目 1: 数据服务平台 XXXX-service
项目介绍: XXXX-service 是公司内部的数据服务平台,其作为工程平台的统一数据服务,承担着将公司大数据的能力对业务赋能的重要角色,通过整合数仓、平台、算法等资源,将数据能力对反欺诈、APP 端数据、数字化运营等提供输出。 技术要点: 以 SQL 即接口的理念,对应用业务屏蔽具体的数据存储的数据服务框架. 管理以 mysql 和 hbase 为载体的数据仓库产出数据, 同时为 HBASE 表维护虚拟表元数据, 基于虚拟表元数据依赖 Calcite 为 HBase 增加了 SQL能力以及 UDF 拓展, 支持数据的各种转化处理, 在服务平台层面为应用接口提供限流与缓存等功能. 工作内容:
项目 2: xxxx流平台改造项目
原有流平台是是面向标签开发人员、特征开发人员、BI 等用户的实时数据开发平台,完整覆盖实时数据开发的业务流程。但是流平台自己独用一个界面管理和入口, 现打算将流任务和离线任务的入口统一, 并对原有平台进行改造, 完善平台职责, 优化功能. 工作内容:
项目 3:基于 spark sql 的缓存优化项目
系统依赖:spark-2.3.3 , zookeeper-3.4.13, hadoop-2.7.6 项目内容: 在 spark-2.3.3 版本的基础上, 为 spark sql 增加跨 Driver 的磁盘缓存拓展功能. 其目的在于:
项目地址:https://gitee.com/JellyYoung/spark-2.3.0-sqlPlus (持续开发中) 后续的项目烂尾了,因为去实习和发论文,最后功能没有完善, 希望能有同学感兴趣,继续把这个开源做下去
剩下的项目就没有太大参考价值了,希望想从事大数据开发,偏平台方向的能够参考