Open cjuexuan opened 3 years ago
大佬,你好: 我有两个问题想咨询一下:
谢谢
@FlowerBirds 先说第一个问题,小文件的问题我们的做法是稍微入侵一点spark的代码,在FileFormat里增加任务写出的原始路径的埋点,然后再把这部分数据作为输入放到合并任务里去,合并任务会根据这些文件的大小以及我们配置的策略进行合并,这个埋点还有一个好处是解决分区血缘信息手机的问题, 第二个问题是我们merge request怎么做的,这个可以看看 #71
最后,我们team终于有hc了,是元数据方向的,欢迎感兴趣的小伙伴联系我
数据治理专家/数据资产管理专家
工作内容:
1. 负责喜马拉雅数据资产管理体系的建设,包括数据资产管理,数据血缘和数据地图,指标管理和视图管理等,降低数据使用的门槛
2. 负责喜马拉雅数据治理体系的建设,包括数据治理的产品化、数据价值体系搭建,数据ROI核算等,降低数据的使用成本
岗位要求:
1. 有扎实的编程能力,熟悉java/scala等编程语言,有优秀的设计和代码品味
2. 深刻理解计算机原理,有良好的数据结构和算法基础
3. 良好的产品意识和数据意识,以高效优雅的解决用户问题为最终目标,能通过数据分析准确指导产品的迭代方向
4. 熟悉数据体系架构理论及相关方法,熟悉大数据技术及相关产品
我们也是基于spark做的一个数据分析平台,写了大量的scala代码,现在发现,用maven编译scala贼慢。你们现在用的sbt吗,看过之前你写的介绍SBT的,目前感觉怎么样呢
2020年年度总结
魔幻的2020年就要结束了,按照惯例,总结和复盘下一些事情吧
工作
事情
先说一些开心的事情吧,从系统可用性的角度来说,今年对几个核心系统的去单点改造基本都做完了,包括一些中控节点的去单点改造 另外整个团队做了几个比较有意思的工作,第一个是spark写hive/hdfs时智能的小文件合并,之前我们是在XQL中暴露需要被coalesce或者 repartition参数,但是这样做有一些弊端,首先无法适应数据的变化规律,一个上线时候合理的repartition值跑着跑着就不合理了, 另外就是没有经验的小伙伴拍脑袋拍出一个值也比较费力,所以今年我们做了个智能合并小文件的机制,合并小文件这件事情平台会自动在用户的 任务逻辑后面加一些spark task去做,对用户透明了,从机制来说更友好了,收益也不错 另一个事情就是tuning工具,tuning工具是给spark任务推荐参数的一个工具,比如driver配多大,executor配多大,core配多少,instance配多少, 并且我们将tuning和我们panda调度集成整合了,在用户任务跑完之后会panda会调用tuning,来动态调整参数, 从本质来说,tuning和小文件合并是解决同一类问题,那就是让1. 没有调优经验的人能用工具调优,2. 让任务能适配数据的变化,避免出现上线的时候配的很合理 随着数据变化变得不合理的情况。tuning其实用的数据主要就是spark的event log,外加spoor采集的一些性能数据,然后根据用户的任务并行度,资源消耗,算到一个 更合理的值,有了tuning之后,我们很快会把用户的配置收敛到更合理,当然,因为这是一个事后机制,无法处理每天数据波动非常大的情况,但能解决绝大数数据缓慢增长的情况 为了避免tuning影响用户的任务,panda还配合上线了一个沙箱的功能,当被tuning修改配置后跑出问题时,我们会回滚到上一次的成功运行的配置,来减少对业务的影响 第三个事情,是我们在做一些数据价值的评估分析,其实我们也花了很大的精力在做,目前总结就是尚有问题,未来可期,这里就不展开太多了,明年应该会重点发力一下。
团队
今年团队在轮值做的还不错,基本都做到了双人轮值,私聊找我问问题的同学越来越少了,基本都通过值日的小伙伴处理了 code review做的也不错,merge request绝大多数都能做到至少两人review,并且也有很多讨论。 今年在设计评审上花的时间也比往年多,很多问题在评审阶段暴露了,大的返工比往年是要少的。 文档这一块也进步很明显,设计、问题排查、探索和实验基本都留下了文档,这些文档就是团队的财富。
晋升
今年4月份作为技术的职级标杆去做了一次述职,有了一次和ceo沟通的机会,机会非常难得,感恩。我们团队也有一位小伙伴在10月成功晋升,非常开心。盘算了下,今年一共帮助超过5位小伙伴review过他们的述职ppt,并且有几位小伙伴职级比我要高,这个过程中我也更能理解公司对下一个职级的要求,给自己明确了方向。之前写过一篇 #74 ,希望能帮助其他小伙伴。
反思
终于到了严肃认真的反思环节了,今年有段时间非常迷茫,我想了下,主要有这么几点,第一,今年更多的时间花在管理和产品上,留给我写代码的时间没有那么多,发现自己一整周都没写几行代码,发现缺少了我团队仍然可以井井有条的向前,今年请假调休的时候有时整天都不用关注手机的钉钉消息,有一种非常奇妙的感觉,一度怀疑自己的作用到底是什么。第二,是团队做的事情,我们目前负责的平台和系统,主要有数据计算平台、任务调度系统、数据可视化平台,外加这个月刚接手的元数据系统,从我自己的喜好来说,我更希望我们团队专注去做一些计算引擎相关的内容,但交给我们的事情又需要花很大精力去做好,所以经常会感到很有压力,也没有那么多时间去跟进社区新技术的发展。第三个是管理上的点,我们团队有几位很优秀的小伙伴,也是团队的初期成员,经历了团队的成长,我之前一直认为我们整个团队可以很快的让人成长起来,但是今年发现,团队有些小伙伴的成长速度还是很慢的,我已经尽我所能去帮助他们成长了,我不知道自己该怎么做才能让他们成长的更快,我就意识到优秀的小伙伴更多还是自己本身可塑性很强,团队对他们的帮助在他们成长过程中权重没有那么高,这让我有时产生很强的挫败感。第四个就是个人的成长,我觉得今年从技术的角度来说,今年成长很缓慢,感觉自己的增长遇到了瓶颈。 很多问题我还没有想通,还需再进一步思考,包括我自己的未来路在何方。
生活
婚姻和家庭
最开心的事当然是今年和罗老师领证了,认识8年,在一起超过5年了,结婚是水到渠成的事情了,所以就在今年的7月把证给领了,对,就在罗老师生日的后一天,这样就不会忘记结婚纪念日了哈哈哈 从家庭的角度来说,罗老师做的奉献和牺牲的比我多的多,想想我还是非常幸福的,虽然罗老师偶尔脾气比较暴躁23333。我是独生子女,罗老师不是,从一些思维模式上看,我比她要自私一些,下意识的立场就是先考虑自己,当然,这更多是我个人的问题,但希望我们以后的小朋友能像她更多一点 今年陪伴的时间稍微多了一些,毕竟陪罗老师通关了《分手厨房1/2》,以及《路易吉洋楼》,一年也没敢出远门,趁着罗老师换工作的间歇,周边城市散了个心,明年预计要拍婚纱照啥的,应该可以跑的远一点😄
运动健身
好的身体才是革命的本钱,前几个月基本做到了一周踢一场球,外加慢跑一两次 11月份公司的健身房也开了,时常光顾了一下,今年斥巨资买了两个运动手表,有了详细的数据,你就会更有成就感,你就能更有动力,这一点来说,这波投资还是值得的
焦虑
看着上海的房价蹭蹭往上涨,没有房票的我还是很慌的,到明年3月,喜马满五,上海社保也满五,但是南京的房子还要到明年7月才能满五,买了之后一直空着,首贷也用了,这5年也基本没涨,南京高点接盘说的就是本人了,我是真的没有选好,估计还要头痛一段时间,未来也基本是两条路了,要么就是卖了南京房子,上海70%硬上,要么就是这几年再打拼一下,等到30左右回南京,诶,走一步看一步吧,5年前在南京买房从现在再看,肠子都悔青了,可是谁能看到未来呢,还是要充满信心的走下去~