hackstoic / hackstoic.github.io

个人博客
http://hackstoic.github.io
12 stars 1 forks source link

运维世界大会干货总结 #25

Open hackstoic opened 8 years ago

hackstoic commented 8 years ago

演讲主题

2016-12-04-05-38-50

2016-12-04-05-39-17

我自己听了以下几场:

针对我听的这几场演讲谈几点心得体会:

干货总结

2016-12-04-06-01-59

下面简要谈一下这5个主题相关的一些主要观点, 详细的内容见文末的参考资料: 云实践

  1. 应用上云是一种大趋势,不可抗拒
  2. 在云上也是有坑的, 比如说很多系统参数不透明,造成排障时间长的问题
  3. 在云上, 瓶颈还在,只是被隐藏了
  4. 混合云是一种趋势
  5. 云时代,运维人员的价值体现在混合云管理, 云平台的调优, 排障等等
  6. 个人观点 : 演讲的嘉宾是网易的工程师, 对于网易这种大型的互联网企业而言,他们的机器规模大, 场景复杂, 有深度调优的需求, 因此踩了很多上公有云的坑。 对于中小的互联网企业和创业公司,未必会遇到类似的问题。 总体而言, 上云的利大于弊。

监控

  1. 全栈溯源和日志分析都是为了快速定位和解决故障而生的
  2. 机器学习和人工智能将会是日志分析技术的下一代引擎
  3. 日志分析,检索,监控应该打造成一个ops品牌服务提供出来
  4. 个人观点: 对互联网企业而言, 日志就是隐藏的宝藏, 而日志分析技术就是打开宝藏之门的钥匙。 在日志分析上,已经有比较成熟的技术方案, 开源的有: elkstack, 商业方案有splunk, 日志易, 阿里云LogSearch等。

SRE

  1. SRE的两个职责: 应急响应和日常运维
  2. 每个SRE要有50%的工程时间, 用于开发, 用于有价值的系统运维
  3. 每个事故要6个小时去处理, 这里其实强调的是, 事故后的深度分析追踪, 从故障中学习
  4. 要有计划的安排灾难演习, 这样能使系统更加健壮, 更能防范于未然
  5. 应用系统的设计应该充分考虑人可能会犯的错误
  6. 不需要处理的告警, 就不要告警
  7. 要开发能够自愈的系统
  8. 个人观点: 即使我们不是SRE,但是也要有SRE的心, 坚持以google的SRE的标准来要求自己。 时常检视自己是否一直在做重复无意义的运维工作, 是否可以自动化。做运维是管理和驾驭机器和系统, 而不是反过来被其奴役。

DevOps

  1. 运维的八荣八耻
  2. 云原生应用的12要素原则
  3. 个人观点: 话题基本是围绕着12要素原则来讲的, 运维的八荣八耻可以理解为12要素原则的中文翻译。 总结起来就是设计一个可配置, 高可用, 自动化, 标准化, 可视化的运维系统。

PaaS

  1. 提出将运维能力平台化的观点
  2. 实现NoOps的目标, 即自助式运维
  3. 构建运维自动化平台需要考虑八个方面: 标准化, xaas化 ,持续交付, 高可用架构, 弹性扩展, noops, 收益和风险, 平台运营。
  4. 个人观点: 运维能力PaaS化是一种站在更高层面的ops视角。初级的自动化是构建一些自动化脚本和工具,但是这些工具还是需要运维工程师来执行, 当用户的需求量上去了, 运维工程师依然会占用大量的时间来处理这些需求。 如果能变成可控的自助式服务,将会大大简化运维工程师的运维工作, 同时提供更快的交付速度。 我自己总结了一个运维形式的演进过程是这样的: 人肉 -> 脚本 -> web工具应用 -> 供运维工程师使用的运维系统 -> 用户自助式的运维平台。

扩展阅读

  1. 基于 DevOps 理念的私有 PaaS 平台实践 http://www.tuicool.com/wx/bMriYbi
  2. 详解DevOps八荣八耻 http://jiasuhui.com/archives/106524
  3. 来自 Google 的 DevOps 理念及实践 http://www.tuicool.com/articles/7NFjumb
  4. 12要素原则 https://12factor.net/zh_cn/
  5. ops world 演讲思维导图 http://naotu.baidu.com/file/4641e828c679dc46f1b1ecaa917e33d8?token=45d171bd832baf43

[欢迎关注我的微信公众号hackstoic, 在移动端获得最新的文章推送]