Closed tomo-kn closed 2 years ago
https://youtu.be/0-VeHgV2G_U ワークショップの理論編では、開発チームと運用チームの間でしばしば生じる組織的な緊張を、サービスの望ましい信頼性を表す目標値を設定することで解決する方法を学びます。 ワークショップの実践編では、学んだことをゲームのユーザーとインフラとのより複雑なインタラクションに応用してもらいます。
https://docs.google.com/presentation/d/1WA0N-Xq6HWFpEigTUPyybsULnqZz7qfnApZYMNCU674/edit#slide=id.g75945b48fe_0_39 「SLO を導入してから、運用と開発チームとの関係が、わずかだが注目に値するほど改善した」 「... 明確に定義しないことには、いい仕事をすることは難しい。「いい仕事」を定義するために SLO はことばを与えてくれる」 SLO は、ギリギリ達成 できればサービスの典型的なお客様が満足するような、性能や可用性のレベルにすべき 「SLO を満たしている」 ⇒ 「お客様は満足している」つまり待遇を取って、「お客様が不満になる」 ⇒ 「SLO を満たしていない」 SLO は許容可能なレベルの信頼性の欠如を意味する。これは割り当てることができる予算になる
可用性:「読み込みに成功する」ではなく、ロードバランサーで測定したステータスが、/profile/{user} または /profile/{user}/avatarに対するHTTP GET リクエストのうち、200番台、3XX または 4XX (excl. 429) を返す割合、および5秒ごとに外形監視で測定される/profile/prober_user 及びリンクのある全てのリソースに対するHTTP GETリクエストのうち"ProberUser"を含む有効なHTMLを返す割合 レイテンシー:「読み込みが速い」ではなく、ロードバランサで測定した、/profile/{user} に対する HTTP GET リクエストのうち、X ms の範囲内にレスポンス全体を送信したものの割合 コーセラの動画教材:https://www.coursera.org/learn/site-reliability-engineering-slos Googleが書いた本(HTMLなら無料):https://sre.google/books/
DevOpsとの違いがよくわからなかったが、ようするにDevOpsは開発と運用を別々ではなく協力させることにより開発体験を良くしていくこと、そしてSREはDevOpsの実現のために必要な、SLIやSLOなどの指標に注目した開発手法だということ。こういう細かな違いがあるのね。 平易な表現にすると「DevOpsという概念を実現するための方法がSREである」ということになる。 SREとは? DevOpsとの違い
さて、読むべき本だが、「【最新版】SREエンジニアなら絶対に読んでおきたい必読本3選」という記事を参考に、この3冊を順番に読んでいこうと感じた。
読み物系は電子書籍のほうが良いと感じたので、Amazonではなくオライリー・ジャパンで購入したいと思う。
このissueは閉じて、あとは本読破のissue #50 で管理することにする。
読み物として色々読んでおく
https://sre.google/intl/ja_jp/resources/practices-and-processes/art-of-slos/
SREの本も何冊か読んでおく
輪読会。 https://iwasiman.hatenablog.com/entry/20200615-design-data-intensive-apps
SREの勉強が一旦完了したら、チェリー本→現場railsと進めていく。その後はその時に考える。