WDP誌で『インフラ障害対応演習』という特集記事を書きました - 内容と裏話 -

10月24日発売のWEB+DB PRESS vol.119 にて『インフラ障害対応演習』という特集記事を執筆しました。 ボリュームは25ページです。

経緯

今年の2月に、Developers Summit 2020というイベントで、下記のような講演をしました。

speakerdeck.com

これをご覧になった技術評論社の編集の方から、本講演を記事化しませんか、というお声がかかりました。

その後、記事化にあたってどういう構成が良いかを編集者さんと議論を重ね、最終的に講演のトピックの1つであった「障害対応演習」を深く掘り下げて記事化することとなりました。

記事の内容

記事冒頭の一部を引用します。

本特集では、障害対応を上手にこなすための方法の一つとして、障害対応を安全な環境で練習する「障害対応演習」を紹介します。 第 1 章では、障害対応の性質や課題と、それを解決するためになぜ障害対応演習が重要なのかを解説します。第 2 章では、筆者が業務で運用に携わって いる Mackerel という SaaS(Software as a Service)プロダクトにおいて、実際に行った障害対応演習の詳細を事例として紹介します。第 3 章では、昨今の社会情勢に伴ってニーズが高まっているフルリモートワー クの環境について、障害対応の観点から留意すべき事柄を説明します。最後に第 4 章で、障害対応演習で確認すべき大事なポイントや、演習を通して何を学ぶべきかを解説します。

このような内容になります。 かつての「動いているシステムは触るな」といわれた時代から、現代ではシステムが常に更新されつづける時代へと変化しました。そしてそれに伴ってSREという考え方が登場。これらの流れを簡単に解説しながら、障害対応演習の概要と、なぜそれが重要なのかを第1章で説明します。

読みどころは第2章です。Mackerelで去年実施した大規模な障害対応演習の実例を、当時の計画書や実施記録、担当エンジニアへのヒアリングなどからかなり赤裸々に書きました。

第3章では、昨今重要性が高まっている「フルリモートワークでの障害対応」について解説しました。第4章では、演習を通して、障害対応全体に適用できるような学習ポイントを紹介しています。

その他裏話

3月ごろから、編集者さんと企画を整理しはじめました。最初はデブサミの講演内容をそのまま記事化する形で考えていたのですが、技術評論社さんでの企画会議のフィードバックを得て構成を練り直し、7月くらいまでは編集者さんと一緒に目次をつくっていました。

7月, 8月の土日をすべて執筆にあてる、という形で執筆をしました。最初は30ページ弱ものボリュームをこのテーマで書ききれるか不安でしたが、事前にかなり詳細に目次を作っていたため、いざ執筆がはじまるとさほど迷わずに既定のページ数を埋めることができました。

企画段階もそうですが、全般的に編集者さんがとても的確にガイドをしてくれて、「著者と編集者が二人三脚で本を作るというのはこういうことか」というのを強く実感する日々でした。これまでも共著などで本の執筆に携わることはありましたが、編集者さんと直接やりとりする立場での執筆は今回はじめて(従来はメイン著者がいて、サブ的に執筆に関わっていたので)で、とても楽しかったです。

また機会があれば、なにか書きたいなと思います。

自分でも満足のいく良い記事が書けたと思うので、ぜひお手にとって読んでみてください。