VINXニューリテール・コラム
【Google提唱のSREを実践!】運用の信頼性や業務効率を高める「トイルの自動化」とは

私はシステム運用などを行う事業本部で大手小売業のお客様への営業を担当していますが、システム運用の分野において近年、Googleが20年以上前に提唱したSRE(Site Reliability Engineering)というシステム運用の方法論が再注目されています。SREは流通小売業のみなさんにも参考になる考え方ですので、今回のコラムではその概要などをご紹介したいと思います。
Googleの大規模サービスを支えるSRE
SREはグローバルに展開されるサービスを安定稼働させるために生まれた考え方です。GoogleがSREを提唱し始めたのには、以下のような背景がありました。
●開発と運用の分断
システムの開発・運用は従来、開発チームと運用チームが分離しており、連携・協力がしづらい環境にありました。そのため、新機能の追加やバージョンアップ時に運用チームの負担が増え、問題が生じやすくなっていました。
●手作業の多さ
運用業務の多くが手作業で行われていたため、効率が悪く、ミスを犯すリスクも高くなっていました。
●サービスの規模拡大
Googleのサービスは急速に拡大していったため、従来の運用手法では24時間365日の安定稼働を維持するのが難しくなっていました。
これらの課題を解決するためにGoogleが導入したのがSREです。SREの手法を採用することで、開発チームと運用チームの連携強化や運用の自動化を進め、システムの信頼性を向上させました。
SREにおいて重視しているのは以下のような点です。
①信頼性
サービスの安定稼働やパフォーマンスを維持するために具体的な指標を設定し、継続的にモニタリングを行います。
②自動化
手作業を減らしてシステムの運用を自動化することで、ヒューマンエラーを防ぐとともに効率化も推進します。
③開発・運用の連携
開発チームと運用チームが協力し、システムの安定性を維持しながら新機能の追加や改善を進めます。
こうした点を重視して開発・運用を改善すると以下のようなメリットを得られます。
SREを実現するために必要な「トイルの自動化」
上記のように、SREの主な目的はシステムの信頼性向上や運用の効率化です。そうした目的を実現するために不可欠なのが「トイルの自動化」です。トイルはサービスを稼働させるための単純作業を指し、長期的な価値を持たず、サービスの成長に比例して増える傾向があると定義されています。
Googleのサービス運用においては、トイルに費やす時間を勤務時間の50%未満に抑えるようにしているそうです。トイルに携わる時間を減らすほど、チームのメンバーはより付加価値の高い業務に集中できます。
では、どうすればトイルを自動化できるのか?
トイルを自動化する一般的な方法をご紹介します。以下のような流れで進めることで、効率的に自動化できるはずです。
①トイルの洗い出し
トイルに該当する作業を特定します。運用チームへのアンケートやヒアリング、会議などによってトイルを見つけ出します。
②トイルの測定
特定したトイルに費やされている時間を計測します。タスク管理ツールを活用し、作業の種類別に記録するのがおすすめです。
③優先順位をつける
作業頻度や費やす時間の多いトイルから自動化するために優先順位を決めます。
④自動化
自動化ツールやスクリプトを使用し、トイルを自動化します。予算によってはRPAなども活用します。
⑤モニタリング
自動化の効果を測定し、必要に応じて改善します。
小売業の現場におけるトイル
SREやトイルの自動化は流通小売業の現場には無関係のように感じるかもしれませんが、実はそんなことはありません。以下の業務に代表されるように、流通小売業の現場にも数多くのトイルが存在します。
これらの作業は日々繰り返されるものであり、自動化することで効率化でき、ヒューマンエラーの数も大きく減らせます。
ヴィンクスでは、こうしたトイルの自動化をお手伝いしています。また、システム運用をアウトソーシングいただければ、運用を代行しながらトイルの自動化も進めていきます。単に運用を代行するだけでなく、効率化を進めて信頼性向上やコストの最適化も実現します。
おわりに
人手不足が社会課題となっているなか、手作業に頼り切った運用はますます難しくなり、「トイルの自動化」は今後さらに重要になってくるでしょう。ぜひ自社の「トイルの自動化」をご検討いただき、なにかお困りの際にはヴィンクスにご相談いただければと思います。
関連コラム「【重要で難しい!?】システム開発の要件定義を成功させる方法とは」を読む
関連コラム「【対策も解説!】プロジェクトにおけるコミュニケーションの重要性」を読む
 