この記事は「ウィルゲート Advent Calendar 2023」の 17 日目の記事です。 https://adventar.org/calendars/8986
ウィルゲート開発室でTACT SEOの開発を担当している水口(はるみん)です。 今回は、TACT SEOで発生する様々なエラー通知への対応について、過去半年間の履歴を集計して浮かび上がった課題と見直しについてご紹介いたします。
毎日さまざまなエラーが発生している
TACT SEOでは、お客様のサイトの調査を行うために外部ツールと連携し、データを取得したり、WEB上の大量のデータを集計したりしています。そのため、外部連携先の状況や負荷状況により、処理の失敗や遅延が発生しています。開発チームはこれらを検知し、適切な対応を行うために、監視ツールからSlackへ通知を行っています。
エラー通知への対応における課題
今回、過去半年間の通知を集計してみて、以下のような課題が出てきました。
通知が多すぎる
TACT SEOはリリース後、数年が経過しているツールであり、歴代の担当者が通知を追加していった結果、通知自体の件数が増加していきました。また、内容が精査されておらず、重複する内容や対応・確認の必要のない通知も含まれています。エラー通知の対応状況が追えない
即対応が必要なエラーが多く、ほとんどは即日中に対応されることが多いのですが、対応が遅れてしまったケースもありました。 特に、根本的な解決が必要な課題を含む場合、暫定対応はされるが、根本解決が進まずに時間が経過してしまうケースがありました。通知の対応が属人化している
この半年間おいては、前任者から運用を引き継いだ担当者一名がほぼ全てのエラーを対応をしていました。他メンバーはエラーの対応方法や状況を把握できておらず、対応できない状況でした。
課題への対策
通知の整理
全ての通知について、必要性と緊急度を再評価し、通知の頻度と対象を整理しました。これにより、本当に対応が必要な通知以外の確認時間が短縮され、エラー対応以外に専念できる時間が増加しました。
エラー通知のタスク管理
以前は監視ツールからSlackに通知され、担当者が対応して完了する流れでしたが、変更後はSlack通知をNotionでタスクとして管理するようにしました。
これらの対策による効果
エラー対応の状況と優先度の明確化
チケット化により、エラーが優先度ごとに分類され、即対応が必要な通知とそうでない通知が明確になりました。また、分類によって根本解決が必要な課題を特定し、課題が放置されないようになりました。チームでのタスク共有
日次のチームMTGで各エラー通知について対応方法と対応状況を共有するようにし、毎日のエラーの状況がチーム内で共有されるようになりました。これにより、チーム全体でエラー対応が効率的に行えるようになりました。
今後改善したいこと
対応状況のトラッキングと、対応件数・時間の可視化
現在、エラー通知に関するタスクの管理が行われていますが、その情報を基にした改善策の実施が十分に行われていません。今後は対応状況をトラッキングし、集計することで、エラーへの対応における問題点を特定し、改善策に移行し、その効果を測定できるようにしようと考えています。(社内外の)お問い合わせへの展開
エラー通知と同様に、社内外のユーザーからのお問い合わせも多く寄せられています。同様の課題に対処するため、今回のタスク管理をさらに展開し、お問い合わせにも適用していく予定です。
今回は、プロダクトのさまざまなエラー通知への対応に関する見直しとその効果についてご紹介しました。今後もエラー対応をより効率的に進められるよう改善していきたいと思います。
「ウィルゲート Advent Calendar 2023(リンク先:https://adventar.org/calendars/8986)」、翌日は武田さんによる「どうやらprepareForValidationはLaravel5.3以降から使えるらしい」です。 お楽しみに!