リソース監視の正しい手順とツール選びを解説

昨今、ITインフラが複雑化し、デジタルサービスの導入が急速に拡大する中、企業システムに関する重大なインシデントが増加しつつあり、企業活動にさまざまな悪影響を及ぼしています。そういったなか、万一のインシデント対応に効果的な手法である「リソース監視」が再重視されています。今回はリソース監視を掘り下げて紹介します。

企業に深刻な影響もたらすインシデント対応の遅れ
システムインシデントの備えとなるリソース監視とは？
リソース監視を成功させる鍵は最適なツール選び
リソース監視を含む総合的なシステム監視の実装へ

企業に深刻な影響もたらすインシデント対応の遅れ

近年、システムインシデントが急速に日常化しています。2024年10月、PagerDuty社の調べによると、国内におけるインシデント管理および対応への取り組みが、海外に対して大きく遅れを取っていることが明らかになりました。例えば、過去12カ月では国内の重大なインシデントが37％も増加しており、その背景にはITインフラが複雑化し、デジタル関連のサービスが急速に拡大する一方で、守りのIT投資が不足していることが挙げられます。

また、「インシデント対応ツールに十分な投資をしている」という回答はグローバル（46％）に対し日本（12％）と約1/4に過ぎず、このような投資不足により、日本の平均修復時間／MTTR（設備やシステムが故障してから修理を行い、再び稼動するまでのダウンタイムの平均を示す値）は6時間12分（372分）にも達しており、グローバルの2時間55分（175分）の2倍以上の時間を要しています。これにより、日本における重大インシデント発生時の国内1企業あたりの累積コストは、年間52億円にのぼっています。これはグローバルの結果（28億円）に対して、均修復時間／MTTRと同じく約2倍にあたります。

表：システムインシデントによる損害リスクと対応実態の調査結果 — 出典：「システムインシデントによる損害リスクと対応実態の調査結果」（2024年10月29日・PagerDuty調べ）

重大なシステムインシデントが発生すると、企業には甚大な被害が発生します。一例を挙げると、データ損失や生産性低下、収益損失、長期的なブランドイメージ低下といった悪影響が及ぶ可能性があります。特に業務やサービスに直接的な影響を与えるシステムの停止は、顧客からの信頼失墜にとどまらず、社会問題に発展することがあるため注意が必要です。

今後、重大インシデントの発生、対応の遅れによる企業のリスクはさらに増していくと予想されます。万一、重大インシデントが発生した場合には、迅速な復旧対応と同時に、経営層には速やかな事実把握と情報開示が求められます。このため、十分な予算を立て迅速にインシデント対応の仕組みづくりが必要になるでしょう。そこで、検討材料の１つとして押さえておきたいのが、的確な事実把握のための「リソース監視」です。

システムインシデントの備えとなるリソース監視とは？

リソース監視は、インシデント対策に有効な監視手法です。標準的なリソース監視では、ネットワーク機器を管理するプロトコルである SNMP（Simple Network Management Protocol）などを用いてサーバーなどのCPUやメモリー、ディスク、ネットワークなどのリソース使用状況の監視を実行します。ちなみに、監視対象の機器（SNMPエージェント）が監視ソフトウェア（SNMPマネージャー）に通知を送信する仕組みをSNTPトラップといいます。

リソース監視は性能監視とも呼ばれ、システムの内部状態をとらえるために収集されるメトリクス（情報）にもとづくリソース監視の実施により、インシデントの予防と早期発見やリソースの最適化、コスト削減、パフォーマンス向上といったメリットが得られます。なお、リソース使用状況をリアルタイムで確認できるページのことをリソース監視ページといいます。

また、ポーリング監視と呼ばれる監視手法もあります。こちらはシステムやネットワーク機器が正常に動作しているかを定期的に確認するものです。いずれも監視対象からの応答がない場合、特定のしきい値を超えた場合にメールなどでアラートを通知します。

リソース監視（性能監視）やポーリング監視と比較されるものとして、死活監視やログ監視がありますが、それぞれ異なる目的があります。死活監視とは、サーバーやネットワーク機器などのノードの稼働を監視する運用のことです。可用性監視とも呼ばれます。一方でログ監視とは、ノードの挙動が記録されたログの監視であり、具体的には、WindowsイベントログやSyslogなどを監視する手法があり、その多くはトラブル発生時の原因調査のために用いられます。サーキットを疾走するレーシングマシンに例えると、エンジン出力などの性能を見るのがリソース監視、ギアやミッションの動作に異常がないかを見るのが死活監視、そしてマシントラブルなどの際に故障の原因を突き止めるのがログ監視といえるかもしれません。やや話がコースアウトしましたが、コースに戻ることにしましょう。

リソース監視を実施することで、さまざまなメリットが生まれます。

まず、「システムインシデントの予防と早期発見」ができることです。常にCPU稼働率やメモリー使用量などを監視することで、リソース枯渇によるリスクを事前に察知して適切な回避措置ができます。しかも、インシデントが発生した際にもリソースの利用状況を追跡して原因を素早く発見し、対処できるため被害を最小限に抑えることが可能です。

さらに「リソース使用率の最適化」が図れます。どのリソースのどれほどの負荷が発生しているかがひと目でわかるため、アクセス集中時のボトルネックとなる慢性的な高負荷ポイントなどを特定し、容量を拡大させる、スペックを高めるといった対処ができます。

「コストと稼働を削減」するというメリットもあります。適切なリソース監視でインシデント対策を強化することで、トラブル対応にかかる稼働の軽減、工数や対応にかかるコストの削減が可能です。これにより、人件費の抑制や業務効率を向上させる効果も生まれます。

さらには「パフォーマンスの向上」も見込めます。慢性的な高負荷がかかる特定のリソースに対して対策することで、システムのパフォーマンスを向上させることが可能です。例えば、サーバーの台数を増やして複数のサーバーに処理を分担させるスケールアウト、CPUやメモリーといったサーバーのスペックを高めて処理能力を向上させるスケールアップなどでシステム環境が改善すれば、業務効率や生産性を高める効果も期待できます。

また、リソース監視を通じた事前の兆候把握と即時対応の体制構築も重要です。多くの企業では未だに属人的な管理に頼っている場合があり、システム全体の稼働状況をリアルタイムで把握できていないケースが散見されます。この状況を解消するには、自動化された検知機能の導入が急務です。具体的には、CPU使用率やメモリー消費量、ネットワーク負荷といった主要パラメータに対する監視項目をあらかじめ設定し、異常値が検出された際に即座にアラートをトリガーするコマンドを組み込むことで、潜在的なインシデントの予兆を素早く察知することが可能になります。

リソース監視を成功させる鍵は最適なツール選び

リソース監視にはいくつかの方法があります。社員などの人の手によって行う手動監視、あるいは、ソフトウェアのソースコードを公開、自由にダウンロード、利用、改変、再配布をできるソフトウェアであるOSS（Open Source Software）や商用パッケージ、SaaSなどのツールを導入した、あまり人の手を介さない自動的な監視です。昨今の人材不足やシステムの複雑化などにより、手動監視はきわめて困難な状況であると考えた方がいいかもしれません。適正なリソース監視を行うためには、適切なツールの導入が妥当といえるでしょう。

自社の最適なリソース管理ツールを選ぶ際にはいくつかのポイントがあります。

十分な監視対象範囲が確保できているか

OSSをはじめ、現在提供されているツールは多様なリソースの監視が可能です。ハードウェアのCPUやメモリー、ストレージはもちろん、ネットワーク、クラウドサービス上にあるOSやミドルウェア、コンテナ、ソフトやプログラム、加えてネットワークトラフィックやプロセスを監視できるツールを選択することで、より強固な監視体制の構築が可能です。

監視結果の可視化と通知方法が適切か

インシデントを素早く特定して対策にあたるには、監視結果の画面表示が視覚的な分かりやすさが重要です。ダッシュボードがあり、テキストではなくグラフでシンプルに表示されるツールを選びましょう。さらに通知方法についても、メールだけではなくSlackやMicrosoft Teamsなどで受け取りたい場合には、通知方法についても確認する必要があります。

手厚いサポート体制があるか

いくらすぐれた監視ツールを選んだとしても、うまく使いこなせないのでは意味がありません。きちんと機能する強靭な監視体制を築くために、導入時のみならず、導入後の日々の運用フェイズでも継続的なサポートが期待できるメーカー、ベンダーを選びましょう。

とはいえ、必ずしもリソース監視ツールを導入すれば健全なシステムが維持できるわけではありません。なぜなら、インシデントの原因特定にはエンジニアの専門的なノウハウが必要になるためです。異常の根本原因を把握し、迅速に対処するには優秀なエンジニアの存在が大きく、属人的な対応にならざるを得ないため注意が必要です。

この課題を解決するためには、監視ツール運用の効率化、自動化が鍵になります。

リソース監視を含む総合的なシステム監視の実装へ

運用の効率化、自動化に向けたリソース監視の実装にあたり、やはり最初の選択肢として検討したいのが誰もが自由に使用・改変・再配布できるOSSです。多くのOSSは無料で利用できるようになっていますが、必ずしもすべてが無料とは限りません。しかも開発元のサポートについてもバラツキがあるため、しっかり確認をしておくべきです。

ここでは代表的なリソース監視用のOSSについて、いくつか紹介します。

Cacti

SNMPを使用してサーバーやネットワーク機器から取得した情報をグラフ化するモニタリングツールです。プラグインのインストールによりリソース監視でも利用できます。非常にシンプルなUIや設定をWebブラウザー上で容易に行えるという特長があります。

Icinga2

Pingやhttp、SMTP、DNSなどの基本的なプロトコル、CPUやメモリー、ディスク容量といった幅広いリソース監視が可能です。すべての接続をSSLで保護された状態で行い、より安全性の高い状態でツールを運用できるという特長があります。

Prometheus

時系列データの監視・記録に特化したツールです。数千台のサーバーからデータを収集して可視化できるため、対象数が多いシステムや動的に台数が変化するシステムのリソース監視に対応できることが大きな強みとなっています。

Nagios

リソース監視用のOSSとしては長い歴史のあるツールです。プラグインが豊富に用意されている拡張性の高さに加え、利用実績や日本語によるドキュメント情報充実しているため、比較的必要な情報を入手しやすいという特長があります。

Zabbix

IT業界から航空宇宙産業まで幅広い分野で導入されている統合システム監視ソフトウェアです。すべての機能がライセンスフリーで公開されており、オープンソースのリソース監視ツールとしては最も知名度が高く、世界中にユーザーがいます。

今回は世界的に人気のあるZabbixについて、少し掘り下げていきます。Zabbixではログ監視、死活監視（Ping監視）、サービスポート（TCP）監視、CPU使用率監視、メモリー使用率監視、ディスク使用率監視、プロセス監視、トラフィック監視、Web監視などトータルなリソース監視が可能です。

Zabbixを活用したリソース監視の手順はZabbixサーバーの構築、Zabbixエージェントのインストール、リソース監視設定の流れになります。ちなみに、リソース監視設定は、WindowsやLinuxなど監視対象サーバーのOSにより少し異なります。自社内でリソース監視を実装する際には、やや専門的な技術や知識が必要です。もし、情シス不在など自社内での対応が困難な場合はアウトソースを検討してみてもいいかもしれません。

「ZABICOM」は、NTTドコモビジネスが提供するZabbixを用いた統合監視ソリューションです。OSSのZabbixをベースにしているため、イニシャルとランニングの両面からの費用が軽減できます。さらに、システム運用保守者の知恵やノウハウを各種アラート発生の判断ロジックに沿っているため、高度なリソース監視の処理を分かりやすい画面で実現できます。オールインワンパッケージでの提供になるため、アップグレードのパッケージを追加する必要がありません。各パッケージの知識習得も不要です。

特に注目したいのは、世界一多くのZabbixエンジニアを育成した実績を持つ、NTTドコモビジネスのZabbix公式認定トレーナーたちを擁するサポート体制です。さらにZabbixを熟知するサポートチームがソースコードレベルでの調査・分析を実施するため、レスポンスが早く、オプションでリモート故障分析にも対応可能です。つまり、社内にITに精通したエンジニアが不在の場合でも、導入から保守までをトータルに託せるわけです。

ZABICOMの導入により、システムインシデント対応を始点に組織の資産を守る情報漏えい対策、さらにはシステム担当者の稼働を減らすことも可能になるでしょう。予告なく突然やってくる重大インシデントへの備えとして、運用保守の効率化に向けたリソース監視の仕組みづくりを、ZABICOMで進めてみてはいかがでしょうか。

ログ監視による勤怠管理で社員と組織を守る