**** 留意事項 *****
こちらのブログの内容はDECN(Dell EMC Community Network)に投稿されたブログの再掲です。
DECNが近い将来に廃止となるためこちらに移行させていただいております。
内容についてはオリジナルの執筆当時のものとなりますので最新ではない場合がありますがご容赦ください。
本記事では、vCenterにデフォルトで定義されている、Host CPU/Memoryの使用率のアラーム定義のオススメについて御紹介いたします。
vSphere 環境のデフォルトアラーム定義と自動通報
vSphere環境を構築すると、デフォルトで多くのアラームが定義されていて、条件を満たすとWebClientGUI上に警告やエラーが表示されます。
Dell EMCの提供するVxRailの場合でもデフォルトで定義されているアラームは同様です。(Versionによっては追加でVxRail固有のアラームも定義されています。)
別途SMTPやSNMPを設定していると、発生したアラームを通知することもできますが、VxRailの場合はESRSを連携することで、発生したアラームの種別やタイミングによって、Dell EMC側に自動通報し、障害を迅速に解決することが可能です。
自動通報は障害を正しく通知できれば非常に便利なのですが、対応不要なケースも多くみられます。
その筆頭となるのが冒頭に書いたHost(ESXi)のCPU/Memory使用率のアラームです。
Host CPU/Memoryのアラームはデフォルトで、以下の設定になっています。
ー CPU 使用率 90%以上が5分継続で発報
ー Memory 使用率95%以上が5分継続で発報
※CPU 使用率アラームの設定
※メモリ使用率アラームの設定
※上記の条件を満たしたときに、必ず自動通報されSRが自動作成されることは保証されていないのでご留意ください。自動通報はあくまでもベストエフォート型のサービスです。
デフォルト設定による誤検知!?
サポートの仕事をしていると月に何件も(場合によっては何十件も!)Host CPU/Memory使用率の対応をすることがありますが、実際にCPU/Memoryの使用率のアラームを受信したあとに、対象筐体をESRS経由で確認するとすでに対応不要となっているケースが非常に多いです。
というのも、DRSが有効な環境では自動vMotionによって、負荷がほかのHostに分散されるためです。
何事もなく対応不要で終われればメデタシメデタシなのですが、お客様にはご連絡をしなくてはいけません。
多くの場合は、Windows Updateのタイミングであったり、週次・日次バックアップといった予想された負荷が原因なのですが、お客様も連絡を受けたら確認せざるをえず、問題ないのにもかかわらず確認の手間が発生してしまいます。
カスタマイズ設定によるお客様管理負荷削減
障害でなく問題のない通知で毎日のように連絡を受けるのは(手間だから)避けたい、と考えるお客様は多くいらっしゃると思います。
対象のアラームを無効にしてしまえば、このアラームによる不要な対応からは解放されますが、さすがに無効化は気が引けるという方も多いと思います。
そういった場合には設定値の変更(閾値の緩和)がお勧めです。
前半で述べたように、デフォルトでは高使用率状態が5分以上継続すると発報されますが、私の所感として、5分でアラートが上がってしまうのは少し短すぎると思います。
というもの、DRSが有効な環境であれば負荷の偏りに応じて自動でvMotionをしてくれるのですが、
DRSが稼働するインターバルはデフォルトで5分に設定されているため、DRSによる分散がなされる前にアラームが発報される可能性があるからです。
そこで、以下のように閾値の時間を延ばすことで不要な通知を抑制可能です。(vSphere 6.0/VxRail 4.0.xの場合)
※クリックすると拡大できます。
Host and cluster ViewでvCenerのインベントリを選んでいることに注意してください。(画面左上の赤線)
ClusterやHostを選択している状態では対象のアラームを変更することはできません。
残りの部分については赤線で強調した部分を追っていただければ設定できるかと思います。
vSphere 6.5(VxRail 4.5.x)の場合は若干配置が異なります。
Alarm Definitionsを選択したのちの操作は同じです。
変更後の設定時間についてはお客様次第ではありますが、vMotionの時間も考えると15分くらいがよいのではないかと思います。
もし、経験則等でお勧めの設定をお持ちの方は教えていただけると幸いです。
いかがでしたでしょうか?
今回はアラーム定義の変更による管理負荷軽減策として、Host CPU/Memory使用率アラームの変更をご紹介しました。
その他環境によっては問題ないにもかかわらず、ちょくちょくアラームが発報されてしまうようなケースもあるかと思います。
その場合も同様に、閾値設定を見直すことで、誤検知率が減り、余剰の時間を別の作業に当てることができるようになれば幸いです。