第9章 |
|
ステータス関数は、サーバーのハードウェアやソフトウェアのステータスを示す測定値を返します。このため、これらの関数はステータスを表示するための値や、モニターソフトウェアへ入力するための値を提供する際に使用されます。モニターソフトウェアは、ステータス関数を定期的に調べて、戻り値が通常の動作制限内かどうか検証します。この章では、ステータス関数を使用するモニター関数やイベント検出関数について説明します。
ソフトウェアのステータスは、ドメインで実行されているソフトウェアによって提供されるステータス情報で構成されます。現在実行されているソフトウェアコンポーネント (たとえば POST、OpenBoot PROM、または Solaris ソフトウェア) の識別情報が得られます。その他のステータス情報 (起動、実行、パニック) も得られます。
SMS ソフトウェアで提供される以下のコマンドは、ドメイン内で現在実行されているソフトウェアがあれば、そのステータスを表示します。
showboards(1M) コマンドは、DCU の割り当て情報やステータスを表示します。これらに含まれる情報は、場所、電源、ボードのタイプ、テストステータス、およびドメインです。
プラットフォーム管理者の場合は、オプションを何も指定しないと、showboards コマンドによって、割り当て済みの DCU や 使用可能な DCU を含むすべての DCU が表示されます。ドメイン管理者または構成者の場合は、showboards コマンドによって、ドメインの使用可能構成要素リストに含まれている割り当て済みのボードや使用可能なボードを含む、ユーザーが特権を持つドメインの DCU だけが表示されます。
domain_indicator を指定した場合は、このコマンドによって、目的のドメインに対して割り当てられた DCU や 使用可能な DCU が表示されます。-a オプションを使用すると、showboards コマンドによって、DCU を含むすべてのボードが表示されます。
詳細や例については、ボードステータスを取得するおよび showboards のマニュアルページを参照してください。
showdevices(1M) コマンドは、システムボード上の構成済みの物理デバイスや、それらデバイスで使用可能な資源を表示します。使用状況情報は、システム資源をアクティブに管理しているアプリケーションおよびサブシステムによって提供されます。必要な場合は、管理対象の資源をオフラインで問い合わせることによって、システムボードの DR 操作による影響の予測を表示できます。
showdevices は、1 つ以上の Sun Fire ハイエンドシステムドメインからデバイス情報を収集します。このコマンドは、dca(1M) をプロキシとして使用して、ドメインから情報を収集します。
詳細や例については、デバイスステータスを取得するおよび showdevices のマニュアルページを参照してください。
showenvironment(1M) コマンドは、位置、デバイス、センサー、値、ユニット、年数、ステータスなどの環境データを表示します。ファントレーについては、電源、速度、ファン番号が表示されます。バルク電源については、電源、値、ユニット、ステータスが表示されます。
ドメインの domain_indicator を指定した場合、ユーザーがそのドメインに対する特権を持っていれば、そのドメインに関連する環境データが表示されます。ドメインを指定しない場合は、ユーザーに対して許可されたすべてのドメインが表示されます。
DCU (たとえば CPU や I/O) がドメインに属している場合、その DCU のステータスを表示するには、そのドメインの特権を持っている必要があります。ファントレー、バルク電源、または他のボードなどに関連する環境データは、ドメインの許可がなくても表示できます。-p オプションを使用すれば、温度、電圧、電流、障害、バルク電源ステータス、およびファントレーステータスの個別のレポートを指定することもできます。-p オプションを指定しない場合は、すべてのレポートが表示されます。
詳細や例については、環境ステータスおよび showenvironment のマニュアルページを参照してください。
showobpparams(1M) コマンドは、OpenBoot PROM の起動パラメタを表示します。showobpparams コマンドを使用すると、ドメイン管理者は setkeyswitch(1M) によって OpenBoot PROM に渡される仮想の NVRAM および REBOOT パラメタを表示できます。
詳細や例については、OpenBoot PROM 変数の設定および showobpparams のマニュアルページを参照してください。
showplatform(1M) コマンドは、使用可能構成要素リストや、各ドメインのステータスを表示します。
ドメインは、domain_tag が存在すればそれによって識別されます。それ以外の場合は、domain_id の A 〜 R のいずれかの文字で識別されます。文字セットは大文字と小文字の区別があります。Solaris の hostname が存在すればそれも表示されます。ドメインに hostname が割り当てられていない場合は、Unknown が表示されます。
ドメインの状態を判定できないか、ドメインの IDPROM イメージファイルが存在しない (後者は Ethernet アドレスの場合のみ)。購入先にご連絡ください。 |
|
ドメインがダウンしており、setkeyswitch によってキースイッチが ON、DIAG、または SECURE に設定されている。 |
|
ドメインのステータスには、2 種類の状態が反映されます。1 つは dsmd がドメインの復元を試みている状態、もう 1 つは dsmd によるドメイン復元が失敗に終わった状態です。2 つ目の状態であれば、ステータスは常に Domain Down になります。最初の状態は、Domain Down 以外のステータスとして表示される場合があります。どちらの状態でも、Domain Down ステータスから復帰するには、 setkeyswitch off と setkeyswitch on を次のように実行します。
詳細や例については、ドメインステータスを取得するおよびshowplatform のマニュアルページを参照してください。
showxirstate (1M) コマンドは、プロセッサにリセットパルスが送信された後の CPU ダンプ情報を表示します。この保存ステータスのダンプ情報を使用して、異常なドメインの動作の原因を分析することができます。showxirstate コマンドは、そのドメイン内のアクティブなプロセッサのリストを作成して、各プロセッサの保存ステータス情報 (プロセッサのシグニチャーを含む) を取得します。
showxirstate コマンドのデータは、デフォルトでは /var/opt/SUNWSMS/adm/domain_id/dump に保存されます。
詳細や例については、showxirstate のマニュアルページを参照してください。
Solaris 環境の通常動作時には、SC から読み取り可能なハートビートインジケータが定期的に作成されます。dsmd コマンドは、ハートビートの更新データが存在しないことによって、実行中の Solaris システムがハングしたことを検出します。ハングの状態が検出されるのは Solaris ソフトウェアだけで、それ以外のソフトウェアコンポーネントのハングは検出されません。
注 - Solaris ソフトウェアのハートビートを、SC 対 SC (ハードウェア) のハートビートやハートビートネットワークと混同しないでください。どちらもフェイルオーバーの状態を判定する際に使用されます。詳細は、SC のハートビートを参照してください。 |
Solaris ハートビートの応答が発生するのは、dsmd コマンドが Solaris ハートビートを完全に更新できない障害を検出して、Solaris ソフトウェアがハングしていることを示す場合に限られます。Solaris ソフトウェアのハングが検出されると、dsmd コマンドは ASR を実行します。
ハードウェアのステータス関数は、ハードウェア構成、検出されたハードウェアの障害、およびプラットフォームの環境状態に関する情報をレポートします。
Sun Fire ハイエンドシステムのシステム管理ソフトウェアでは、以下のハードウェア構成ステータスを取得できます。
各ボードに物理的に存在するハードウェアコンポーネント (POST によって検出)
POST に失敗したため使用されていないハードウェアコンポーネント
システムボードなどのホットプラグ可能ユニット (HPU) の存在の有無
POST が実行されたときにブラックリストに存在していたため使用されないハードウェアコンポーネント (電源投入時自己診断 (POST)を参照)
各 FRU の SEEPROM の内容 (パーツ番号やシリアル番号を含む)
注 - SC 上で実行中の SMS が取得できるハードウェア構成ステータスは、存在の有無に制限されます。これには、I/O 構成に関する情報 (I/O アダプタの装着位置や、I/O アダプタに接続されているデバイスなど) は含まれません。このような情報は、I/O アダプタを所有しているドメインで実行中のソフトウェアだけが取得できます。 |
この節で説明している関数でサポートされているハードウェア構成には、I/O アダプタや I/O デバイスは含まれません。showboards コマンドは、存在するハードウェアコンポーネントをすべて表示します。
ブラックリストの編集で説明しているように、現在のコンポーネントのブラックリストの内容は、いつでも表示したり変更できます。
showenvironment コマンドは、Sun Fire ハイエンドシステムのラック内で取得できるすべての環境測定値を表示します。
プラットフォーム管理者は、プラットフォーム全体のすべての環境ステータスを表示できます。ドメイン管理者は、特権を持つドメインの環境ステータスのみを表示できます。
HPU の LEDで説明しているように、Sun Fire ハイエンドシステムの HPU の動作インジケータ LED は、その HPU の電源が投入されていることを視覚的に表示し、取り外し可能インジケータ LED は、その HPU が取り外し可能であることを視覚的に表示します。
dsmd コマンドは、Sun Fire ハイエンドシステムハードウェアの動作状態を監視して、エラーをレポートします。いくつかのエラーの発生は、SC に直接報告されます
(各 ASIC のエラーレジスタは、エラーサマリーレジスタを提供する SC の SBBC に伝播されます)。いくつかのエラーの発生は、SC に対する割り込みによって示されますが、いくつかのエラーステータスについては、SC がハードウェアレジスタでエラーの兆候を監視する必要があります。ハードウェアエラーが検出されると、esmd コマンドは定められた手順に従ってハードウェアエラーのステータスを収集したり、クリアしたりします。
Sun Fire ハイエンドシステムのハードウェアでは、以下のタイプのエラーが発生することがあります。
ドメインの停止。ドメイン内のすべてのハードウェア動作を終了させる致命的なハードウェアエラー
記録の停止。データ転送エラー (CE ECC など) が発生したときに、ハードウェアによるトランザクション履歴の収集が停止する。
SPARC プロセッサのエラー状態 (RED_state / ウォッチドッグリセットなど)
ASIC で検出された致命的でないハードウェアエラー
ハードウェアエラーのステータスは、一般にステータスとしてレポートされません。その代わりに、ハードウェアエラーが発生した場合は、イベント処理関数によってさまざまなアクションが実行されます (エラーログの記録、ASR の実行など)。これらの関数については、ドメインイベントで説明しています。
注 - HPU の LEDで説明しているように、障害 LED は POST が完了した後に、最終電源投入時以降、または電源投入時リセット以降に障害が発見された Sun Fire ハイエンドシステムの HPU を識別します。 |
SMS が正しく動作するかどうかは、SC 上のハードウェアと Solaris ソフトウェアが正しく動作するかどうかによって決まります。メインからスペアへのシステムコントローラの自動フェイルオーバーをサポートするには、スペア上でハードウェアとソフトウェアが正常に動作していることが必要です。メインのシステムコントローラ上で実行されている SMS ソフトウェアは、スペアが検出可能な方法でソフトウェアやハードウェアの障害を診断するために十分な動作を確保しているか、またはスペアが検出可能な方法でエラーになっている必要があります。
SC-POST は、システムコントローラのハードウェアステータスを判定します。SC-POST は、電源投入時または電源投入時リセットの際にシステムコントローラをテストして構成します。
制御ボードが機能しなくなると、SC は通常どおり起動しますが、制御ボードのデバイスにはアクセスできません。システムコントローラの起動に必要なハードウェアの動作レベルは、実質的にスタンドアロンの SC で必要な動作レベルと同じです。
SC-POST は、診断結果を SC のコンソールシリアルポート (TTY-A) に出力します。さらに、SC-POST は診断ステータスの簡単なサマリーメッセージを NVRAM バッファーに残します。NVRAM バッファーは Solaris ドライバで読み込むことが可能で、Solaris ソフトウェアの起動時に記録および表示されます。
SC のファームウェアおよびソフトウェアは、SC のハードウェア障害を識別したり修正するための情報を表示します。
SC のファームウェアおよびソフトウェアは、システムコントローラのハードウェアが機能していることを検証するソフトウェアインタフェースを提供します。これによって、稼動中のシステムコントローラは、使用度の高い SC 構成のメインコントローラとして選択されます。
システムコントローラの LED は、HPU の LEDで説明しているように、電源や検出されたハードウェア障害に関するステータスを視覚的に表示します。
Solaris ソフトウェアは、自己診断と自動復旧 (パニックと再起動) のレベルを提供します。Solaris ソフトウェアは、SC のハードウェアウォッチドッグロジックを利用して、ハング状態をトラップし、強制的に自動復旧再起動を行います。
SC の間には、4 つのハードウェア通信パス (Ethernet 接続 2 つ、ハードウェアネットワーク、および SC 対 SC のハートビート信号) があります。各 SC はこれらのパスを、使用度の高い SC の構成で使用して、他の SC のハングや障害を検出します。
SMS は、使用度の高くない SC の構成でも自己診断を実施し、自動障害復旧手順を定めます。
SMS ソフトウェアは復旧の際に、プラットフォームのハードウェアを必要に応じて既存の有効な構成に戻すか、またはそれが不可能なことをレポートします。
SMS ソフトウェアは、1 度発生したソフトウェア障害の工学的診断を行うために必要な情報を記録します。
SMS ソフトウェアは、自己を初期化して完全に機能するようになるのにかなりの時間がかかります。この間に、ユーザーインタフェースは予測可能な状態で機能します。ユーザーコマンドの拒否は、システムを初期化するためであると明示されるとともに、適切な間隔を空けて再試行するようにアドバイスされます。
SMS のソフトウェア環境では、分散型クライアント / サーバーアーキテクチャが使用されます。初期化をまだ完了していないプロセスと対話しようとして、SMS の初期化の際に発生したエラーは、静的に処理されます。
Copyright © 2004, Sun Microsystems, Inc. All rights reserved.