第2章 |
|
この章では、SMS 1.4.1 で既知のバグについて説明します。以下の項目を説明します。
この節では、SMS 1.4.1 に影響する重大なバグや RFE について簡単に説明します。
Sun Fire ハイエンドシステムは、i2c バスを介して入出力カードの SEEPROM に対象となるイベントを記録します。ホットプラグ対応のカードには、そのカードを電気的に分離できるように CBT スイッチが付いています。カードの交換作業の際にはこの CBT スイッチが「open」状態ではなく、このため SEEPROM はアクセスできません。
ホットスワップ作業の直後に hpost を実行すると入出力カードがリセットされますが、カードのテストを完了するまで hpost は CBT スイッチを有効な状態に戻しません。このテストの際にシステムが SEEPROM にイベントを記録しようとすると、接続に失敗してシステムは i2c タイムアウトエラーを報告します。システムは通常通り実行を続けますが、イベントは入出力カードの SEEPROM に記録されません。
ごくまれに、hwad はドメインが正常に回復したことを検出できないことがあります。この場合、hwad はドメインの dstop フラグの解除に失敗します。この結果、dstop が再度実行されます。hwad は、dsmd がすでに (先の) dstop に気付いているものと誤解し、dsmd に dstop について知らせません。この結果、ドメインがハング状態のままになります。ドメインは最終的に補助的なステータステストに失敗し、強制的なパニック状態となり、この時点で dsmd は回復を試みます。
Sun Fire ハイエンドシステムの電源投入後、そのドメインで Solaris プロンプトが表示されるまでの時間が約 15% 増加しました。
2 プロセッサのシステムボードの両方のプロセッサで Solaris ECC 回復可能エラーが通知され、ドメインが再起動されるときに、システムボードの「電源状態」が ON のままにならず、UNKNOWN に変わります。このため、showchs が失敗します。
この問題は、4 プロセッサのシステムボードでは発生しません。
電源を切断した拡張ボードにシステムボードを取り付けた場合に、インストールレコードが記録されません。
回避策 : システムボードを取り外し、拡張ボードの電源を投入した後、システムボードを再度取り付けます。
実行中のドメイン内の拡張ボードの電源を切断した場合に、dsmd によってドメインが回復しません。
回避策 : 実行中のドメインによってスロット 0 または 1 のコンポーネントが使用中の場合、拡張ボードの電源を切断しないでください。
setkeyswitch 処理を平行して実行しているシステムでは、post 時に CHS エラー 4 (CHS: コンテナではない) がときどき発生することがあります。CHS エラー 4 が発生すると、照会されているリソースに問題があった場合、そのリソースが除外されずにドメインに組み込まれてしまいます。
1. 複数のドメインを同時に post することは避けてください。
2. setkeyswitch on を実行する前に、ボードの電源を入れるかあるいはドメインに対して setkeyswitch standby を実行してください。
3. 失敗する場合は setkeyswitch on を繰り返してください。
システムに SMS 1.4.1 をインストールした後、smsversion を使用して SMS 1.3 と SMS 1.4.1 を切り替えようとしても、以下に示すようにメニューの選択肢として SMS 1.4.1 が表示されません。
# /opt/SUNWSMS/bin/smsversion smsversion: SMS version 1.3 installed smsversion: SMS version 1.4.1 installed Please select from one of the following installed SMS versions: 1) 1.3 3) Exit |
1.4.1 リリースを直接指定して切り替えを試みた場合、以下のメッセージが表示されてアップグレードは失敗します。
回避策 : SMS 1.3 にパッチ ID 115955-03 をインストールします。
分割拡張ボードを使用して複数のドメインが構成されている場合にそれらのドメインに対して setkeyswitch を同時に実行すると、ドメインから正常なコンポーネントが除去され、SEEPROM が使用できないというエラーが生成されることがあります。また、CHS エラー 4 が発生し、不正な CHS 結果を持つコンポーネントがドメインに組み込まれることもあります。
1. 複数のドメインを同時に post することは避けてください。
2. setkeyswitch on を実行する前に、ボードの電源を入れるかあるいはドメインに対して setkeyswitch standby を実行してください。
3. 失敗する場合は setkeyswitch on を繰り返してください。
testemail コマンドを実行するには、不正なクラスの数 (-c パラメタリスト) が障害があると思われるコンポーネント数 (-i パラメタリスト) より大きくなければなりません。メッセージによっては、障害があると思われる 1 つのコンポーネントだけが報告され、その他のコンポーネントが無視されることがユーザーに通知されないことを意味します。
ごくまれに、障害のあるハードウェアによって dstop が発生し、dstop ダンプの後で xir ダンプが起きることがあります。ドメインはすでに dstop しているために、dsmd はアクティブなプロセッサの一覧を取得できず、エラーが報告されます。
dsmd は、DR 処理時に不要な XIR ダンプとハードウェアダンプをときどき作成することがあります。この際 DR 処理は正常に行われますが、NOTICE メッセージが表示されます。
分割拡張ボード構成のドメインで setkeyswitch 処理を同時に実行すると、ごくまれに post 時にシステムがハングすることがあります。setkeyswitch 処理は終了せず、Control-C で中断することもできません。この問題を防止する方法を次に示します。
1. 複数のドメインに対して setkeyswitch 処理を同時に実行することは避けてください。
2. 分割拡張ボードを使用したドメインに対して setkeyswitch 処理を同時に実行することは避けてください。
3. setkeyswitch on を実行する前に SMS poweron コマンドまたは setkeyswitch standby コマンドでドメイン内のボードに電源を入れてください。
回避策 : SMS を終了して再起動します。『System Management Services (SMS) 1.4.1 管理者マニュアル』を参照してください。
分割拡張カードで構成されたドメインの一方で setkeyswitch off を実行すると、エラーが発生していない場合でも他方のドメインが rstop メッセージを受け取ることがあります。
Sun Fire ハイエンドシステムドメインに新しいボードを装着した場合は、その電源が安定するまでに数秒かかります。esmd デーモンは、30 秒おきにポーリングして新しいボードを検出します。ポーリングの送信中にボードの電源が安定すると、hwad はタイムアウトエラーを検出し、エラーメッセージを表示します。また、障害を示すオレンジ色のライト (レンチのライト) も最長 1 分間点灯します。
次の 30 秒間で esmd が再度ポーリングして新しいボードを検出するまでにはその新しいボードは安定し、esmd はタイムアウトエラーを検出しなくなります。
Sun Fire ハイエンドシステムドメインの IO3 スロットと IO4 スロットからボードを取り外す場合、不要なエラーメッセージがいくつか表示されることがあります。たとえば、次のメッセージが表示されます。
表示されるべきメッセージは、「IO3 removed」と「IO4 removed」だけです。
ボードが取り外され、構成チェックがまだ完了していない段階で esmd がその電圧チェックを実行するとこの現象が発生します。
ほかのドメインで使用中のシステムボードを特定のドメインに組み込む場合、初めにそのボードの電源を切らないと構成は失敗します。
回避策 : ボードをドメインに構成する前にボードの電源を切ってください。
picld が失敗して再開されるイベントでは、失効したハンドルが原因となって efhd は障害の起きた FRU のコンポーネントステータスを設定できません。この問題は、プラットフォームのメッセージログを調べて確認できます。以下に例を示します。
Feb 1 00:42:00 2004 xc10p13-sc1 frad[14699]: [9912 713967991973909 ERR SeepromInfoPro.cc 483] Bad section header on CDCDIMM at EX12/CDCDIMM0, bad |
類似したメッセージが表示される場合は、ps コマンドを使用して picld が再開されているか確認してください。
> ps ef | grep picld root 8495 26846 0 11:53:36 pts/25 0:00 grep picld root 27535 1 0 11:57:20 ? 3:06 /usr/lib/picl/picld |
前回 efhd が開始した後で picld が再開したことをタイムスタンプが示している場合は、efhd デーモンを再起動する必要があります。
(jumpstart サーバーからアップグレードを実行する場合などに) SMS のアップグレード中にシステム構成を復元する前に新規ユーザーをシステムに追加しようとすると、そのユーザーに関連するパスワードの問題が原因となってインストールが失敗することがあります。
回避策 :『SMS 1.4.1 インストールマニュアル』で説明されるまで新規ユーザーを構成しないでください。
コンポーネントの健全性ステータスの読み取りまたは書き込みの際にほかのドメイン回復のために SC がビジー状態にあると、FRU I/O エラー 2 が返されることがあります。(コンポーネントに障害があると思われるときに CHS が書き込まれない場合) この問題が原因となって、障害のあるコンポーネントがドメインに再び構成されることがあります。
回避策 : 障害の起きたコンポーネントに対して手動で setchs を実行してそのコンポーネントを障害状態に設定するか、あるいはそのコンポーネントを ASR ブラックリストに含めてください。
poweron 処理がハングし、以下のようなエラーメッセージが表示されることがあります。
これらのメッセージは、poweron コマンドとフェイルオーバーメカニズムとの間のロックによって引き起こされます。
回避策 : poweron を実行する間は failover を無効にしてください。
flashupdate コマンドは、CP2140 ボードの SC 番号を確認できずに以下のエラーメッセージを表示することがあります。
flashupdate -f /opt/SUNWSMS/firmware/oSSCPOST.di SC1/FP1 Unable to determine local SC number. Only the local System Control Fproms can be updated. Do you wish to continue?(yes/no)? y |
回避策 : 通常の更新処理を継続したい場合は「y」と答えてください。
ここでは、SMS 1.4.1 システムに影響を与える可能性のある重大なバグについて説明します。SMS 1.4.1 システムに影響を与える可能性のあるすべてのバグを記載しているわけではありません。
インストール済みのドメインがあり、smsconfig -m を使用してその MAN I1 ネットワーク構成を変更したときは、インストール済みドメインの MAN ネットワーク情報を手動で構成する必要があります。
回避策 :『System Management Services (SMS) 1.4.1 インストールマニュアル』の未構成ドメインに関する情報を参照してください。
Solaris 8 Update 7 オペレーティング環境は、hsPCI+ ボードをサポートしていません。hsPCI+ ボードのみで構成されているドメインでは、Begin/Finish スクリプトの開始後、インストールがハングアップします。
回避策 : Ctrl-C を押して、Begin/Finish スクリプトに割り込みをかけます。これにより残りのインストールを継続させることができるため、インストールが正常に行われます。
Hpc3130 hsPCI カセットの状態を取得するときに、dxs と frad によって断続的な I2C タイムアウトが報告されます。このバグの影響は害のないもので、プラットフォーム、ドメイン、およびドメインコンソールのメッセージログにエラーメッセージを生成するだけです。
2 つのドメインで 1 つの拡張ボードを共有し、1 つのドメインのデバイスドライバ
(または OS 拡張機能) が間違ったアドレスをプログラム済みの入出力空間に対して実行すると、両方のドメインで dstop が発生する可能性があります。これは、デバイスドライバなど、特権モードで実行されている欠陥のある OS 拡張機能でのみ起こります。
回避策 : テストされていなかったり問題がある特権モードソフトウェア (デバイスドライバなど) がドメインに含まれている場合には、このドメインとプロダクションドメインとの間で、拡張ボードを共有しないでください。
ドメイン停止 (dstop) 割り込みが hwad で検出されても dsmd で検出されない場合、dsmd からはハートビート障害が報告されます。ハードウェアの構成情報のみダンプされ、CPU レジスタやドメインデータ (dsmd.dump) はいずれも保存されません。ハードウェア構成ファイルからは、dstop 状態が報告されます。
回避策 : POST レベルを上げてドメインの POST を再実行すると、ハードウェア問題の原因を明らかにすることができます。
起動時に SunFire システムのフェイルオーバー処理が FAILED (失敗) 状態にある場合、SunMC GUI 内の PCR システム表示にシステムステータスが「activating」と不正に表示されることがあります。
回避策 : showfailover CLI コマンドを使用してシステムのステータスを確認してください。
この節では、SMS 1.4.1 のマニュアルページおよびマニュアルに含まれる誤りを記載しています。
RFE 4974025 の修正の一環として、poweron コマンドの動作が変更されました。以前は、ボードに十分な電力が確保されないと SMS が判断すると、このコマンドは単に失敗しました。現在、このコマンドは継続するかどうかを尋ねるプロンプトを表示します。
-y-q オプションを指定すると、このプロンプトに自動的に「no」と答えることになり、事実上以前の動作と同じになります。-y オプションは、この質問に自動的には答えません。
Copyright© 2004, Sun Microsystems, Inc. All rights reserved.