2


SMS 1.4.1 のバグ

この章では、SMS 1.4.1 で既知のバグについて説明します。以下の項目を説明します。


SMS 1.4.1 ソフトウェアのバグ

この節では、SMS 1.4.1 に影響する重大なバグや RFE について簡単に説明します。

ホットスワップ時に SEEPROM にイベントを記録しようとすると I2C タイムアウトが報告されることがある (BugId 4785961)

Sun Fire ハイエンドシステムは、i2c バスを介して入出力カードの SEEPROM に対象となるイベントを記録します。ホットプラグ対応のカードには、そのカードを電気的に分離できるように CBT スイッチが付いています。カードの交換作業の際にはこの CBT スイッチが「open」状態ではなく、このため SEEPROM はアクセスできません。

ホットスワップ作業の直後に hpost を実行すると入出力カードがリセットされますが、カードのテストを完了するまで hpost は CBT スイッチを有効な状態に戻しません。このテストの際にシステムが SEEPROM にイベントを記録しようとすると、接続に失敗してシステムは i2c タイムアウトエラーを報告します。システムは通常通り実行を続けますが、イベントは入出力カードの SEEPROM に記録されません。

回避策 : このエラーメッセージを無視してください。

hwad の失敗でドメインがパニック状態となり停止することがある (BugID 4924523)

ごくまれに、hwad はドメインが正常に回復したことを検出できないことがあります。この場合、hwad はドメインの dstop フラグの解除に失敗します。この結果、dstop が再度実行されます。hwad は、dsmd がすでに (先の) dstop に気付いているものと誤解し、dsmddstop について知らせません。この結果、ドメインがハング状態のままになります。ドメインは最終的に補助的なステータステストに失敗し、強制的なパニック状態となり、この時点で dsmd は回復を試みます。

回避策 : なし

ドメインの起動時間が長くなった (BugId 4957596)

Sun Fire ハイエンドシステムの電源投入後、そのドメインで Solaris プロンプトが表示されるまでの時間が約 15% 増加しました。

回避策 : なし

2 プロセッサのシステムボードでドメイン再起動後に Unknown ステータスが表示される (BugId 4970240)

2 プロセッサのシステムボードの両方のプロセッサで Solaris ECC 回復可能エラーが通知され、ドメインが再起動されるときに、システムボードの「電源状態」が ON のままにならず、UNKNOWN に変わります。このため、showchs が失敗します。

この問題は、4 プロセッサのシステムボードでは発生しません。

回避策 : システムボードの電源を再投入します。

電源を切断した拡張ボードにシステムボードを取り付けられない (BugId 4970670)

電源を切断した拡張ボードにシステムボードを取り付けた場合に、インストールレコードが記録されません。

回避策 : システムボードを取り外し、拡張ボードの電源を投入した後、システムボードを再度取り付けます。

実行中のドメイン内の拡張ボードの電源を切断した場合に、ドメインが回復しない (BugId 4970726)

実行中のドメイン内の拡張ボードの電源を切断した場合に、dsmd によってドメインが回復しません。

回避策 : 実行中のドメインによってスロット 0 または 1 のコンポーネントが使用中の場合、拡張ボードの電源を切断しないでください。

setkeyswitch 処理を平行して実行しているシステムの postCHS エラーが断続的に報告される (BugId 4971816)

setkeyswitch 処理を平行して実行しているシステムでは、post 時に CHS エラー 4 (CHS: コンテナではない) がときどき発生することがあります。CHS エラー 4 が発生すると、照会されているリソースに問題があった場合、そのリソースが除外されずにドメインに組み込まれてしまいます。

回避策 :

1. 複数のドメインを同時に post することは避けてください。

2. setkeyswitch on を実行する前に、ボードの電源を入れるかあるいはドメインに対して setkeyswitch standby を実行してください。

3. 失敗する場合は setkeyswitch on を繰り返してください。

SMS 1.4.1 とパッチを適用していない SMS 1.3 を smsversion を使用して切り替えることができない (BugId 4974601)

システムに SMS 1.4.1 をインストールした後、smsversion を使用して SMS 1.3 と SMS 1.4.1 を切り替えようとしても、以下に示すようにメニューの選択肢として SMS 1.4.1 が表示されません。

# /opt/SUNWSMS/bin/smsversion
smsversion: SMS version 1.3 installed
smsversion: SMS version 1.4.1 installed
Please select from one of the following installed SMS versions:
1) 1.3
3) Exit

1.4.1 リリースを直接指定して切り替えを試みた場合、以下のメッセージが表示されてアップグレードは失敗します。

/opt/SUNWSMS/bin/smsversion 1.4.1
smsversion:Active SMS version < 1.3 >
You have requested SMS Version 1.4.1
 
Is this correct?[y,n] y
smsversion:Upgrading SMS from <1.3> to <1.4.1>.
ERROR: smsversion:SMS1.4.1 is not a consecutive release of SMS
Log file is /var/sadm/system/logs/smsversion. Exiting.

回避策 : SMS 1.3 にパッチ ID 115955-03 をインストールします。

複数の分割拡張ボードに対して setkeyswitch 処理を同時に実行すると SEEPROM/CHS エラーが発生することがある (BugId 4974846)

分割拡張ボードを使用して複数のドメインが構成されている場合にそれらのドメインに対して setkeyswitch を同時に実行すると、ドメインから正常なコンポーネントが除去され、SEEPROM が使用できないというエラーが生成されることがあります。また、CHS エラー 4 が発生し、不正な CHS 結果を持つコンポーネントがドメインに組み込まれることもあります。

回避策 :

1. 複数のドメインを同時に post することは避けてください。

2. setkeyswitch on を実行する前に、ボードの電源を入れるかあるいはドメインに対して setkeyswitch standby を実行してください。

3. 失敗する場合は setkeyswitch on を繰り返してください。

testemail で複数の障害報告を行うと、電子メールが送信されない場合がある (BugId 4976195)

testemail コマンドを実行するには、不正なクラスの数 (-c パラメタリスト) が障害があると思われるコンポーネント数 (-i パラメタリスト) より大きくなければなりません。メッセージによっては、障害があると思われる 1 つのコンポーネントだけが報告され、その他のコンポーネントが無視されることがユーザーに通知されないことを意味します。

回避策 : なし

障害のあるハードウェアのために不要な dstop エラーメッセージが生成されることがある (BugId 4983517)

ごくまれに、障害のあるハードウェアによって dstop が発生し、dstop ダンプの後で xir ダンプが起きることがあります。ドメインはすでに dstop しているために、dsmd はアクティブなプロセッサの一覧を取得できず、エラーが報告されます。

回避策 : このエラーメッセージを無視してください。

有効な DR 処理時に dsmd によって不要な xir ダンプとハードウェア構成ダンプが作成されることがある (BugID 4984234)

dsmd は、DR 処理時に不要な XIR ダンプとハードウェアダンプをときどき作成することがあります。この際 DR 処理は正常に行われますが、NOTICE メッセージが表示されます。

回避策 : NOTICE メッセージを無視してください。

分割拡張ボード構成で複数の setkeyswitch 処理を同時に実行するとシステムがハングすることがある (BugID 4984879)

分割拡張ボード構成のドメインで setkeyswitch 処理を同時に実行すると、ごくまれに post 時にシステムがハングすることがあります。setkeyswitch 処理は終了せず、Control-C で中断することもできません。この問題を防止する方法を次に示します。

1. 複数のドメインに対して setkeyswitch 処理を同時に実行することは避けてください。

2. 分割拡張ボードを使用したドメインに対して setkeyswitch 処理を同時に実行することは避けてください。

3. setkeyswitch on を実行する前に SMS poweron コマンドまたは setkeyswitch standby コマンドでドメイン内のボードに電源を入れてください。

回避策 : SMS を終了して再起動します。『System Management Services (SMS) 1.4.1 管理者マニュアル』を参照してください。

分割拡張ボードのドメイン構成で setkeyswitch 処理が無効な rstop を生成することがある (BugID 4986412)

分割拡張カードで構成されたドメインの一方で setkeyswitch off を実行すると、エラーが発生していない場合でも他方のドメインが rstop メッセージを受け取ることがあります。

回避策 : rstop メッセージを無視してください。

MCPU または IO ボードをドメインの IO スロットに装着した後、不要な I2C timeout メッセージが表示される (BugID 4986413)

Sun Fire ハイエンドシステムドメインに新しいボードを装着した場合は、その電源が安定するまでに数秒かかります。esmd デーモンは、30 秒おきにポーリングして新しいボードを検出します。ポーリングの送信中にボードの電源が安定すると、hwad はタイムアウトエラーを検出し、エラーメッセージを表示します。また、障害を示すオレンジ色のライト (レンチのライト) も最長 1 分間点灯します。

次の 30 秒間で esmd が再度ポーリングして新しいボードを検出するまでにはその新しいボードは安定し、esmd はタイムアウトエラーを検出しなくなります。

回避策 : このエラーメッセージを無視してください。

IO ボードを取り外す際にエラーメッセージが表示される (BugId 4986477)

Sun Fire ハイエンドシステムドメインの IO3 スロットと IO4 スロットからボードを取り外す場合、不要なエラーメッセージがいくつか表示されることがあります。たとえば、次のメッセージが表示されます。

sc% showlogs -F -p m

ERR I2cComm.cc 410] I2c read time out - bus: 51, address: 21

ERR SelectPll.cc 292] Reading bus failed in address 0, ecode=1123

...

ERR DetectorS.cc 912] Failed to read state point v1r5, located on HPCI at IO3: ecode=1123

ERR DetectorS.cc 912] Failed to read state point am80a_3v0, located on HPCI at IO3: ecode=1123

...

ERR DetectorS.cc 912] Failed to read state point am80a_5v1, located on HPCI at IO3:ecode=1123

ERR DetectorS.cc 912] Failed to read state point aa30c, located on HPCI at IO3: ecode=1123

WARNING DetectorS.cc 216] A BAD clock status has been detected on input 0 on HPCI at IO3

WARNING DetectorS.cc 246] A BAD clock status has been detected on input 1 on HPCI at IO3

NOTICE Boards.cc 2262] HPCI at IO3 removed

 

表示されるべきメッセージは、「IO3 removed」と「IO4 removed」だけです。

ボードが取り外され、構成チェックがまだ完了していない段階で esmd がその電圧チェックを実行するとこの現象が発生します。

回避策 : このエラーメッセージを無視してください。

ほかのドメインで使用中のシステムボードを新しいドメインで構成すると失敗する (BugId 4990295)

ほかのドメインで使用中のシステムボードを特定のドメインに組み込む場合、初めにそのボードの電源を切らないと構成は失敗します。

回避策 : ボードをドメインに構成する前にボードの電源を切ってください。

 

ハードウェア障害によって最終的に efhd デーモンがハングする (BugId 4991633)

picld が失敗して再開されるイベントでは、失効したハンドルが原因となって efhd は障害の起きた FRU のコンポーネントステータスを設定できません。この問題は、プラットフォームのメッセージログを調べて確認できます。以下に例を示します。

Feb 1 00:42:00 2004 xc10p13-sc1 frad[14699]: [9912 713967991973909 ERR

SeepromInfoPro.cc 483] Bad section header on CDCDIMM at EX12/CDCDIMM0, bad

element: tag, expected value: 8, actual value: 0


類似したメッセージが表示される場合は、ps コマンドを使用して picld が再開されているか確認してください。

> ps ef | grep picld
root 8495 26846 0 11:53:36 pts/25 0:00 grep picld
root 27535    1 0 11:57:20 ?      3:06 /usr/lib/picl/picld

前回 efhd が開始した後で picld が再開したことをタイムスタンプが示している場合は、efhd デーモンを再起動する必要があります。

回避策 : efhd デーモンを再起動してください。

予定されていなかった新規ユーザーの追加があるとアップグレードが失敗することがある (BugId 4994106)

(jumpstart サーバーからアップグレードを実行する場合などに) SMS のアップグレード中にシステム構成を復元する前に新規ユーザーをシステムに追加しようとすると、そのユーザーに関連するパスワードの問題が原因となってインストールが失敗することがあります。

回避策 :『SMS 1.4.1 インストールマニュアル』で説明されるまで新規ユーザーを構成しないでください。

システムがビジー状態のときに CHS 読み取りエラーまたは CHS 書き込みエラーが発生することがある (BugId 4999940)

コンポーネントの健全性ステータスの読み取りまたは書き込みの際にほかのドメイン回復のために SC がビジー状態にあると、FRU I/O エラー 2 が返されることがあります。(コンポーネントに障害があると思われるときに CHS が書き込まれない場合) この問題が原因となって、障害のあるコンポーネントがドメインに再び構成されることがあります。

回避策 : 障害の起きたコンポーネントに対して手動で setchs を実行してそのコンポーネントを障害状態に設定するか、あるいはそのコンポーネントを ASR ブラックリストに含めてください。

汎用 I2C のロックエラーを生成して poweron が断続的にハングする (BugId 5009599)

poweron 処理がハングし、以下のようなエラーメッセージが表示されることがあります。

esmd[17438]: [6175 3316412316413 ERR Boards.cc 713] Error (code = 1215), attempting to lock Global I2C on HPCI at IO2

 

hwad[17152]: [0 3324411478033 ERR LockManager.cc 970] WARNING!!Resource 113 is not locked, application 17169.11 in EXPLICIT lock mode.

 

Feb 25 23:03:35 2004 ht92bsc0 poweron[26197]: [6173 3349414612490 ERR

EXBPowerControl.cc 147] Failed(1215) to get system lock EXB at EX10

 

Feb 25 23:03:35 2004 ht92bsc0 poweron[26197]: [6214 3349417208771 ERR

poweronApp.cc 1342] Attempt to poweron EXB at EX10 failed


これらのメッセージは、poweron コマンドとフェイルオーバーメカニズムとの間のロックによって引き起こされます。

回避策 : poweron を実行する間は failover を無効にしてください。

flashupdate によって CP2140 ボードの SC 番号を確認できない (BugID 5012993)

flashupdate コマンドは、CP2140 ボードの SC 番号を確認できずに以下のエラーメッセージを表示することがあります。

flashupdate -f /opt/SUNWSMS/firmware/oSSCPOST.di SC1/FP1
Unable to determine local SC number. 
Only the local System Control Fproms can be updated. 
Do you wish to continue?(yes/no)? y

回避策 : 通常の更新処理を継続したい場合は「y」と答えてください。


SMS 1.4.1 ソフトウェアに影響するバグ

ここでは、SMS 1.4.1 システムに影響を与える可能性のある重大なバグについて説明します。SMS 1.4.1 システムに影響を与える可能性のあるすべてのバグを記載しているわけではありません。

インストール済みドメインの MAN I1 ネットワーク IP アドレスを変更すると、手動で MAN ネットワークを再構成する必要がある (BugId 4484851)

インストール済みのドメインがあり、smsconfig -m を使用してその MAN I1 ネットワーク構成を変更したときは、インストール済みドメインの MAN ネットワーク情報を手動で構成する必要があります。

回避策 :『System Management Services (SMS) 1.4.1 インストールマニュアル』の未構成ドメインに関する情報を参照してください。

Sun Fire 15K/E25K プラットフォーム固有の Begin/Finish スクリプトが、HPCI+ のみのドメインでハングアップする (BugId 4797577)

Solaris 8 Update 7 オペレーティング環境は、hsPCI+ ボードをサポートしていません。hsPCI+ ボードのみで構成されているドメインでは、Begin/Finish スクリプトの開始後、インストールがハングアップします。

回避策 : Ctrl-C を押して、Begin/Finish スクリプトに割り込みをかけます。これにより残りのインストールを継続させることができるため、インストールが正常に行われます。

Hpc3130 カセットの状態に対して、断続的な I2C タイムアウト (1124) が発生する (BugId 4785961)

Hpc3130 hsPCI カセットの状態を取得するときに、dxsfrad によって断続的な I2C タイムアウトが報告されます。このバグの影響は害のないもので、プラットフォーム、ドメイン、およびドメインコンソールのメッセージログにエラーメッセージを生成するだけです。

回避策 : なし

キャッシュ不可の要求への対応づけを解除された応答が、AXQ ロックモジュールの状態を破壊する (BugId 4761277)

2 つのドメインで 1 つの拡張ボードを共有し、1 つのドメインのデバイスドライバ
(または OS 拡張機能) が間違ったアドレスをプログラム済みの入出力空間に対して実行すると、両方のドメインで dstop が発生する可能性があります。これは、デバイスドライバなど、特権モードで実行されている欠陥のある OS 拡張機能でのみ起こります。

回避策 : テストされていなかったり問題がある特権モードソフトウェア (デバイスドライバなど) がドメインに含まれている場合には、このドメインとプロダクションドメインとの間で、拡張ボードを共有しないでください。

Sun Fire 15K/E25K サーバーで、ドメイン停止割り込みの検出に失敗することがある (BugId 4924523)

ドメイン停止 (dstop) 割り込みが hwad で検出されても dsmd で検出されない場合、dsmd からはハートビート障害が報告されます。ハードウェアの構成情報のみダンプされ、CPU レジスタやドメインデータ (dsmd.dump) はいずれも保存されません。ハードウェア構成ファイルからは、dstop 状態が報告されます。

回避策 : POST レベルを上げてドメインの POST を再実行すると、ハードウェア問題の原因を明らかにすることができます。

フェイルオーバーが失敗した場合、SunMC は起動時に不正なシステム状態を表示することがある (Bug ID 5010351)

起動時に SunFire システムのフェイルオーバー処理が FAILED (失敗) 状態にある場合、SunMC GUI 内の PCR システム表示にシステムステータスが「activating」と不正に表示されることがあります。

回避策 : showfailover CLI コマンドを使用してシステムのステータスを確認してください。


SMS 1.4.1 マニュアルの誤り

この節では、SMS 1.4.1 のマニュアルページおよびマニュアルに含まれる誤りを記載しています。

poweron マニュアルページは更新が必要である (BugId 5007971)

RFE 4974025 の修正の一環として、poweron コマンドの動作が変更されました。以前は、ボードに十分な電力が確保されないと SMS が判断すると、このコマンドは単に失敗しました。現在、このコマンドは継続するかどうかを尋ねるプロンプトを表示します。

-y-q オプションを指定すると、このプロンプトに自動的に「no」と答えることになり、事実上以前の動作と同じになります。-y オプションは、この質問に自動的には答えません。

回避策 : なし