C H A P I T R E  2

Bogues relatifs à SMS 1.4.1

Ce chapitre fournit des informations sur les bogues connus de SMS 1.4.1. Il comprend les sections suivantes :


Bogues du logiciel SMS 1.4.1

Cette section répertorie les principaux bogues et RFE qui affectent SMS 1.4.1.

Signalement de delais d'attente intermittents de I2C lors de tentatives d'enregistrement d'un événement dans la SEEPROM au cours d'un remplacement à chaud (BugID 4785961)

Les systèmes haut de gamme Sun Fire enregistrent les événements présentant de l'intérêt dans les SEEPROM de leurs cartes d'E/S via un bus i2c. Les cartes remplaçables à chaud sont équipées de commutateurs CBT permettant d'isoler la carte du point de vue électrique. Lors d'une opération de remplacement à chaud, les commutateurs CBT ne sont pas « ouverts » et les SEEPROM ne sont donc pas accessibles.

Lorsque la commande hpost est exécutée juste après un remplacement à chaud, elle réinitialise les cartes d'E/S, mais ne réactive les commutateurs CBT qu'après avoir testé entièrement les cartes. Si le système tente d'enregistrer un événement dans la SEEPROM pendant ce laps de temps, il ne pourra pas établir de connexion et signalera une erreur de temporisation i2c. Le système continue à fonctionner normalement, mais l'événement n'est pas consigné dans la SEEPROM de la carte d'E/S.

Solution : ne tenez pas compte du message d'erreur.

Arrêt de type panique de domaine généré par l'échec de hwad (BugID 4924523)

En de rares occasions, la commande hwad ne parvient pas à détecter la récupération d'un domaine et, de ce fait, n'efface pas l'indicateur dstop du domaine. Par conséquent, dstop est à nouveau exécuté. hwad présuppose que la commande dsmd a déjà pris en compte la commande dstop préalable (ce qui n'est pas le cas) et ne signale pas cet événement à dsmd. De ce fait, le domaine reste bloqué. Il échoue eventuellement lors d'un deuxième test de statut et la commande dsmd tente d'effectuer une récupération par le biais d'une panique forcée.

Solution : aucune

Augmentation du temps d'initialisation du domaine (BugID 4957596)

Le temps nécessaire pour qu'un système haut de gamme Sun Fire se mette sous tension et que ses domaines affichent une invite Solaris a augmenté de près de 15 %.

Solution : aucune

Les cartes système à deux processeurs affichent un statut inconnu après une réinitialisation de domaine (BugID 4970240)

Lorsque les deux processeurs d'une carte système à deux processeurs sont suspectés de causer des problèmes suite à des erreurs corrigeables ECC Solaris et que le domaine est réinitialisé, le statut d'alimentation de la carte système devient inconnu (UNKNOWN) au lieu de rester actif (ON). Cette situation entraîne l'ÉCHEC de la commande showchs.

Ce problème ne survient pas avec les cartes système à quatre processeurs.

Solution : mettez progressivement sous tension la carte système.

N'insérez pas de carte système dans une carte d'extension qui est mise hors tension (BugID 4970670)

Si une carte système est insérée dans une carte d'extension mise hors tension, aucun enregistrement d'installation n'est effectué.

Solution : retirez la carte système, mettez sous tension la carte d'extension et réinsérez la carte système.

Absence de récupération du domaine en cas de mise hors tension de la carte d'extension dans un domaine en cours d'exécution (BugID 4970726)

Si vous mettez hors tension une carte d'extension dans un domaine en cours d'exécution, dsmd n'assure pas la récupération du domaine.

Solution : ne mettez pas hors tension une carte d'extension lorsque les composants de l'emplacement 0 ou 1 sont utilisés par un domaine en cours d'exécution.

Signalement intermittent d'une erreur CHS lors d'applications de la commande post sur des systèmes exécutant des opérations setkeyswitch en parallèle (BugID 4971816)

Il arrive que des systèmes exécutant des opérations setkeyswitch en parallèle rencontrent une erreur CHS 4 (CHS : pas un conteneur) lors de l'utilisation de la commande post. Si la ressource demandée est défaillante, l'erreur CHS 4 entraîne la configuration de la ressource dans le domaine au lieu de l'exclure de ce dernier.

Solution :

1. Évitez d'appliquer la commande post à des domaines fonctionnant en parallèle.

2. Mettez sous tension les cartes (ou appliquez setkeyswitch standby au domaine) avant d'exécuter setkeyswitch on.

3. Exécutez à nouveau setkeyswitch on en cas d'échec.

Impossible d'utiliser smsversion pour basculer entre SMS 1.4.1 et SMS 1.3 sans patch (BugID 4974601)

Si, après avoir installé SMS 1.4.1 sur votre système, vous tentez d'utiliser smsversion pour basculer entre SMS 1.3 et SMS 1.4.1, SMS 1.4.1 ne sera pas répertorié dans le menu des versions disponibles :

# /opt/SUNWSMS/bin/smsversion
smsversion: SMS version 1.3 installed
smsversion: SMS version 1.4.1 installed
Please select from one of the following installed SMS versions:
1) 1.3
3) Exit

Si vous tentez de changer de version en spécifiant directement le numéro de version 1.4.1, la mise à niveau aboutit à un échec et affiche le message suivant :

/opt/SUNWSMS/bin/smsversion 1.4.1
smsversion: Active SMS version < 1.3 >
You have requested SMS Version 1.4.1
 
Is this correct? [y,n] y
smsversion: Upgrading SMS from <1.3> to <1.4.1>.
ERROR: smsversion: SMS1.4.1 is not a consecutive release of SMS
Log file is /var/sadm/system/logs/smsversion. Exiting.

Solution : installez le patch n° 115955-03 sur SMS 1.3.

Des opérations setkeyswitch lancées en parallèle sur des cartes d'extension divisées risquent de rencontrer des erreurs de type SEEPROM/CHS (BugID 4974846)

Si plusieurs domaines sont configurés avec des cartes d'extension divisées et que la commande setkeyswitch est exécutée en parallèle dessus, cela risque de générer une erreur de type « SEEPROM jamais prête », excluant ainsi un composant valable du domaine. Une erreur CHS 4 est également susceptible de se produire, qui permet de configurer dans le domaine un composant doté d'un mauvais résultat CHS.

Solution :

1. Évitez d'appliquer la commande post à des domaines fonctionnant en parallèle.

2. Mettez sous tension les cartes (ou appliquez setkeyswitch standby au domaine) avant d'exécuter setkeyswitch on.

3. Exécutez à nouveau setkeyswitch on en cas d'échec.

E-mails non envoyés suite à de multiples mises en cause utilisées dans testemail (BugID 4976195)

La commande testemail requiert un nombre de classes défaillantes (la liste de paramètres -c) supérieur ou égal au nombre de composants suspects (liste de paramètres -i). Pour certains messages, cela signifie qu'il n'est possible d'entrer qu'un seul composant suspect au maximum. Or, l'utilisateur n'est pas averti que les composants supplémentaires ne seront pas pris en compte.

Solution : aucune

Messages d'erreur dstop inutiles générés par du matériel défaillant (BugID 4983517)

En de rares occasions, un matériel défaillant peut inciter dstop à tenter un vidage xir après le vidage dstop. Le domaine étant déjà arrêté via d-stop, la commande dsmd ne peut pas obtenir la liste des processeurs actifs et une erreur est générée.

Solution : ne tenez pas compte des messages d'erreur.

Génération de vidages de configuration du matériel et xir inutiles causée par dsmd au cours d'opérations de reconfiguration dynamique valides (BugID 4984234)

La commande dsmd peut parfois créer des vidages XIR et de matériel superflus au cours d'opérations de reconfiguration dynamique. L'opération de reconfiguration dynamique réussit, mais des messages de notification (NOTICE) s'affichent à l'écran.

Solution : ne tenez pas compte des messages d'erreur NOTICE.

Blocage possible du système suite à des opérations setkeyswitch lancées en parallèle dans une configuration à cartes d'extension divisées (BugID 4984879)

En de rares occasions, l'exécution d'opérations setkeyswitch en parallèle sur un domaine doté d'une configuration à cartes d'extension divisées entraîne le blocage du système avec post. Les opérations setkeyswitch ne sont pas menées à terme et ne peuvent être interrompues à l'aide de la combinaison de touches Ctrl+C. Pour éviter ce problème, procédez comme suit :

1. Évitez d'exécuter en parallèle des opérations setkeyswitch sur plusieurs domaines.

2. Évitez d'exécuter en parallèle des opérations setkeyswitch sur des domaines à cartes d'extension divisées.

3. Mettez sous tension les cartes faisant partie du domaine à l'aide de la commande SMS poweron ou de la commande setkeyswitch standby avant d'exécuter setkeyswitch on.

Solution : arrêtez puis redémarrez SMS. Reportez-vous au manuel System Management Services (SMS) 1.4.1 Administrator Guide.

Génération d'une commande rstop non valide suite à une opération setkeyswitch exécutée dans une configuration de domaine à cartes d'extension divisées (BugID 4986412)

Si vous exécutez setkeyswitch off dans un domaine configuré à l'aide d'une carte d'extension divisée, l'autre domaine peut recevoir un message rstop, même en l'absence de véritable erreur.

Solution : ne tenez pas compte du message rstop.

Affichage inutile de temporisation I2C suite à l'insertion d'une carte de MCPU ou d'E/S dans l'emplacement E/S du domaine (BugID 4986413)

Lorsqu'une nouvelle carte est insérée dans un domaine de système haut de gamme Sun Fire, elle prend quelques minutes avant de se stabiliser. Le démon esmd sonde le système à la recherche de nouvelles cartes toutes les 30 secondes. Si la carte est en train de se stabiliser au moment de l'émission du sondage, hwad détecte une erreur de temporisation et affiche un message d'erreur. De plus, le voyant de panne jaune s'allume pendant près d'une minute.

Lorsque la commande esmd procède à un nouveau sondage de cartes 30 secondes plus tard, la nouvelle carte est stabilisée et esmd ne détecte aucune erreur de temporisation.

Solution : ne tenez pas compte du message d'erreur.

Messages d'erreur générés lors du retrait de cartes d'E/S (BugID 4986477)

Si vous retirez une carte des emplacements IO3 et IO4 d'un domaine de système haut de gamme Sun Fire, il se peut que plusieurs messages d'erreur inutiles s'affichent à l'écran. Par exemple :

sc% showlogs -F -p m

ERR I2cComm.cc 410] I2c read time out - bus: 51, address: 21

ERR SelectPll.cc 292] Reading bus failed in address 0, ecode=1123

...

ERR DetectorS.cc 912] Failed to read state point v1r5, located on HPCI at IO3: ecode=1123

ERR DetectorS.cc 912] Failed to read state point am80a_3v0, located on HPCI at IO3: ecode=1123

...

ERR DetectorS.cc 912] Failed to read state point am80a_5v1, located on HPCI at IO3: ecode=1123

ERR DetectorS.cc 912] Failed to read state point aa30c, located on HPCI at IO3: ecode=1123

WARNING DetectorS.cc 216] A BAD clock status has been detected on input 0 on HPCI at IO3

WARNING DetectorS.cc 246] A BAD clock status has been detected on input 1 on HPCI at IO3

NOTICE Boards.cc 2262] HPCI at IO3 removed

 

Les seuls messages qui devraient s'afficher concernent le retrait des deux cartes : « IO3 removed » et « IO4 removed ».

Ce comportement survient lorsque la commande esmd exécute la vérification de tension après le retrait de la carte et avant que la vérification de la configuration ne soit terminée.

Solution : ne tenez pas compte des messages d'erreur.

Impossible de configurer une carte système utilisée dans un domaine dans un nouveau domaine (BugID 4990295)

Si vous tentez de configurer dans un domaine une carte système utilisée dans un autre domaine, la configuration échoue, à moins que vous ne mettiez hors tension la carte au préalable.

Solution : mettez hors tension la carte avant de tenter de la configurer dans le nouveau domaine.

Blocage du démon efhd suite à une panne de matériel (BugID 4991633)

Si picld échoue et redémarre, efhd ne sera pas en mesure de définir le statut du composant d'unités interchangeables sur site FRU (de l'anglais Field Replacable Unit) défaillantes suite à un identificateur erroné. Vous pouvez identifier ce problème en consultant le journal des messages de la plate-forme :

Feb 1 00:42:00 2004 xc10p13-sc1 frad[14699]: [9912 713967991973909 ERR

SeepromInfoPro.cc 483] Bad section header on CDCDIMM at EX12/CDCDIMM0, bad

element: tag, expected value: 8, actual value: 0


Si un message de ce type s'affiche, utilisez la commande ps afin de vérifier si picld a été redémarré :

> ps ef | grep picld
root 8495 26846 0 11:53:36 pts/25 0:00 grep picld
root 27535    1 0 11:57:20 ?      3:06 /usr/lib/picl/picld  

Si la date et l'heure indiquent que picld a redémarré après le dernier lancement de efhd, redémarrez le démon efhd.

Solution : redémarrez le démon efhd.

Échec possible de la mise à niveau suite à l'ajout inattendu de nouveaux utilisateurs (BugID 4994106)

Si vous tentez d'ajouter de nouveaux utilisateurs à un système au cours d'une mise à niveau du logiciel SMS et avant la restauration de la configuration du système (comme cela peut arriver si vous exécutez la mise à niveau à partir d'un serveur jumpstart), l'installation risque d'échouer suite à des problèmes de mots de passe générés par l'introduction des nouveaux utilisateurs.

Solution : ne configurez pas de nouveaux utilisateurs avant d'y être invité conformément aux instructions du Guide d'installation de System Management Services (SMS) 1.4.1.

Erreurs de lecture et d'écriture CHS possibles à cause de l'occupation du système (BugID 4999940)

Il est possible qu'une erreur d'E/S FRU de type 2 soit renvoyée lorsque le statut de santé du composant (CHS, de l'anglais Component Health Status) est défini sur lecture ou sur écriture si le SC est occupé à traiter d'autres récupérations de domaines. Ce problème peut entraîner la reconfiguration de composants défaillants dans un domaine (si le statut CHS n'est pas défini sur écriture lorsqu'un composant est suspecté de causer des problèmes).

Solution : appliquez manuellement la commande setchs au composant défaillant afin de définir celui-ci sur l'état approprié ou placez-le sur la liste noire ASR.

Blocage intermittent de poweron associé à des erreurs de verrouillage I2C globales (BugID 5009599)

Il peut arriver qu'une opération poweron se bloque et affiche des messages d'erreur de ce type :

esmd[17438]: [6175 3316412316413 ERR Boards.cc 713] Error (code = 1215), attempting to lock Global I2C on HPCI at IO2

 

hwad[17152]: [0 3324411478033 ERR LockManager.cc 970] WARNING!! Resource 113 is not locked, application 17169.11 in EXPLICIT lock mode.

 

Feb 25 23:03:35 2004 ht92bsc0 poweron[26197]: [6173 3349414612490 ERR

EXBPowerControl.cc 147] Failed(1215) to get system lock EXB at EX10

 

Feb 25 23:03:35 2004 ht92bsc0 poweron[26197]: [6214 3349417208771 ERR

poweronApp.cc 1342] Attempt to poweron EXB at EX10 failed


Ces erreurs sont générées par un verrou placé entre la commande poweron et le mécanisme de bascule.

Solution : désactivez failover pendant l'exécution de poweron.

Impossible pour flashupdate d'identifier le numéro du SC sur les cartes CP2140 (BugID 5012993)

La commande flashupdate ne parvient pas toujours à identifier le numéro du contrôleur système (SC) sur une carte CP2140 et, dans ce cas, affiche le message d'erreur suivant :

flashupdate -f /opt/SUNWSMS/firmware/oSSCPOST.di SC1/FP1
Unable to determine local SC number.
Only the local System Control Fproms can be updated.
Do you wish to continue? (yes/no)? y

Solution : répondez y (oui) afin de poursuivre l'opération de mise à jour classique.


Bogues affectant le logiciel SMS 1.4.1

Cette section répertorie les bogues les plus importants susceptibles d'affecter le système SMS 1.4.1. Il ne s'agit toutefois pas d'une liste exhaustive de tous les bogues pouvant avoir un impact sur le système SMS 1.4.1.

Reconfiguration manuelle du réseau MAN nécessaire après modification de l'adresse IP réseau MAN I1 d'un domaine installé (BugID 4484851)

Si des domaines sont déjà installés et que vous changez la configuration du réseau MAN I1 à l'aide de la commande smsconfig -m, vous devez configurer manuellement les informations du réseau MAN sur ces domaines installés.

Solution : consultez les informations relatives aux domaines déconfigurés fournies dans le Guide d'installation de System Management Services (SMS) 1.4.1.

Blocage possible des scripts Begin/Finish spécifiques à la plate-forme Sun Fire 15K/E25K sur les domaines HPCI+ uniquement (BugID 4797577)

La mise à jour 7 de l'environnement d'exploitation Solaris 8 n'inclut pas la prise en charge des cartes hsPCI+. Dans les domaines comportant uniquement des cartes hsPCI+, l'installation peut se bloquer après le démarrage des scripts Begin/Finish.

Solution : appuyez sur les touches Ctrl+C afin d'interrompre les scripts Begin/Finish. Cela vous permettra de poursuivre l'installation normalement.

Délay d'attente intermittents d'I2C (1124) à la réception du statut d'une cassette Hpc3130 (BugID 4785961)

Des délay d'attente intermittents d'I2C sont signalés par dxs et frad à la réception du statut d'une cassette Hpc3130 hsPCI. Les conséquences sont minimes et limitées à la consignation de messages d'erreur dans les fichiers journaux de la plate-forme, du domaine et de la console de domaine.

Solution : aucune

Endommagement de l'état dans le module de verrouillage AXQ suite à une réponse non mappée à une requête impossible à mettre en cache (BugID 4761277)

Si deux domaines partagent une carte d'extension et un pilote de périphérique (ou extension de SE) sur un domaine, une adresse incorrecte est envoyée à l'espace d'E/S programmé et les deux domaines peuvent dstop. Cela se produit uniquement avec les extensions SE défectueuses exécutées en mode privilégié, à l'instar des pilotes de périphériques.

Solution : ne partagez en aucun cas une carte d'extension entre un domaine de production et un domaine contenant des logiciels en mode privilégié non testés ou problématiques comme les pilotes de périphériques.

Possibilité d'interruptions d'arrêt des domaines non détectées par les serveurs Sun Fire 15K/E25K (BugID 4924523)

Si une interruption de type arrêt de domaine (dstop) est détectée par hwad mais pas par dsmd, dsmd signale une panne de pulsation. Seules les informations de configuration du matériel sont vidées et ni les données relatives aux registres du CPU ni celles relatives au domaine (dsmd.dump) ne sont enregistrées. Les fichiers de configuration du matériel signalent une condition dstop.

Solution : vous pouvez poster à nouveau le domaine à un niveau supérieur afin de révéler la source du problème matériel.

Affichage incorrect de l'état du système au démarrage par SunMC en cas d'échec de la bascule (BugID 5010351)

Lorsqu'une opération de bascule d'un système Sun Fire ÉCHOUE au démarrage, l'affichage du système PCR dans l'interface utilisateur de SunMC affiche parfois le statut du système comme étant en cours d'activation.

Solution : exécutez la commande d'ILC (interface de ligne de commande) showfailover afin de vérifier le statut du système.


Erreurs contenues dans la documentation de SMS 1.4.1

Cette section résume les erreurs qui figurent dans les pages de manuel et la documentation relatives à SMS 1.4.1.

Mise à jour nécessaire des pages de manuel poweron (BugID 5007971)

Dans le cadre de la correction appliquée à RFE 4974025, le comportement de la commande poweron a subi des modifications. Auparavant, lorsque SMS détectait un manque d'alimentation pour une carte donnée, la commande échouait tout simplement. À présent, la commande affiche une invite demandant à l'utilisateur s'il souhaite poursuivre ou non.

Les options -y-q répondent automatiquement « no » (non) à cette invite, reproduisant le comportement antérieur. L'option -y ne répond pas automatiquement à cette question.

Solution : aucune