IBM Support

AIX7.1TL4/AIX7.2/AIX7.2.1 アップデート時に PowerHA クラスターノードがクラッシュする

Flashes (Alerts)


Abstract

※2017/4/10 「8.回避策」にバージョンごとの手順を追記しました。 1. 対象のお客様 : AIX 7、PowerHA 7 をご利用のお客様 2.対象ソフトウェア : AIX 7.1、AIX 7.2 3.障害内容 : PowerHA クラスター構成環境においてAIXを以下の該当バージョンへアップデートすると、ノードがクラッシュするなどの問題が起こる可能性があります。

Content

※2017/4/10 「8.回避策」にバージョンごとの手順を追記しました。
※2017/6/1 「3.障害内容」の該当バージョン、「4.発生条件」の修正バージョン、「7.解決策」を更新しました。


1. 対象のお客様 :

AIX 7、PowerHA 7 をご利用のお客様


2.対象ソフトウェア :

AIX 7.1、AIX 7.2


3.障害内容 :

PowerHA クラスター構成環境においてAIXを以下の該当バージョンへアップデートすると、ノードがクラッシュするなどの問題が起こる可能性があります。

AIX 7.1 TL4 Base - SP4
AIX 7.2 TL0 Base - SP4
AIX 7.2 TL1 Base - SP2

( rsct.basic.rte 3.2.1.0 - 3.2.1.11、rsct.basic.rte 3.2.2.0 ) ※ ファイルセット rsct.basic.rte を該当レベルにアップデートする場合も対象です


4.発生条件 :

 障害の発生するバージョン 障害の発生するファイルセットレベル APAR番号 修正バージョン(予定)
 RSCT 3.2.1
 AIX 7.1 TL4 Base - SP1
 AIX 7.2 TL0 Base - SP1
 rsct.basic.rte 3.2.1.0 - rsct.basic.rte 3.2.1.1
   (※ifix にはその他にも重要な修正を含んでいます)
 IV90451 AIX 7.1 TL4 SP5
 AIX 7.2 TL0 SP5
 AIX 7.1 TL4 SP2 - SP3
 AIX 7.2 TL0 SP2 - SP3
 rsct.basic.rte 3.2.1.10 - rsct.basic.rte 3.2.1.11
 RSCT 3.2.2
 AIX 7.2 TL1 Base - SP1 rsct.basic.rte 3.2.2.0 IV90485 AIX 7.2 TL1 SP3

※ 現在、APAR 内に記載されている ftp/https の URL より ifix のダウンロードが可能となっております。
ifix の適用方法などにつきましてはサポート契約(SWMAまたはSTSS)の窓口にお問い合わせください。

IV90451 : POWERHA NODE FAILURE DURING AIX UPDATE
http://www-01.ibm.com/support/docview.wss?uid=isg1IV90451

IV90485 : POWERHA NODE FAILURE DURING AIX UPDATE
http://www-01.ibm.com/support/docview.wss?uid=isg1IV90485


5.原因 :

RSCT 3.2.1/3.2.2 では Group Service サブシステム(cthags)のパスが変更されていますが、このパスにバージョン差異があり、クラスターノード間でコミュニケーションが取れなくなるため。

例)
- AIX 7.1 TL3 SP7
# ps -ef | grep cthags
root 6684800 3670186 0 20:17:38 - 0:00 /usr/sbin/rsct/bin/hagsd cthags <<

AIX 7.1 TL4 SP0 -
# ps -ef | grep cthags
root 8847472 3866832 0 21:13:10 - 0:00 /opt/rsct/bin/hagsd cthags <<



6.障害時の影響範囲 :

システムの意図せぬクラッシュやエラーが発生することがあります。OSのリストアが必要になる場合があります。


7.解決策 :

AIXの現行バージョンやアップデート予定のバージョンに依ります。
  • 既に該当バージョンである場合:

    ifix を適用ください。
  • 該当バージョンへアップデートする場合:

    1) AIX をアップデートする前に、PowerHA を停止した後、CAA を停止します。(「8.回避策」を参照)
    2) AIX バージョンをアップデート後、ifix を適用し、システムを再起動します。
    3) システム再起動後に、PowerHA を起動する前に、CAA を起動します。(「8.回避策」を参照)
  • 該当バージョンを避けられる場合:

    AIX 7100-05/7200-02 または 修正が含まれるAIXバージョンへアップデートをご検討ください。(2017年春頃に出荷予定)


8.回避策 :

AIXをアップデートする前に、PowerHAクラスターサービスを停止後、CAA を停止します。CAAの停止/起動手順は以下の通りです。
(バージョンにより推奨方法が異なります)

<PowerHA 7.1.3 SP01以降、PowerHA7.1.2 SP05以降 の場合>

clmgr コマンドで CAA を停止/起動します。clmgr コマンドでは PowerHAクラスターサービス の停止/起動も含まれます。

- 全ノード上でPowerHA・CAAの停止/起動 (リソース・グループはofflineになります。)
停止:
# /usr/es/sbin/cluster/utilities/clmgr offline cluster STOP_CAA=yes
起動:
# /usr/es/sbin/cluster/utilities/clmgr online cluster START_CAA=yes

- ノード単位でPowerHA・CAAの停止/起動
停止:
# /usr/es/sbin/cluster/utilities/clmgr offline node $(/usr/es/sbin/cluster/utilities/get_local_nodename) STOP_CAA=yes
起動:
# /usr/es/sbin/cluster/utilities/clmgr online node $(/usr/es/sbin/cluster/utilities/get_local_nodename) START_CAA=yes

- ノード単位でPowerHA・CAAの停止/起動 (そのノードで稼働していたリソース・グループを別ノードに引き継ぐ場合)
停止:
# /usr/es/sbin/cluster/utilities/clmgr offline node $(/usr/es/sbin/cluster/utilities/get_local_nodename) MANAGE=move STOP_CAA=yes
起動:
# /usr/es/sbin/cluster/utilities/clmgr online node $(/usr/es/sbin/cluster/utilities/get_local_nodename) START_CAA=yes


<上記以外の場合>

clctrl コマンドで CAA を停止/起動します。

事前作業) smcaactrl を リネーム します ※AIX 714、AIX 720、AIX 721 / PowerHA 環境ではリネーム不要です

実行例:
# mv /usr/es/sbin/cluster/sbin/smcaactrl /usr/es/sbin/cluster/sbin/smcaactrl.org

(以下のメッセージでエラーする可能性があるため)

- JPN
ERROR: ******************************************************************************************************
ERROR: *** STOP_NODE CHECK POWERHA SCRIPT /usr/es/sbin/cluster/sbin/smcaactrl RETURNED ERROR ***
ERROR: *** SEE POWERHA SCRIPT LOGS FOR ERRORS ***
ERROR: ******************************************************************************************************
ERROR: STOP_NODE CHECK Script timed out or returned failure on hacmp125
hacmp125 で、プロトコルに障害があります。 ブート動作は変更されません。
        続行します。

- ENG
ERROR: ******************************************************************************************************
ERROR: *** STOP_NODE CHECK POWERHA SCRIPT /usr/es/sbin/cluster/sbin/smcaactrl RETURNED ERROR ***
ERROR: *** SEE POWERHA SCRIPT LOGS FOR ERRORS ***
ERROR: ******************************************************************************************************
ERROR: STOP_NODE CHECK Script timed out or returned failure on hacmp125
Protocol failed for hacmp125. Boot behavior will not be changed.
        Continuing.

1) OpStateがOnlineである事を確認します

実行例:
# lsrpdomain
Name             OpState RSCTActiveVersion MixedVersions TSPort GSPort
hacmp125_cluster Online  3.1.5.0           Yes           12347  12348

2)CAA ドメインを停止します (# clctrl -stop -n クラスター名 -m ノード名)

実行例:
# clctrl -stop -n hacmp125_cluster -m hacmp125

3) OpStateがOffline に変わった事を確認します

実行例:
# lsrpdomain
Name             OpState RSCTActiveVersion MixedVersions TSPort GSPort
hacmp125_cluster Offline 3.1.5.0           Yes           12347  12348

4) cthagsが操作不可となった事を確認します

実行例:
# lssrc -s cthags
Subsystem         Group            PID          Status
 cthags           cthags                        操作不可

《 システムを再起動し、再起動後PowerHAクラスターサービスを起動する前に、手動でCAA を立ち上げてください 》

1) CAA ドメインを起動します (# clctrl -start -n クラスター名 -m ノード名)

実行例:
# clctrl -start -n hacmp125_cluster -m hacmp125

2) OpStateがOnlineである事を確認します

実行例:
# lsrpdomain
Name             OpState RSCTActiveVersion MixedVersions TSPort GSPort
hacmp125_cluster Online  3.1.5.0           Yes           12347  12348

3) cthagsが活動状態となっている事を確認します

実行例:
# lssrc -s cthags
Subsystem         Group            PID          Status
 cthags           cthags           16121876     活動状態

事後作業) smcaactrl を リネーム します ※事前にリネームした場合、元に戻します

実行例:
# mv /usr/es/sbin/cluster/sbin/smcaactrl.org /usr/es/sbin/cluster/sbin/smcaactrl


(参考)FAQ集 - CAA Domain停止手順/CAA Domain 起動手順
http://www-01.ibm.com/support/docview.wss?uid=jpn1J1012486

注) APAR IV75498・IV76703 の問題があり、clctrl コマンドが失敗する可能性があります。

IV75498: CANNOT MANIPULATE CAA CLUSTER STATE VIA CLCTRL
http://www-01.ibm.com/support/docview.wss?uid=isg1IV75498
※ ifix リクエスト等はサポート契約(SWMAまたはSTSS)の窓口にお問い合わせください。

IV76703: CANNOT MANIPULATE CAA CLUSTER STATE VIA CLCTRL
http://www-01.ibm.com/support/docview.wss?uid=isg1IV76703
※ PowerHA 7.1.2 は既に EOSPS となっておりますので、TLまたは修正が含まれるSP7以降への更新をご検討ください。

以上

[{"Product":{"code":"SWG10","label":"AIX"},"Business Unit":{"code":"BU058","label":"IBM Infrastructure w\/TPS"},"Component":"Not Applicable","Platform":[{"code":"PF002","label":"AIX"}],"Version":"All Versions","Edition":"","Line of Business":{"code":"LOB08","label":"Cognitive Systems"}}]

Historical Number

E94569E7C2BE3EAE492580980026C834

Product Synonym

対象システム:AIX 7.1;AIX 7.2;PowerHA

Document Information

Modified date:
25 September 2022

UID

jpn1J1013343