Flashes (Alerts)
Abstract
※2017/4/10 「8.回避策」にバージョンごとの手順を追記しました。 1. 対象のお客様 : AIX 7、PowerHA 7 をご利用のお客様 2.対象ソフトウェア : AIX 7.1、AIX 7.2 3.障害内容 : PowerHA クラスター構成環境においてAIXを以下の該当バージョンへアップデートすると、ノードがクラッシュするなどの問題が起こる可能性があります。
Content
※2017/4/10 「8.回避策」にバージョンごとの手順を追記しました。
※2017/6/1 「3.障害内容」の該当バージョン、「4.発生条件」の修正バージョン、「7.解決策」を更新しました。
1. 対象のお客様 :
AIX 7、PowerHA 7 をご利用のお客様
2.対象ソフトウェア :
AIX 7.1、AIX 7.2
3.障害内容 :
PowerHA クラスター構成環境においてAIXを以下の該当バージョンへアップデートすると、ノードがクラッシュするなどの問題が起こる可能性があります。
AIX 7.1 TL4 Base - SP4
AIX 7.2 TL0 Base - SP4
AIX 7.2 TL1 Base - SP2
( rsct.basic.rte 3.2.1.0 - 3.2.1.11、rsct.basic.rte 3.2.2.0 ) ※ ファイルセット rsct.basic.rte を該当レベルにアップデートする場合も対象です
4.発生条件 :
障害の発生するバージョン | 障害の発生するファイルセットレベル | APAR番号 | 修正バージョン(予定) |
RSCT 3.2.1 | |||
AIX 7.1 TL4 Base - SP1 AIX 7.2 TL0 Base - SP1 | rsct.basic.rte 3.2.1.0 - rsct.basic.rte 3.2.1.1 (※ifix にはその他にも重要な修正を含んでいます) | IV90451 | AIX 7.1 TL4 SP5 AIX 7.2 TL0 SP5 |
AIX 7.1 TL4 SP2 - SP3 AIX 7.2 TL0 SP2 - SP3 | rsct.basic.rte 3.2.1.10 - rsct.basic.rte 3.2.1.11 | ||
RSCT 3.2.2 | |||
AIX 7.2 TL1 Base - SP1 | rsct.basic.rte 3.2.2.0 | IV90485 | AIX 7.2 TL1 SP3 |
※ 現在、APAR 内に記載されている ftp/https の URL より ifix のダウンロードが可能となっております。
ifix の適用方法などにつきましてはサポート契約(SWMAまたはSTSS)の窓口にお問い合わせください。
IV90451 : POWERHA NODE FAILURE DURING AIX UPDATE
http://www-01.ibm.com/support/docview.wss?uid=isg1IV90451
IV90485 : POWERHA NODE FAILURE DURING AIX UPDATE
http://www-01.ibm.com/support/docview.wss?uid=isg1IV90485
5.原因 :
RSCT 3.2.1/3.2.2 では Group Service サブシステム(cthags)のパスが変更されていますが、このパスにバージョンで差異があり、クラスターノード間でコミュニケーションが取れなくなるため。
例)
- AIX 7.1 TL3 SP7
# ps -ef | grep cthags
root 6684800 3670186 0 20:17:38 - 0:00 /usr/sbin/rsct/bin/hagsd cthags <<
AIX 7.1 TL4 SP0 -
# ps -ef | grep cthags
root 8847472 3866832 0 21:13:10 - 0:00 /opt/rsct/bin/hagsd cthags <<
6.障害時の影響範囲 :
システムの意図せぬクラッシュやエラーが発生することがあります。OSのリストアが必要になる場合があります。
7.解決策 :
AIXの現行バージョンやアップデート予定のバージョンに依ります。
- 既に該当バージョンである場合:
ifix を適用ください。
- 該当バージョンへアップデートする場合:
1) AIX をアップデートする前に、PowerHA を停止した後、CAA を停止します。(「8.回避策」を参照)
2) AIX バージョンをアップデート後、ifix を適用し、システムを再起動します。
3) システム再起動後に、PowerHA を起動する前に、CAA を起動します。(「8.回避策」を参照)
- 該当バージョンを避けられる場合:
AIX 7100-05/7200-02 または 修正が含まれるAIXバージョンへアップデートをご検討ください。(2017年春頃に出荷予定)
8.回避策 :
AIXをアップデートする前に、PowerHAクラスターサービスを停止後、CAA を停止します。CAAの停止/起動手順は以下の通りです。
(バージョンにより推奨方法が異なります)
<PowerHA 7.1.3 SP01以降、PowerHA7.1.2 SP05以降 の場合>
clmgr コマンドで CAA を停止/起動します。clmgr コマンドでは PowerHAクラスターサービス の停止/起動も含まれます。
- 全ノード上でPowerHA・CAAの停止/起動 (リソース・グループはofflineになります。)
停止:
# /usr/es/sbin/cluster/utilities/clmgr offline cluster STOP_CAA=yes
起動:
# /usr/es/sbin/cluster/utilities/clmgr online cluster START_CAA=yes
- ノード単位でPowerHA・CAAの停止/起動
停止:
# /usr/es/sbin/cluster/utilities/clmgr offline node $(/usr/es/sbin/cluster/utilities/get_local_nodename) STOP_CAA=yes
起動:
# /usr/es/sbin/cluster/utilities/clmgr online node $(/usr/es/sbin/cluster/utilities/get_local_nodename) START_CAA=yes
- ノード単位でPowerHA・CAAの停止/起動 (そのノードで稼働していたリソース・グループを別ノードに引き継ぐ場合)
停止:
# /usr/es/sbin/cluster/utilities/clmgr offline node $(/usr/es/sbin/cluster/utilities/get_local_nodename) MANAGE=move STOP_CAA=yes
起動:
# /usr/es/sbin/cluster/utilities/clmgr online node $(/usr/es/sbin/cluster/utilities/get_local_nodename) START_CAA=yes
<上記以外の場合>
clctrl コマンドで CAA を停止/起動します。
事前作業) smcaactrl を リネーム します
実行例:
# mv /usr/es/sbin/cluster/sbin/smcaactrl /usr/es/sbin/cluster/sbin/smcaactrl.org
(以下のメッセージでエラーする可能性があるため)
- JPN
ERROR: ******************************************************************************************************
ERROR: *** STOP_NODE CHECK POWERHA SCRIPT /usr/es/sbin/cluster/sbin/smcaactrl RETURNED ERROR ***
ERROR: *** SEE POWERHA SCRIPT LOGS FOR ERRORS ***
ERROR: ******************************************************************************************************
ERROR: STOP_NODE CHECK Script timed out or returned failure on hacmp125
hacmp125 で、プロトコルに障害があります。 ブート動作は変更されません。
続行します。
- ENG
ERROR: ******************************************************************************************************
ERROR: *** STOP_NODE CHECK POWERHA SCRIPT /usr/es/sbin/cluster/sbin/smcaactrl RETURNED ERROR ***
ERROR: *** SEE POWERHA SCRIPT LOGS FOR ERRORS ***
ERROR: ******************************************************************************************************
ERROR: STOP_NODE CHECK Script timed out or returned failure on hacmp125
Protocol failed for hacmp125. Boot behavior will not be changed.
Continuing.
1) OpStateがOnlineである事を確認します
実行例:
# lsrpdomain
Name OpState RSCTActiveVersion MixedVersions TSPort GSPort
hacmp125_cluster Online 3.1.5.0 Yes 12347 12348
2)CAA ドメインを停止します (# clctrl -stop -n クラスター名 -m ノード名)
実行例:
# clctrl -stop -n hacmp125_cluster -m hacmp125
3) OpStateがOffline に変わった事を確認します
実行例:
# lsrpdomain
Name OpState RSCTActiveVersion MixedVersions TSPort GSPort
hacmp125_cluster Offline 3.1.5.0 Yes 12347 12348
4) cthagsが操作不可となった事を確認します
実行例:
# lssrc -s cthags
Subsystem Group PID Status
cthags cthags 操作不可
《 システムを再起動し、再起動後PowerHAクラスターサービスを起動する前に、手動でCAA を立ち上げてください 》
1) CAA ドメインを起動します (# clctrl -start -n クラスター名 -m ノード名)
実行例:
# clctrl -start -n hacmp125_cluster -m hacmp125
2) OpStateがOnlineである事を確認します
実行例:
# lsrpdomain
Name OpState RSCTActiveVersion MixedVersions TSPort GSPort
hacmp125_cluster Online 3.1.5.0 Yes 12347 12348
3) cthagsが活動状態となっている事を確認します
実行例:
# lssrc -s cthags
Subsystem Group PID Status
cthags cthags 16121876 活動状態
事後作業) smcaactrl を リネーム します
実行例:
# mv /usr/es/sbin/cluster/sbin/smcaactrl.org /usr/es/sbin/cluster/sbin/smcaactrl
(参考)FAQ集 - CAA Domain停止手順/CAA Domain 起動手順
http://www-01.ibm.com/support/docview.wss?uid=jpn1J1012486
注) APAR IV75498・IV76703 の問題があり、clctrl コマンドが失敗する可能性があります。
IV75498: CANNOT MANIPULATE CAA CLUSTER STATE VIA CLCTRL
http://www-01.ibm.com/support/docview.wss?uid=isg1IV75498
※ ifix リクエスト等はサポート契約(SWMAまたはSTSS)の窓口にお問い合わせください。
IV76703: CANNOT MANIPULATE CAA CLUSTER STATE VIA CLCTRL
http://www-01.ibm.com/support/docview.wss?uid=isg1IV76703
※ PowerHA 7.1.2 は既に EOSPS となっておりますので、TLまたは修正が含まれるSP7以降への更新をご検討ください。
以上
Historical Number
E94569E7C2BE3EAE492580980026C834
Product Synonym
対象システム:AIX 7.1;AIX 7.2;PowerHA
Was this topic helpful?
Document Information
Modified date:
25 September 2022
UID
jpn1J1013343