NetWeaver 7.5 failover failure.

ab-mohamed commented 3 years ago

Used cloud platform GCP

Used SLES4SAP version SLES15SP2 for SAP Applications

Used client machine OS Google Cloud Shell

Expected behavior vs observed behavior The Expected behavior - A successful failover means that:

The ASCS service moves from the first node default-netweaver01 to the second node, default-netweaver02.
The ERS Service moves from the second node default-netweaver02 to the first node, default-netweaver01.

Observed behavior: After the failover is completed, the ASCS service moved back to the first node, default-netweaver01 VM.

How to reproduce

Clone the master brunch.
Configure the Terraform variables file.
Execute terraform init and terraform apply --auto-approve commands
The deployment has been completed successfully and the cluster status shows that:
- The ASCS service is working on default-netweaver01 VM.
- The ERS service is working on defualt-netweaver02 VM. Here is the initial cluster status:**
```
default-netweaver01:~ # crm_mon -rnf1
Cluster Summary:
```
- Stack: corosync
- Current DC: default-netweaver01 (version 2.0.4+20200616.2deceaa3a-3.12.1-2.0.4+20200616.2deceaa3a) - partition with quorum
- Last updated: Mon Oct 18 13:28:19 2021
- Last change: Mon Oct 18 10:15:10 2021 by root via cibadmin on default-netweaver02
- 2 nodes configured
- 10 resource instances configured

Node List:

Node default-netweaver01: online:
- Resources:
  - rsc_gcp_stonith_HA1_default-netweaver01 (stonith:fence_gce): Started
  - rsc_sap_HA1_ASCS00 (ocf::heartbeat:SAPInstance): Started
  - rsc_fs_HA1_ASCS00 (ocf::heartbeat:Filesystem): Started
  - rsc_exporter_HA1_ASCS00 (systemd:prometheus-sap_host_exporter@HA1_ASCS00): Started
  - rsc_ip_HA1_ASCS00 (ocf::heartbeat:gcp-vpc-move-route): Started
Node default-netweaver02: online:
- Resources:
  - rsc_ip_HA1_ERS10 (ocf::heartbeat:gcp-vpc-move-route): Started
  - rsc_fs_HA1_ERS10 (ocf::heartbeat:Filesystem): Started
  - rsc_sap_HA1_ERS10 (ocf::heartbeat:SAPInstance): Started
  - rsc_exporter_HA1_ERS10 (systemd:prometheus-sap_host_exporter@HA1_ERS10): Started
  - rsc_gcp_stonith_HA1_default-netweaver02 (stonith:fence_gce): Started

Inactive Resources:

No inactive resources

Migration Summary:

Node: default-netweaver01:
- rsc_exporter_HA1_ERS10: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 10:13:06 2021'

Failed Resource Actions:

rsc_exporter_HA1_ERS10_start_0 on default-netweaver01 'error' (1): call=49, status='complete', exitreason='', last-rc-change='2021-10-18 10:13:06Z', queued=0ms, exec=2255ms


5. Reference to `https://github.com/SUSE/ha-sap-terraform-deployments/issues/779` -> Hotw to Reproduce -> Step 6, I have updated the `SAPInstance` RA configurations to be:

primitive rsc_sap_HA1_ASCS00 SAPInstance \ operations $id=rsc_sap_HA1_ASCS00-operations \ op monitor interval=11 timeout=60 \ op_params on-fail=restart \ params InstanceName=HA1_ASCS00_sapha1as START_PROFILE="/sapmnt/HA1/profile/HA1_ASCS00_sapha1as" AUTOMATIC_RECOVER=false \ meta resource-stickiness=5000 failure-timeout=60 migration-threshold=1 priority=10 primitive rsc_sap_HA1_ERS10 SAPInstance \ operations $id=rsc_sap_HA1_ERS10-operations \ op monitor interval=11 timeout=60 \ op_params on-fail=restart \ params InstanceName=HA1_ERS10_sapha1er START_PROFILE="/sapmnt/HA1/profile/HA1_ERS10_sapha1er" AUTOMATIC_RECOVER=false IS_ERS=true \ meta priority=1000


6. The cluster status remains the same as in step 4.

7. Move the `ASCS` service to the other node, `default-netweaver02`:

default-netweaver01:~ # crm resource move rsc_sap_HA1_ASCS00 force INFO: Move constraint created for rsc_sap_HA1_ASCS00


8.  Wait until the `ASCS` service moves successfully to `default-netweaver02` VM and the `ERS` service moves to `default-netweaver01` VM:

default-netweaver01:~ # crm_mon -rnf1 Cluster Summary:

Stack: corosync
Current DC: default-netweaver01 (version 2.0.4+20200616.2deceaa3a-3.12.1-2.0.4+20200616.2deceaa3a) - partition with quorum
Last updated: Mon Oct 18 13:37:43 2021
Last change: Mon Oct 18 13:35:23 2021 by root via crm_resource on default-netweaver01
2 nodes configured
10 resource instances configured

Node List:

Node default-netweaver01: online:
- Resources:
  - rsc_gcp_stonith_HA1_default-netweaver01 (stonith:fence_gce): Started
  - rsc_sap_HA1_ERS10 (ocf::heartbeat:SAPInstance): Started
  - rsc_fs_HA1_ERS10 (ocf::heartbeat:Filesystem): Started
  - rsc_ip_HA1_ERS10 (ocf::heartbeat:gcp-vpc-move-route): Started
Node default-netweaver02: online:
- Resources:
  - rsc_ip_HA1_ASCS00 (ocf::heartbeat:gcp-vpc-move-route): Started
  - rsc_fs_HA1_ASCS00 (ocf::heartbeat:Filesystem): Started
  - rsc_sap_HA1_ASCS00 (ocf::heartbeat:SAPInstance): Started
  - rsc_gcp_stonith_HA1_default-netweaver02 (stonith:fence_gce): Started

Inactive Resources:

Resource Group: grp_HA1_ASCS00:
- rsc_ip_HA1_ASCS00 (ocf::heartbeat:gcp-vpc-move-route): Started default-netweaver02
- rsc_fs_HA1_ASCS00 (ocf::heartbeat:Filesystem): Started default-netweaver02
- rsc_sap_HA1_ASCS00 (ocf::heartbeat:SAPInstance): Started default-netweaver02
- rsc_exporter_HA1_ASCS00 (systemd:prometheus-sap_host_exporter@HA1_ASCS00): Stopped
Resource Group: grp_HA1_ERS10:
- rsc_ip_HA1_ERS10 (ocf::heartbeat:gcp-vpc-move-route): Started default-netweaver01
- rsc_fs_HA1_ERS10 (ocf::heartbeat:Filesystem): Started default-netweaver01
- rsc_sap_HA1_ERS10 (ocf::heartbeat:SAPInstance): Started default-netweaver01
- rsc_exporter_HA1_ERS10 (systemd:prometheus-sap_host_exporter@HA1_ERS10): Stopped

Migration Summary:

Node: default-netweaver01:
- rsc_exporter_HA1_ERS10: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 10:13:06 2021'
Node: default-netweaver02:
- rsc_exporter_HA1_ASCS00: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 13:36:18 2021'
- rsc_sap_HA1_ERS10: migration-threshold=3 fail-count=1 last-failure='Mon Oct 18 13:36:05 2021'

Failed Resource Actions:

rsc_exporter_HA1_ERS10_start_0 on default-netweaver01 'error' (1): call=49, status='complete', exitreason='', last-rc-change='2021-10-18 10:13:06Z', queued=0ms, exec=2255ms
rsc_exporter_HA1_ASCS00_start_0 on default-netweaver02 'error' (1): call=64, status='complete', exitreason='', last-rc-change='2021-10-18 13:36:18Z', queued=0ms, exec=3000ms
rsc_sap_HA1_ERS10_monitor_11000 on default-netweaver02 'not running' (7): call=54, status='complete', exitreason='', last-rc-change='2021-10-18 13:36:05Z', queued=0ms, exec=0ms

I noticed that rsc_exporter_HA1_ASCS00 and rsc_exporter_HA1_ERS10 RAs are stopped now.

Clear the ASCS RA:

default-netweaver01:~ # crm resource clear rsc_sap_HA1_ASCS00
INFO: Removed migration constraints for rsc_sap_HA1_ASCS00

The ASCS service moves back to the first node, default-netweaver01:


default-netweaver01:~ # crm_mon -rnf1
Cluster Summary:
* Stack: corosync
* Current DC: default-netweaver01 (version 2.0.4+20200616.2deceaa3a-3.12.1-2.0.4+20200616.2deceaa3a) - partition with quorum
* Last updated: Mon Oct 18 13:46:55 2021
* Last change:  Mon Oct 18 13:41:17 2021 by root via crm_resource on default-netweaver01
* 2 nodes configured
* 10 resource instances configured

Node List:

Node default-netweaver01: online:
- Resources:
  - rsc_gcp_stonith_HA1_default-netweaver01 (stonith:fence_gce): Started
  - rsc_sap_HA1_ASCS00 (ocf::heartbeat:SAPInstance): Started
  - rsc_fs_HA1_ASCS00 (ocf::heartbeat:Filesystem): Started
  - rsc_exporter_HA1_ASCS00 (systemd:prometheus-sap_host_exporter@HA1_ASCS00): Started
  - rsc_ip_HA1_ASCS00 (ocf::heartbeat:gcp-vpc-move-route): Started
Node default-netweaver02: online:
- Resources:
  - rsc_ip_HA1_ERS10 (ocf::heartbeat:gcp-vpc-move-route): Started
  - rsc_fs_HA1_ERS10 (ocf::heartbeat:Filesystem): Started
  - rsc_sap_HA1_ERS10 (ocf::heartbeat:SAPInstance): Started
  - rsc_exporter_HA1_ERS10 (systemd:prometheus-sap_host_exporter@HA1_ERS10): Started
  - rsc_gcp_stonith_HA1_default-netweaver02 (stonith:fence_gce): Started

Inactive Resources:

No inactive resources

Migration Summary:

Node: default-netweaver01:
- rsc_sap_HA1_ERS10: migration-threshold=3 fail-count=1 last-failure='Mon Oct 18 13:42:00 2021'
- rsc_exporter_HA1_ERS10: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 10:13:06 2021'
Node: default-netweaver02:
- rsc_exporter_HA1_ASCS00: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 13:36:18 2021'
- rsc_sap_HA1_ERS10: migration-threshold=3 fail-count=1 last-failure='Mon Oct 18 13:36:05 2021'

Failed Resource Actions:

rsc_sap_HA1_ERS10_monitor_11000 on default-netweaver01 'not running' (7): call=76, status='complete', exitreason='', last-rc-change='2021-10-18 13:42:00Z', queued=0ms, exec=0ms
rsc_exporter_HA1_ERS10_start_0 on default-netweaver01 'error' (1): call=49, status='complete', exitreason='', last-rc-change='2021-10-18 10:13:06Z', queued=0ms, exec=2255ms
rsc_exporter_HA1_ASCS00_start_0 on default-netweaver02 'error' (1): call=64, status='complete', exitreason='', last-rc-change='2021-10-18 13:36:18Z', queued=0ms, exec=3000ms
rsc_sap_HA1_ERS10_monitor_11000 on default-netweaver02 'not running' (7): call=54, status='complete', exitreason='', last-rc-change='2021-10-18 13:36:05Z', queued=0ms, exec=0ms

Repeat steps 7, 8, 9, and 10. This time with the help of monitoring the pacemaker and corosync services:

default-netweaver01:~ #  journalctl -u pacemaker -u corosync -f
[...]
Oct 18 14:10:06 default-netweaver01 pacemaker-controld[18686]:  notice: State transition S_IDLE -> S_POLICY_ENGINE
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  warning: Unexpected result (not running) was recorded for monitor of rsc_sap_HA1_ERS10 on default-netweaver01 at Oct 18 13:42:00 2021
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  warning: Unexpected result (error) was recorded for start of rsc_exporter_HA1_ERS10 on default-netweaver01 at Oct 18 10:13:06 2021
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  warning: Unexpected result (error) was recorded for start of rsc_exporter_HA1_ASCS00 on default-netweaver02 at Oct 18 13:36:18 2021
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  warning: Unexpected result (not running) was recorded for monitor of rsc_sap_HA1_ERS10 on default-netweaver02 at Oct 18 13:36:05 2021
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  warning: Forcing rsc_exporter_HA1_ERS10 away from default-netweaver01 after 1000000 failures (max=3)
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  warning: Forcing rsc_exporter_HA1_ASCS00 away from default-netweaver02 after 1000000 failures (max=3)
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Move       rsc_ip_HA1_ASCS00                           ( default-netweaver02 -> default-netweaver01 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Move       rsc_fs_HA1_ASCS00                           ( default-netweaver02 -> default-netweaver01 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Move       rsc_sap_HA1_ASCS00                          ( default-netweaver02 -> default-netweaver01 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Start      rsc_exporter_HA1_ASCS00                     (                        default-netweaver01 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Move       rsc_ip_HA1_ERS10                            ( default-netweaver01 -> default-netweaver02 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Move       rsc_fs_HA1_ERS10                            ( default-netweaver01 -> default-netweaver02 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Move       rsc_sap_HA1_ERS10                           ( default-netweaver01 -> default-netweaver02 )
Oct 18 14:10:06 default-netweaver01 pacemaker-schedulerd[18685]:  notice:  * Start      rsc_exporter_HA1_ERS10                      (                        default-netweaver02 )


default-netweaver01:~ # crm_mon -rnf1
Cluster Summary:
* Stack: corosync
* Current DC: default-netweaver01 (version 2.0.4+20200616.2deceaa3a-3.12.1-2.0.4+20200616.2deceaa3a) - partition with quorum
* Last updated: Mon Oct 18 14:12:20 2021
* Last change:  Mon Oct 18 14:10:06 2021 by root via crm_resource on default-netweaver01
* 2 nodes configured
* 10 resource instances configured

Node List:

Node default-netweaver01: online:
- Resources:
  - rsc_gcp_stonith_HA1_default-netweaver01 (stonith:fence_gce): Started
  - rsc_sap_HA1_ASCS00 (ocf::heartbeat:SAPInstance): Started
  - rsc_fs_HA1_ASCS00 (ocf::heartbeat:Filesystem): Started
  - rsc_exporter_HA1_ASCS00 (systemd:prometheus-sap_host_exporter@HA1_ASCS00): Started
  - rsc_ip_HA1_ASCS00 (ocf::heartbeat:gcp-vpc-move-route): Started
Node default-netweaver02: online:
- Resources:
  - rsc_ip_HA1_ERS10 (ocf::heartbeat:gcp-vpc-move-route): Started
  - rsc_fs_HA1_ERS10 (ocf::heartbeat:Filesystem): Started
  - rsc_sap_HA1_ERS10 (ocf::heartbeat:SAPInstance): Started
  - rsc_exporter_HA1_ERS10 (systemd:prometheus-sap_host_exporter@HA1_ERS10): Started
  - rsc_gcp_stonith_HA1_default-netweaver02 (stonith:fence_gce): Started

Inactive Resources:

No inactive resources

Migration Summary:

Node: default-netweaver01:
- rsc_sap_HA1_ERS10: migration-threshold=3 fail-count=2 last-failure='Mon Oct 18 14:10:53 2021'
- rsc_exporter_HA1_ERS10: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 10:13:06 2021'
Node: default-netweaver02:
- rsc_exporter_HA1_ASCS00: migration-threshold=3 fail-count=1000000 last-failure='Mon Oct 18 13:36:18 2021'
- rsc_sap_HA1_ERS10: migration-threshold=3 fail-count=1 last-failure='Mon Oct 18 13:36:05 2021'

Failed Resource Actions:

rsc_sap_HA1_ERS10_monitor_11000 on default-netweaver01 'not running' (7): call=104, status='complete', exitreason='', last-rc-change='2021-10-18 14:10:53Z', queued=0ms, exec=0ms
rsc_exporter_HA1_ERS10_start_0 on default-netweaver01 'error' (1): call=49, status='complete', exitreason='', last-rc-change='2021-10-18 10:13:06Z', queued=0ms, exec=2255ms
rsc_exporter_HA1_ASCS00_start_0 on default-netweaver02 'error' (1): call=64, status='complete', exitreason='', last-rc-change='2021-10-18 13:36:18Z', queued=0ms, exec=3000ms
rsc_sap_HA1_ERS10_monitor_11000 on default-netweaver02 'not running' (7): call=54, status='complete', exitreason='', last-rc-change='2021-10-18 13:36:05Z', queued=0ms, exec=0ms

Best regards, Ab

yeoldegrove commented 3 years ago

This should be fixed in https://github.com/SUSE/sapnwbootstrap-formula/pull/88

yeoldegrove commented 3 years ago

realted to of #712

ab-mohamed commented 3 years ago

Thanks, @yeoldegrove, for the quick update.

How can I use the mentioned fix in my deployment? I am using the master brunch and ha_sap_deployment_repo = "https://download.opensuse.org/repositories/network:/ha-clustering:/sap-deployments:/v7/" repo.

Best regards, Ab

yeoldegrove commented 3 years ago

@ab-mohamed sapnwbootstrap-formula-0.6.7+git.1630666671.a8b69d3 was just released in "https://download.opensuse.org/repositories/network:/ha-clustering:/sap-deployments:/v7/". Please have a look if this resolves you issue.

ab-mohamed commented 3 years ago

@yeoldegrove, Thank you for your release which fixes this issue.

You can close this issue. :)

Best regards, Ab

SUSE / ha-sap-terraform-deployments

NetWeaver 7.5 failover failure. #780