Что делать, если zpool status выдает ошибки контрольной суммы?

zfs bad disk replace

Исследуя причины медленной работы корневых дисков ВМ в зоне OVT2 я обнаружил, что пул ev3 на всех трех серверах выдает ошибки chrecksum.  Причем на hu-ovt-02 ошибки были в приличном количестве (от 3 до 6) и сразу на трех дисках (из 4-х). Кроме того, периодически появлялись ошибки и в логе dmesg

blk_update_request: I/O error, dev sde, sector 890711027

В день таких ошибок было от 5 до 20 в среднем. В /var/log/kern.log наблюдаются ошибки вида:

# tail -n 300 /var/log/kern.log | grep ERR
Jul 27 10:37:34 hu-ovt-02 kernel: [2064757.470600] sd 0:0:1:0: [sdb] tag#1 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK
Jul 27 10:37:34 hu-ovt-02 kernel: [2064757.470601] sd 0:0:1:0: [sdb] tag#8 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK
Jul 27 10:37:34 hu-ovt-02 kernel: [2064757.470628] sd 0:0:1:0: [sdb] tag#5 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK
Jul 27 10:37:35 hu-ovt-02 kernel: [2064758.314705] sd 0:0:1:0: [sdb] tag#2 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK
Jul 27 10:37:35 hu-ovt-02 kernel: [2064758.314708] sd 0:0:1:0: [sdb] tag#18 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK
Jul 27 10:37:35 hu-ovt-02 kernel: [2064758.314719] sd 0:0:1:0: [sdb] tag#3 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK
Jul 27 10:37:35 hu-ovt-02 kernel: [2064758.314744] sd 0:0:1:0: [sdb] tag#14 FAILED Result: hostbyte=DID_SOFT_ERROR driverbyte=DRIVER_OK

Сделал замену этих дисков по этой инструкции

zpool clear ev3 <wwn диска с ошибками>
zpool replace -f ev3 <wwn диска с ошибками> <wwn-нового или исправного пустого диска>

Начался resilvering:

# zpool status ev3
  pool: ev3
state: ONLINE
status: One or more devices is currently being resilvered.  The pool will
        continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
  scan: resilver in progress since Mon Jul 27 14:30:19 2020
    25.8G scanned out of 2.01T at 6.57M/s, 87h47m to go
    12.9G resilvered, 1.26% done
config:

        NAME                          STATE     READ WRITE CKSUM
        ev3                           ONLINE       0     0     0
          mirror-0                    ONLINE       0     0     0
            wwn-0x5000c500b18dd930    ONLINE       0     0     6
            wwn-0x5000c500b18d9485    ONLINE       0     0     3
          mirror-1                    ONLINE       0     0     0
            wwn-0x5000c500b18ee2db    ONLINE       0     0     5
            replacing-1               ONLINE       0     0     0
              wwn-0x5000c500b18de407  ONLINE       0     0     0
              wwn-0x5000c500b18d5dfd  ONLINE       0     0     0  (resilvering)

errors: No known data errors

После окончания процесса замены оказалось, что ошибки не исчезли. Вот в этой статье описано, что ничего не помогало избавиться от ошибок, кроме замены HBA контроллера.