长事务导致MySQL MGR集群异常

yejr

1. 尝试调大 group_replication_transaction_size_limit=750000000 值，看起来应该是最大事上限导致失败，这个最大支持2G，可以先跳到2G上限试试。
2. MGR多节点间通信及大事务的影响可参考文档： https://gitee.com/GreatSQL/Great ... deep-dive-mgr-11.md 。
3. 大事务导致MGR通信失败，也会导致节点间通信异常，在频繁断开时，会影响选主。
4. 建议升级到GreatSQL 8.0.32-25最新版本，GreatSQL对MGR做了相当多的底层改造和完善，运行MGR会更稳定可靠，详见： https://greatsql.cn/docs/8032-25 ... enhance/5-2-ha.html。

yejr

通过 select * from performance_schema.replication_group_members 查看所有成员的member_state都为online。但此时其他表的数据无法写入。
====
这要在每个节点上查询这个状态，只查一个节点可能不准确，因为你的网络频繁断开，在查询节点看起来可能都还是好的，但在其他节点上看起来，该节点却可能已经失联了，或者进入被怀疑（SUSPICION）状态了。

通过 mysql client 执行kill 命令，操作后，事务长时间处理 killed的状态，但无法真正的结束，此时集群状态查询，原主节点为 unreachable，其他节点为online。
====
同上，kill事务后，也要通知其他节点回滚，但因为节点间通信非常不稳定，所以一直处于killed状态而不能真正结束。

归根结底，几点建议：
1. 确保各节点间网络【高效】、【稳定】。
2. 尽量少用大事务，需要大事务时，可以用循环的思路切成多个小事务运行。
3. 使用GreatSQL来跑MGR。

[已解决] 长事务导致MySQL MGR集群异常

助人雷锋

社区智多星

勤学好问（铜）

好评如潮（铜）

备受瞩目（铜）