- 故障现象使用分区表进行分区DDL业务,出现业务报错。故障原因分区DDL操作有新增(Add)、删除(Drop)、交换(Exchange)、清空(Truncate)、分割(Split)、合并(Merge)、移动(Move)、重命名(Rename)共8种,不同的分区DDL有对应的规格限制,用户如果试图越过规格限制进行该类操作,会导致业务报错。处理方法在《特性指南》中“分区表 > 分区表运维管理”章... 故障现象使用分区表进行分区DDL业务,出现业务报错。故障原因分区DDL操作有新增(Add)、删除(Drop)、交换(Exchange)、清空(Truncate)、分割(Split)、合并(Merge)、移动(Move)、重命名(Rename)共8种,不同的分区DDL有对应的规格限制,用户如果试图越过规格限制进行该类操作,会导致业务报错。处理方法在《特性指南》中“分区表 > 分区表运维管理”章...
- 故障现象使用分区表进行DQL/DML业务,出现业务报错。故障原因导致分区表DQL/DML业务报错的原因有很多,需要根据具体的报错内容和报错的业务模型,来判断属于哪些场景。常见的可能原因有以下:开启行迁移开关后,并发UPDATE/DELETE报错。关闭行迁移开关后,跨分区更新导致的报错。插入数据无法路由到已有分区导致的报错。处理方法步骤 1 判断是否为开启行迁移开关导致的并发UPDAT... 故障现象使用分区表进行DQL/DML业务,出现业务报错。故障原因导致分区表DQL/DML业务报错的原因有很多,需要根据具体的报错内容和报错的业务模型,来判断属于哪些场景。常见的可能原因有以下:开启行迁移开关后,并发UPDATE/DELETE报错。关闭行迁移开关后,跨分区更新导致的报错。插入数据无法路由到已有分区导致的报错。处理方法步骤 1 判断是否为开启行迁移开关导致的并发UPDAT...
- 故障现象使用分区表进行相关查询业务,SQL性能慢。故障原因可能原因有以下:分区索引失效,顺序扫描导致的SQL性能慢分区表无法进行分区剪枝导致的SQL性能慢SQL计划选择非最优导致的SQL性能慢处理方法步骤 1 判断是否存在索引异常的行为。步骤 2 部分分区DDL如果不带UPDATE GLOBAL INDEX子句,会导致分区表Global索引失效。同时用户也可以使用ALTER ... 故障现象使用分区表进行相关查询业务,SQL性能慢。故障原因可能原因有以下:分区索引失效,顺序扫描导致的SQL性能慢分区表无法进行分区剪枝导致的SQL性能慢SQL计划选择非最优导致的SQL性能慢处理方法步骤 1 判断是否存在索引异常的行为。步骤 2 部分分区DDL如果不带UPDATE GLOBAL INDEX子句,会导致分区表Global索引失效。同时用户也可以使用ALTER ...
- 故障现象逻辑复制槽不推进或推进缓慢。故障原因可能原因有以下:未使用并行解码。已使用并行解码场景:− 无法正确读取日志。− 存在长事务。− 用户未及时反馈接收到的日志位置。处理方法步骤 1 判断当前逻辑复制槽是否使用并行解码。在解码节点上调用SQL函数:select * from gs_get_parallel_decode_status();返回列中parallel_decod... 故障现象逻辑复制槽不推进或推进缓慢。故障原因可能原因有以下:未使用并行解码。已使用并行解码场景:− 无法正确读取日志。− 存在长事务。− 用户未及时反馈接收到的日志位置。处理方法步骤 1 判断当前逻辑复制槽是否使用并行解码。在解码节点上调用SQL函数:select * from gs_get_parallel_decode_status();返回列中parallel_decod...
- 故障现象并行解码场景读取日志线程或解码线程占用内存过多,导致产生内存不足报错。连接解码DN(如果为连接CN解码则需连接某个主DN)使用如下SQL函数查询,发现contextname为ParallelDecodeDispatcher或ParallelDecodeLog的内存上下文占用内存比较多:select contextname, sum(totalsize)/1024/1024 sum, ... 故障现象并行解码场景读取日志线程或解码线程占用内存过多,导致产生内存不足报错。连接解码DN(如果为连接CN解码则需连接某个主DN)使用如下SQL函数查询,发现contextname为ParallelDecodeDispatcher或ParallelDecodeLog的内存上下文占用内存比较多:select contextname, sum(totalsize)/1024/1024 sum, ...
- 故障现象连接数据库解码失败,报拒绝连接错误。故障原因可能原因有以下:用户没有逻辑解码权限。报错日志如下:FATAL: must be system admin or replication role or a member of the gs_role_replication role to use replication slots用户名和用户所在机器的IP未在数据库解码CN或DN节点上... 故障现象连接数据库解码失败,报拒绝连接错误。故障原因可能原因有以下:用户没有逻辑解码权限。报错日志如下:FATAL: must be system admin or replication role or a member of the gs_role_replication role to use replication slots用户名和用户所在机器的IP未在数据库解码CN或DN节点上...
- 故障现象数据库进程内存占比较高。− 长时间占比较高。− 观察监控平台内存占用的变化曲线,无论当前数据库是否有业务在运行,数据库进程内存占总机器内存的比例长时间处于较高状态,且不下降。− 执行作业期间占比较高。− 数据库进程在没有业务执行时,内存使用持续处于较低的状态,当有业务执行时,内存占用升高,待作业执行结束后,内存又恢复到较低的状态。− 内存上涨不下降。− 数据库进程在执行业务过程中内存... 故障现象数据库进程内存占比较高。− 长时间占比较高。− 观察监控平台内存占用的变化曲线,无论当前数据库是否有业务在运行,数据库进程内存占总机器内存的比例长时间处于较高状态,且不下降。− 执行作业期间占比较高。− 数据库进程在没有业务执行时,内存使用持续处于较低的状态,当有业务执行时,内存占用升高,待作业执行结束后,内存又恢复到较低的状态。− 内存上涨不下降。− 数据库进程在执行业务过程中内存...
- 故障现象JDBC连接数据库或者执行业务语句报错,业务成功率下降或者业务持续失败。故障原因可能原因有以下:应用程序到数据库之间网络通信问题。JDBC配置问题。业务逻辑问题。数据库问题。处理方法Read timed out问题步骤 1 查看应用报错日志。如报错为:An I/O error occured while sending to the backend.detail:Read t... 故障现象JDBC连接数据库或者执行业务语句报错,业务成功率下降或者业务持续失败。故障原因可能原因有以下:应用程序到数据库之间网络通信问题。JDBC配置问题。业务逻辑问题。数据库问题。处理方法Read timed out问题步骤 1 查看应用报错日志。如报错为:An I/O error occured while sending to the backend.detail:Read t...
- 故障现象长事务在数据库的表现是session持续时间长,期间可能伴随cpu、内存升高,严重可导致数据库整体响应缓慢,业务无法正常运行。故障原因可能原因有以下:大量的锁竞争。执行了比较耗时的SQL。处理方法步骤 1 登录CN节点,gsql连接数据库。gsql -d postgres -p 8000 -U user -W password -r说明:集中式实例登录主DN节点。步骤 2 ... 故障现象长事务在数据库的表现是session持续时间长,期间可能伴随cpu、内存升高,严重可导致数据库整体响应缓慢,业务无法正常运行。故障原因可能原因有以下:大量的锁竞争。执行了比较耗时的SQL。处理方法步骤 1 登录CN节点,gsql连接数据库。gsql -d postgres -p 8000 -U user -W password -r说明:集中式实例登录主DN节点。步骤 2 ...
- 故障现象base目录占用磁盘空间大,监控页面dbsize增长快,不符合预期。故障原因可能原因有以下:长事务阻止。处理方法步骤 1 登录CN节点,并通过gsql连接数据库。gsql -d postgres -p 40000 -U user -W password -r主备版登录主DN节点。步骤 2 查看数据库大小。select datname, pg_database_size... 故障现象base目录占用磁盘空间大,监控页面dbsize增长快,不符合预期。故障原因可能原因有以下:长事务阻止。处理方法步骤 1 登录CN节点,并通过gsql连接数据库。gsql -d postgres -p 40000 -U user -W password -r主备版登录主DN节点。步骤 2 查看数据库大小。select datname, pg_database_size...
- 故障现象单个或者多个节点出现动态内存使用率超过阈值,动态内存快速上涨等现象,或者业务执行SQL报错:ERROR:memory is temporarily unavailable。故障原因可能原因有以下:会话数上涨。SQL计划缓存增多。内存泄漏。参数设置不合理。处理方法步骤 1 登录DN节点,分别查看DN内存使用情况。gsql -d postgres -p 40000 -U user... 故障现象单个或者多个节点出现动态内存使用率超过阈值,动态内存快速上涨等现象,或者业务执行SQL报错:ERROR:memory is temporarily unavailable。故障原因可能原因有以下:会话数上涨。SQL计划缓存增多。内存泄漏。参数设置不合理。处理方法步骤 1 登录DN节点,分别查看DN内存使用情况。gsql -d postgres -p 40000 -U user...
- 性能类故障 性能类故障
- 故障现象客户反馈,在05:00--10:31之间GaussDB集中式在DN主备切换。适用版本GaussDB全部版本。告警DN主备切换。业务影响业务闪断,1min内恢复。故障原因l 主备切换问题,通常先找到主备切换的节点,即原主DN,新主DN分别是哪个DN。l 然后先从cm_server主、cm_ctl等日志分析,确认主备切换的命令是由cm_server下发还是手动下发。l 最后如... 故障现象客户反馈,在05:00--10:31之间GaussDB集中式在DN主备切换。适用版本GaussDB全部版本。告警DN主备切换。业务影响业务闪断,1min内恢复。故障原因l 主备切换问题,通常先找到主备切换的节点,即原主DN,新主DN分别是哪个DN。l 然后先从cm_server主、cm_ctl等日志分析,确认主备切换的命令是由cm_server下发还是手动下发。l 最后如...
- 故障现象客户进行实例升级,任务流报错,升级失败,如下图所示。适用版本GaussDB全部版本。业务影响管控任务流报错,无影响。内核任务流报错,自动回滚成功,无业务影响,运维功能、备份可能会受影响。内核任务流报错,自动回滚失败,集群状态可能异常,影响业务。故障原因根据报错任务流时间,147秒报错,说明升级任务流可能还没有下发内核,可能在om_agent前置校验阶段报错。处理方法步骤 1 ... 故障现象客户进行实例升级,任务流报错,升级失败,如下图所示。适用版本GaussDB全部版本。业务影响管控任务流报错,无影响。内核任务流报错,自动回滚成功,无业务影响,运维功能、备份可能会受影响。内核任务流报错,自动回滚失败,集群状态可能异常,影响业务。故障原因根据报错任务流时间,147秒报错,说明升级任务流可能还没有下发内核,可能在om_agent前置校验阶段报错。处理方法步骤 1 ...
- 问题现象GaussDB 实例主备切换问题分析1. 16:53:14,DN6002与DN6001断联,同时查看DN 主节点,未发现进程异常重启相关文件生成(ffic_log,core文件)。2. 16:53:15,cms主与dn主节点,网络检查失败。3. 16:53:23,CMS主与DN主节点CMA断联,CMS与CMA的连接超时时间受wal_sender_timout参数控制,默认是超过6s连... 问题现象GaussDB 实例主备切换问题分析1. 16:53:14,DN6002与DN6001断联,同时查看DN 主节点,未发现进程异常重启相关文件生成(ffic_log,core文件)。2. 16:53:15,cms主与dn主节点,网络检查失败。3. 16:53:23,CMS主与DN主节点CMA断联,CMS与CMA的连接超时时间受wal_sender_timout参数控制,默认是超过6s连...
上滑加载中
推荐直播
-
HDC深度解读系列 - Serverless与MCP融合创新,构建AI应用全新智能中枢2025/08/20 周三 16:30-18:00
张昆鹏 HCDG北京核心组代表
HDC2025期间,华为云展示了Serverless与MCP融合创新的解决方案,本期访谈直播,由华为云开发者专家(HCDE)兼华为云开发者社区组织HCDG北京核心组代表张鹏先生主持,华为云PaaS服务产品部 Serverless总监Ewen为大家深度解读华为云Serverless与MCP如何融合构建AI应用全新智能中枢
回顾中 -
关于RISC-V生态发展的思考2025/09/02 周二 17:00-18:00
中国科学院计算技术研究所副所长包云岗教授
中科院包云岗老师将在本次直播中,探讨处理器生态的关键要素及其联系,分享过去几年推动RISC-V生态建设实践过程中的经验与教训。
回顾中 -
一键搞定华为云万级资源,3步轻松管理企业成本2025/09/09 周二 15:00-16:00
阿言 华为云交易产品经理
本直播重点介绍如何一键续费万级资源,3步轻松管理成本,帮助提升日常管理效率!
回顾中
热门标签