故障排除指南

**本文档引用的文件** - [[bi-analysis/cmd/bi-analysis/main.go]](../file/bi-analysis/cmd/bi-analysis/main.go) - [[bi-analysis/configs/application-dev.yaml]](../file/bi-analysis/configs/application-dev.yaml) - [[bi-common/observability/logger/logger.go]](../file/bi-common/observability/logger/logger.go) - [[bi-common/registry/nacos/client.go]](../file/bi-common/registry/nacos/client.go) - [[bi-common/registry/nacos/discovery.go]](../file/bi-common/registry/nacos/discovery.go) - [[bi-common/registry/nacos/registry.go]](../file/bi-common/registry/nacos/registry.go) - [[bi-common/mq/kafkax/consumer.go]](../file/bi-common/mq/kafkax/consumer.go) - [[bi-common/mq/kafkax/config.go]](../file/bi-common/mq/kafkax/config.go) - [[bi-common/database/gormx/config.go]](../file/bi-common/database/gormx/config.go) - [[bi-basic/cmd/server/main.go]](../file/bi-basic/cmd/server/main.go) - [[bi-intra/charts/grafana/README.md]](../file/bi-intra/charts/grafana/readme.md) - [[mcp-server-starrocks/src/mcp_server_starrocks/db_client.py]](../file/mcp-server-starrocks/src/mcp-server-starrocks/db-client.py) - [[scripts/port-forward.sh]](../file/scripts/port-forward.sh) - [[_bmad/bmm/testarch/knowledge/log.md]](../file/bmad/bmm/testarch/knowledge/log.md) - [[_bmad/bmm/testarch/knowledge/error-handling.md]](../file/bmad/bmm/testarch/knowledge/error-handling.md)

简介

本指南面向BI分析平台的运维与开发人员，提供系统性的故障诊断方法与调试技巧。内容涵盖启动失败（依赖服务不可用、配置错误、端口冲突）、性能问题（慢查询、内存/CPU异常）、网络连接问题（服务发现、负载均衡、防火墙）、日志分析与错误解读、各服务模块特定故障模式与解决方案，以及应急响应流程与常用诊断命令。

项目结构

BI分析平台由多语言、多模块构成，包含Go微服务、Python MCP服务、前端与可视化组件，并通过Nacos进行配置与服务治理，Kafka负责消息流，GORM/StarRocks负责数据访问，Grafana提供可观测性。

图表来源

章节来源

核心组件

应用启动与配置
- Kratos应用通过Nacos配置源加载Bootstrap配置，初始化日志、雪花ID、服务注册与业务wireApp。
- bi-basic同样采用Nacos配置源与统一日志初始化。
服务注册与发现
- Nacos客户端封装配置中心与服务发现能力；服务注册/注销与健康实例发现均基于SDK。
消息队列
- Kafka消费者支持健康检查、优雅关闭、单分区/消费者组模式、批量与超时配置。
数据访问
- GORM配置含连接池、慢查询阈值、TLS与DSN拼装，支持StarRocks优化。
观测性
- Grafana通过ARMS Prometheus采集指标，支持ACK集群内置与自定义ServiceMonitor。
查询分析
- Python MCP服务可收集StarRocks查询dump、profile与分析文本，辅助定位慢查询。

章节来源

架构总览

下图展示启动阶段的关键交互：应用解析Nacos配置、初始化日志与注册、构建业务服务并启动。

图表来源

章节来源

详细组件分析

启动与配置组件

配置加载
- 通过Nacos配置源加载application-*.yaml，扫描为Bootstrap结构，随后初始化日志与雪花ID。
日志初始化
- 支持stdout/file/both输出、JSON/text格式、级别过滤、阿里云日志桥接与清理。
服务注册
- 将Nacos注册器注入Kratos，实现服务注册与注销、健康实例发现与订阅。

图表来源

章节来源

服务发现与注册

注册/注销
- 解析Endpoint，提取主机与端口，按serviceName.scheme注册/注销。
发现
- 健康实例与全部实例发现，支持订阅回调。
负载均衡
- 选择一个健康实例作为目标。

图表来源

章节来源

Kafka消费者

健康检查
- 通过Ping校验Broker连通性与可用Broker列表。
运行模式
- 支持单分区与消费者组模式；优雅关闭监听系统信号并等待处理完成。
统计与延迟
- 提供Lag、Stats等指标辅助定位积压。

图表来源

章节来源

数据库与慢查询定位

DSN与TLS
- 支持MySQL/StarRocks，自动拼装DSN，StarRocks优化建议与TLS参数。
慢查询阈值
- GORM日志级别与慢查询阈值可配置，便于识别慢SQL。
Python查询分析
- 通过MCP服务收集query dump、profile与分析文本，辅助定位执行计划问题。

图表来源

章节来源

依赖关系分析

配置与日志
- 应用通过Nacos配置源加载Bootstrap，再初始化日志与雪花ID。
服务治理
- Nacos提供配置中心与服务发现，消费者与注册器均依赖其SDK。
数据与消息
- 数据访问依赖GORM配置；消息消费依赖Kafka消费者封装。
可观测性
- Grafana通过ARMS Prometheus采集指标，支持ACK内置与自定义ServiceMonitor。

图表来源

章节来源

性能考量

指标采集
- Grafana通过ARMS Prometheus采集节点、容器与业务指标，支持自定义ServiceMonitor。
数据库
- GORM慢查询阈值与日志级别可调；StarRocks连接池优化建议启用。
消息队列
- 消费者组模式提升扩展性；合理设置批大小、超时与隔离级别。
Python查询分析
- 使用MCP服务收集profile与analyze结果，定位热点SQL与执行瓶颈。

章节来源