Skip to content

启用 GPU 监控

GPU 监控是哪吒监控 v0.17.x 引入的新功能,使用前请检查您的 Dashboard 版本是否为 v0.17.2+ / Agent 版本是否为 v0.17.0+。

启用

通过启动参数

在 Agent 运行参数后添加 --gpu 即可。例如:

bash
/opt/nezha/agent/nezha-agent -s example.com:5555 -p example --gpu

通过配置文件

执行以下命令修改 Agent 配置文件以启用 GPU 监控:

bash
/opt/nezha/agent/nezha-agent edit

在返回的互动菜单中选择启用 GPU 功能即可。

打开 GPU 占用率监控支持

GPU 型号与 GPU 使用率为两个不同的监控项目,使用了不同实现获取。

其中 Windows 和 macOS 支持无依赖获取 GPU 使用率,并支持多个品牌显卡;

Linux 平台则仅支持 NVIDIA / AMD 显卡,且需要安装额外依赖。

以下将介绍如何在 Linux 上为 NVIDIA / AMD 显卡启用 GPU 使用率监控。

NVIDIA

NVIDIA 显卡获取 GPU 使用率需要用到 nvidia-smi 工具,一般为官方驱动自带。

如果您使用的是非官方驱动,例如 nouveau,那么将无法获取 GPU 使用率。

AMD

AMD 显卡获取 GPU 使用率需要安装 amdgpu 开源驱动和 rocm-smi 工具。

主流系统均已打包 rocm-smi ,以下是部分系统的安装命令:

bash
# Arch Linux
pacman -Sy rocm-smi-lib

# Debian / Ubuntu
apt install rocm-smi

# Fedora / RHEL 8+
dnf install rocm-smi

如果您的系统并没有相应包,那么则需要手动编译安装 rocm_smi_lib

您的系统需要安装这些依赖:git cmake gcc

首先 Clone rocm_smi_lib 的 git 仓库:

bash
git clone https://github.com/ROCm/rocm_smi_lib

然后进行编译并安装即可。

bash
cd rocm_smi_lib
mkdir -p build
cd build
cmake ..
make -j $(nproc)
# Install library file and header; default location is /opt/rocm
make install