启用 GPU 监控
启用 GPU 监控功能
通过配置文件
在 /opt/nezha/agent/config.yml
文件中启用 gpu
参数:
yaml
gpu: true
修改保存后,重新启动 Agent 服务以使配置生效:
bash
sudo systemctl restart nezha-agent.service
GPU 使用率监控支持
GPU 型号和 GPU 使用率是两个独立的监控项目,获取方式不同:
Windows 和 macOS
- 支持无依赖获取 GPU 使用率。
- 支持多品牌显卡(如 NVIDIA、AMD 等)。
Linux
- 仅支持 NVIDIA 和 AMD 显卡。
- 需要安装额外的驱动或工具。
以下为在 Linux 上启用 GPU 使用率监控的具体步骤。
NVIDIA 显卡
依赖工具
NVIDIA 显卡使用 nvidia-smi
工具获取 GPU 使用率。此工具通常随官方驱动一起安装。
注意事项
- 如果使用非官方驱动(如
nouveau
),将无法获取 GPU 使用率。 - 请确保已正确安装 NVIDIA 官方驱动,并能通过
nvidia-smi
获取 GPU 数据。
AMD 显卡
依赖工具
AMD 显卡使用开源驱动 amdgpu
和工具 rocm-smi
获取 GPU 使用率。
安装方法
以下是主流 Linux 发行版的安装命令:
bash
# Arch Linux
pacman -Sy rocm-smi-lib
# Debian / Ubuntu
apt install rocm-smi
# Fedora / RHEL 8+
dnf install rocm-smi
手动安装 rocm_smi_lib
如果您的系统没有 rocm-smi
的预打包版本,则需要手动编译安装 rocm_smi_lib
。
环境依赖
确保已安装以下工具:
git
cmake
gcc
安装步骤
Clone 仓库:
bashgit clone https://github.com/ROCm/rocm_smi_lib
编译并安装:
bashcd rocm_smi_lib mkdir -p build cd build cmake .. make -j $(nproc) # 安装库文件和头文件,默认安装到 /opt/rocm sudo make install