Skip to content

启用 GPU 监控

启用 GPU 监控功能

通过配置文件

/opt/nezha/agent/config.yml 文件中启用 gpu 参数:

yaml
gpu: true

修改保存后,重新启动 Agent 服务以使配置生效:

bash
sudo systemctl restart nezha-agent.service

GPU 使用率监控支持

GPU 型号和 GPU 使用率是两个独立的监控项目,获取方式不同:

  1. Windows 和 macOS

    • 支持无依赖获取 GPU 使用率。
    • 支持多品牌显卡(如 NVIDIA、AMD 等)。
  2. Linux

    • 仅支持 NVIDIA 和 AMD 显卡。
    • 需要安装额外的驱动或工具。
      以下为在 Linux 上启用 GPU 使用率监控的具体步骤。

NVIDIA 显卡

依赖工具

NVIDIA 显卡使用 nvidia-smi 工具获取 GPU 使用率。此工具通常随官方驱动一起安装。

注意事项

  • 如果使用非官方驱动(如 nouveau),将无法获取 GPU 使用率。
  • 请确保已正确安装 NVIDIA 官方驱动,并能通过 nvidia-smi 获取 GPU 数据。

AMD 显卡

依赖工具

AMD 显卡使用开源驱动 amdgpu 和工具 rocm-smi 获取 GPU 使用率。

安装方法

以下是主流 Linux 发行版的安装命令:

bash
# Arch Linux
pacman -Sy rocm-smi-lib

# Debian / Ubuntu
apt install rocm-smi

# Fedora / RHEL 8+
dnf install rocm-smi

手动安装 rocm_smi_lib

如果您的系统没有 rocm-smi 的预打包版本,则需要手动编译安装 rocm_smi_lib

环境依赖

确保已安装以下工具:

  • git
  • cmake
  • gcc
安装步骤
  1. Clone 仓库

    bash
    git clone https://github.com/ROCm/rocm_smi_lib
  2. 编译并安装

    bash
    cd rocm_smi_lib
    mkdir -p build
    cd build
    cmake ..
    make -j $(nproc)
    # 安装库文件和头文件,默认安装到 /opt/rocm
    sudo make install