nvidia-smi 命令详解

nvidia-smi 是 NVIDIA System Management Interface 的缩写。

1. 实时监控核心指标（基础必备）

watch -n 1 nvidia-smi

nvidia-smi pmon -i 0 -s um 1

nvidia-smi -q

sudo nvidia-smi --gpu-reset

nvidia-smi --query-gpu=index,timestamp,name,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv

作用：以 CSV 格式输出指定指标，便于用脚本（Python、Shell）解析和记录，用于构建自动化监控系统。
常用字段扩展：
- power.draw：当前功耗
- clocks.gr：显卡核心时钟频率
- clocks.mem：显存时钟频率
- ecc.errors.corrected.volatile.total：累计纠错 ECC 错误数

nvidia-smi --query-gpu=timestamp,name,temperature.gpu,utilization.gpu,utilization.memory,memory.used,memory.total --format=csv -l 1

持续监控并记录到文件：

nvidia-smi --query-gpu=timestamp,utilization.gpu,memory.used,temperature.gpu --format=csv -l 1 > gpu_log.csv

查看进程的父进程信息（找出是谁启动了占用 GPU 的进程）：
```
nvidia-smi --query-compute-apps=pid,process_name,used_memory --format=csv
```
然后使用 pstree -p <PID> 查看进程树。

THE END