ติดตั้ง Nvidia Driver และ Fabric Manager สำหรับ NVSwitch บน RHEL/CentOS/Rocky 8 Linux
สำหรับ GPU ที่เป็นการ์ดทั่ว ๆ ไป ติดตั้ง Driver ก็สามารถใช้งานได้แล้ว แต่ถ้าเป็นแพล็ตฟอร์มแบบ HGX หรือ GPU ที่ต่อกันบน NVSwich เช่น เครื่อง HPE Apollo 6500 จะต้องติดตั้งซอฟต์แวร์ fabric-manager เพื่อควบคุม NVSwitch อีกที
https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf
โดยเราจะติดตั้ง Driver Nvidia GPU พร้อม fabric-manager โดยติดตั้งผ่าน dnf จะเป็นวิธีที่ง่ายที่สุด ตามขั้นตอน ดังนี้
- Enable epel repo กับ CentOS-PowerTools
# yum install -y epel-release
# yum install dnf-plugins-core
# yum config-manager — set-enabled powertools - เขียนไฟล์ cuda-rhel8.repo
# vi /etc/yum.repos.d/cuda-rhel8.repo
—
[cuda-rhel8]
name=cuda-rhel8-x86_64
baseurl=https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64
enabled=1
gpgcheck=0
— - ติดตั้ง Driver Nvidia และ fabric-manager
# dnf -y module install nvidia-driver:latest-dkms/fm
# systemctl enable nvidia-fabricmanager
เสร็จแล้ว reboot หนึ่งรอบ สั่งคำสั่ง nvidia-smi topo -m ควรจะเห็น GPU ขึ้นครบ GPU0-GPU7 เห็นเป็น NV12
Warning
Multi-Instance GPUs (MIGX) เป็น Feature สำหรับ GPU A100 ที่จะจำลองเป็นการ์ด Virtual GPU ได้สูงสุดถึง 7 การ์ด แต่เมื่อเปิดใช้งาน NVLink จะใช้งานไม่ได้
สามารถปิด MIGs โดยสั่ง
# nvidia-smi -mig 0
-mig,--multi-instance-gpu=MODE
Enables or disables Multi Instance GPU mode. Only supported on devices based on the NVIDIA Ampere architecture. Requires root. Available arguments are 0|DISABLED or 1|ENABLED.
และ reboot เครื่อง กลับมา สั่ง nvidia-smi topo -m จะเห็นว่า GPU NVLink ขึ้นครบ