ติดตั้ง Nvidia Driver และ Fabric Manager สำหรับ NVSwitch บน RHEL/CentOS/Rocky 8 Linux

Jetsada Malaisirirat
2 min readAug 17, 2022

--

สำหรับ GPU ที่เป็นการ์ดทั่ว ๆ ไป ติดตั้ง Driver ก็สามารถใช้งานได้แล้ว แต่ถ้าเป็นแพล็ตฟอร์มแบบ HGX หรือ GPU ที่ต่อกันบน NVSwich เช่น เครื่อง HPE Apollo 6500 จะต้องติดตั้งซอฟต์แวร์ fabric-manager เพื่อควบคุม NVSwitch อีกที

https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf

GPU Tesla A100 SXM4A100 smx with NVSwitch

โดยเราจะติดตั้ง Driver Nvidia GPU พร้อม fabric-manager โดยติดตั้งผ่าน dnf จะเป็นวิธีที่ง่ายที่สุด ตามขั้นตอน ดังนี้

  1. Enable epel repo กับ CentOS-PowerTools
    # yum install -y epel-release
    # yum install dnf-plugins-core
    # yum config-manager — set-enabled powertools
  2. เขียนไฟล์ cuda-rhel8.repo
    # vi /etc/yum.repos.d/cuda-rhel8.repo

    [cuda-rhel8]
    name=cuda-rhel8-x86_64
    baseurl=https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64
    enabled=1
    gpgcheck=0
  3. ติดตั้ง Driver Nvidia และ fabric-manager
    # dnf -y module install nvidia-driver:latest-dkms/fm
    # systemctl enable nvidia-fabricmanager

เสร็จแล้ว reboot หนึ่งรอบ สั่งคำสั่ง nvidia-smi topo -m ควรจะเห็น GPU ขึ้นครบ GPU0-GPU7 เห็นเป็น NV12

Warning

Multi-Instance GPUs (MIGX) เป็น Feature สำหรับ GPU A100 ที่จะจำลองเป็นการ์ด Virtual GPU ได้สูงสุดถึง 7 การ์ด แต่เมื่อเปิดใช้งาน NVLink จะใช้งานไม่ได้

สามารถปิด MIGs โดยสั่ง
# nvidia-smi -mig 0

-mig,--multi-instance-gpu=MODE
Enables or disables Multi Instance GPU mode. Only supported on devices based on the NVIDIA Ampere architecture. Requires root. Available arguments are 0|DISABLED or 1|ENABLED.

และ reboot เครื่อง กลับมา สั่ง nvidia-smi topo -m จะเห็นว่า GPU NVLink ขึ้นครบ

--

--