마구잡

Ubuntu 20.04 NIC/GPU 못 찾는 문제 본문

운영체제

Ubuntu 20.04 NIC/GPU 못 찾는 문제

MAGUJOB 2023. 11. 20. 17:57
728x90

4줄 요약
1. /etc/default/grub 부트로더 수정
2. “GRUB_CMDLINE_LINUX_DEFAULT=" 뒤에 "pci=realloc=off"를 아래와 같이 따옴표 안에 추가
3. 저장한뒤 "update-grub" 부트로더 업데이트.
4. OS 재부팅 진행. dmesg 확인 nvidia-smi 확인

 

광고 클릭은 큰 힘이 됩니다

728x90

개요

타 부서에서 GPU 드라이버를 설치했는데도 A100 GPU가 제대로 올라오지 않는 문제가 발생하였다.

드라이버 또한 nvidia 공식 서폿 페이지에서 받거나 "ubuntu-drivers autoinstall" 명령어를 사용하였지만

nvidia-smi 커맨드가 먹통이라고 도움 요청이 들어왔다.

( 이미 일처리 끝낸다음 터미널을 닫아 버려서 스크린샷이 없다.. ㅠㅡㅠ)

 

대충 nvidia-smi를 치면 device not-found 가 떠버린다.

( 이 글은 driver를 무사히 설치했다는 전제로 따라하셔야 합니다! )


사전 확인 사항

  1. 커널에 맞는 드라이버 버전인가?
  2. systemctl isolate multi-user.target 상태인가? ( gnome 아니면 안해도 상관없긴합니다.)
  3. 여러 드라이버가 설치된건 아닌가?
  4. 커널이 update 되었지만 리붓 이전의 상태가 아닌가?
  5. etc/modprobe.d/ 아래에 알맞은 블랙리스트 및 커널설정이 들어갔는가?
  6. GPU를 알맞게 서버에 실장했는가 ( 생각보다 중요합니다. (아니 사실상 제일 중요합니다..))

 

위 6가지 항목이 아니고 OS가 ubuntu 20.04 이상이라면 장치메모리 할당에 문제일 수 있다.

( 이게 구글링으로도 잘 안나오더라.. 구글링 실력의 문제인가? )

 

대략 dmesg를 통해 확인하면 nvrm이 PCI I/O가 올바르지 않다, BIOS에서 GPU 구성이 잘못되었다

이런식으로 뱉어버린다.

 

대략 장치가 올라오는 도중 메모리를 뺏어서 그런거라 생각하면 될거같다. ( 모든 장치는 일정 메모리를 할당 받아야 서로 통신이 가능하다.)


/etc/default/grub 부트로더


위 이미지 처럼 메모리 재할당 옵션을 꺼버린다.

 

update-grub 명령어를 사용 재부팅한뒤 다시한번 dmesg를 확인해보고 이상없다 싶으면

nvidia-smi를 때려보자!


PS

기본적으로 Redhat 계열 OS는 해당 커널 매개변수가 꺼져있다. 즉 부트로더가 올라오는 도중 메모리를 뺏어가지 않는다는것!

728x90