일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 쿠버네티스보안
- kubernetes-ai
- api-key
- macos 터널링
- 쿠버네티스기초
- CKS
- KVM
- AI
- 피카푸클램핑도봉산
- k8s
- 캠핑
- IT
- virt-manager
- 글램핑
- 티스토리챌린지
- k8sgpt
- 오블완
- GPU
- 도봉산글램핑
- 피카푸캠핑도봉산
- 쿠버네티스
- 피카푸글램핑
- CKA
- mac터널링
- kub-ai
- 파드
- karpor
- kubernetes
- POD
- kube-ai
- Today
- Total
마구잡
Ubuntu 20.04 NIC/GPU 못 찾는 문제 본문
4줄 요약
1. /etc/default/grub 부트로더 수정
2. “GRUB_CMDLINE_LINUX_DEFAULT=" 뒤에 "pci=realloc=off"를 아래와 같이 따옴표 안에 추가
3. 저장한뒤 "update-grub" 부트로더 업데이트.
4. OS 재부팅 진행. dmesg 확인 nvidia-smi 확인
광고 클릭은 큰 힘이 됩니다
개요
타 부서에서 GPU 드라이버를 설치했는데도 A100 GPU가 제대로 올라오지 않는 문제가 발생하였다.
드라이버 또한 nvidia 공식 서폿 페이지에서 받거나 "ubuntu-drivers autoinstall" 명령어를 사용하였지만
nvidia-smi 커맨드가 먹통이라고 도움 요청이 들어왔다.
( 이미 일처리 끝낸다음 터미널을 닫아 버려서 스크린샷이 없다.. ㅠㅡㅠ)
대충 nvidia-smi를 치면 device not-found 가 떠버린다.
( 이 글은 driver를 무사히 설치했다는 전제로 따라하셔야 합니다! )
사전 확인 사항
- 커널에 맞는 드라이버 버전인가?
- systemctl isolate multi-user.target 상태인가? ( gnome 아니면 안해도 상관없긴합니다.)
- 여러 드라이버가 설치된건 아닌가?
- 커널이 update 되었지만 리붓 이전의 상태가 아닌가?
- etc/modprobe.d/ 아래에 알맞은 블랙리스트 및 커널설정이 들어갔는가?
- GPU를 알맞게 서버에 실장했는가 ( 생각보다 중요합니다. (
아니 사실상 제일 중요합니다..))
위 6가지 항목이 아니고 OS가 ubuntu 20.04 이상이라면 장치메모리 할당에 문제일 수 있다.
( 이게 구글링으로도 잘 안나오더라.. 구글링 실력의 문제인가? )
대략 dmesg를 통해 확인하면 nvrm이 PCI I/O가 올바르지 않다, BIOS에서 GPU 구성이 잘못되었다
이런식으로 뱉어버린다.
대략 장치가 올라오는 도중 메모리를 뺏어서 그런거라 생각하면 될거같다. ( 모든 장치는 일정 메모리를 할당 받아야 서로 통신이 가능하다.)
위 이미지 처럼 메모리 재할당 옵션을 꺼버린다.
update-grub 명령어를 사용 재부팅한뒤 다시한번 dmesg를 확인해보고 이상없다 싶으면
nvidia-smi를 때려보자!
PS
기본적으로 Redhat 계열 OS는 해당 커널 매개변수가 꺼져있다. 즉 부트로더가 올라오는 도중 메모리를 뺏어가지 않는다는것!