이번에 서버에 Tesla K40m 2개를 추가한후에 그래픽드라이버를 설치하는데 오류가 생겨서 일주일을 고생하다 질문을 드립니다.
환경은
서버 : HP DL380p
OS : 우분투 14.04.1 LTS
그래픽카드 : Tesla K40m 두개입니다.
01:00.1 VGA compatible controller: Matrox Electronics Systems Ltd. MGA G200EH
04:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev a1)
24:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev a1)
lspci로 인식은 하고 있는거 같은데 설치 에러가 납니다.
처음은 lightdm을 끄고 드라이버 설치파일의 실행권한을 쓰기권한을 주고 설치를했는데
이런 에러가 발생했습니다.
Kernel module load error: No such device
Kernel messages:
[ 2846.343666] [<ffffffffa031f2c4>] nvidia_init_module+0x2c4/0x78a [nvidia]
[ 2846.343695] [<ffffffffa031f79f>] ? nv_drm_init+0x15/0x15 [nvidia]
[ 2846.343723] [<ffffffffa031f825>] nvidia_frontend_init_module+0x86/0x861 [nvidia]
[ 2846.343727] [<ffffffff8100214a>] do_one_initcall+0xfa/0x1b0
[ 2846.343731] [<ffffffff81059903>] ? set_memory_nx+0x43/0x50
[ 2846.343736] [<ffffffff810e275d>] load_module+0x12dd/0x1b40
[ 2846.343739] [<ffffffff810de1e0>] ? store_uevent+0x40/0x40
[ 2846.343742] [<ffffffff810e3136>] SyS_finit_module+0x86/0xb0
[ 2846.343746] [<ffffffff81733d5d>] system_call_fastpath+0x1a/0x1f
[ 2846.343747] ---[ end trace 8d51a9b3ed0ff385 ]---
[ 2846.343788] NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:
[ 2846.343788] NVRM: BAR1 is 0M @ 0x0 (PCI:0000:04:00.0)
[ 2846.343790] NVRM: The system BIOS may have misconfigured your GPU.
[ 2846.343794] nvidia: probe of 0000:04:00.0 failed with error -1
[ 2846.343846] NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:
[ 2846.343846] NVRM: BAR1 is 0M @ 0x0 (PCI:0000:24:00.0)
[ 2846.343853] NVRM: The system BIOS may have misconfigured your GPU.
[ 2846.343867] nvidia: probe of 0000:24:00.0 failed with error -1
[ 2846.343889] Error: Driver 'nvlink' is already registered, aborting...
[ 2846.344317] NVRM: The NVIDIA probe routine failed for 2 device(s).
[ 2846.344319] NVRM: None of the NVIDIA graphics adapters were initialized!
[ 2846.344320] [drm] Module unloaded
[ 2846.344395] NVRM: NVIDIA init module failed!
[ 2846.344902] systemd-udevd[7863]: Failed to apply ACL on /dev/dri/card0: No such file or directory
[ 2846.346540] systemd-udevd[7862]: Failed to apply ACL on /dev/dri/card0: No such file or directory
에러 원인을 찾아보니 nouveau 충돌 문제라기에 블랙리스트에 추가한후에 해도 동일한 문제가 발생하기에
nvidia-current를 설치하면 자동으로 잡아준다는 글을 보고 해보니
여기서 100프로가 된후
이런 에러가 뜹니다.
그래서 nvidia 커널 모듈을 불러오는데
modprobe: ERROR: could not insert 'nvidia_304': No such device
디바이스를 찾을수 없다는 에러 메시지가 나옵니다. 여기까지 진행하고 1주일을 글을 찾아보고 진행하고 OS를 다시 설치하고 진행해도 도저히
해결이 안되어 질문을 드립니다.
답변을 주신다면 정말 감사하겠습니다.