과학

엔비디아 블랙웰 과열 문제 발생…구글·메타·MS 등 우려 제기


  • 이직 기자
    • 기사
    • 프린트하기
    • 크게
    • 작게

    입력 : 2024-11-18 09:13:54

    엔비디아 차세대 AI 칩 블랙웰(Blackwell)이 대용량 서버 랙에 설치될 때 과열되는 문제가 발생했다고 인포메이션이 17일(현지시간) 보도했다. 이번 문제로 인해 설계 변경과 생산 지연이 발생했으며, 구글, 메타, 마이크로소프트 등 주요 고객사들은 블랙웰 서버를 제때 배포할 수 있을지 우려를 제기한 것으로 알려졌다.

    ▲ 지난 13일 도쿄에서 열린 AI 서밋 재팬에서 엔비디아의 첨단 AI 슈퍼컴퓨팅 플랫폼인 블랙웰을 선보이고 있는 젠슨 황 ©엔비디아

    블랙웰 칩은 이전 모델 대비 30배 빠르게 응답을 처리할 수 있도록 2개의 실리콘 칩을 결합한 형태로 설계되었다.

    엔비디아는 이번 과열 문제를 해결하기 위해서 고객사에 랙 설계를 여러 번 변경하도록 요청했다고 문제 해결에 참여한 엔비디아 직원들, 고객, 공급업체들이 전했다. 보도에 따르면 블랙웰 GPU는 최대 72개의 칩을 수용하는 서버 랙에 동시 연결할 때 과열 문제가 발생한 것이라고 한다.

    엔비디아 대변인은 로이터와의 인터뷰에서 “엔비디아는 주요 클라우드 서비스 업체들과 이번 문제 해결을 위해서 긴밀히 협력 중이며, 이번 엔지니어링 수정은 일반적이며 이미 예상된 일”이라고 밝혔다.

    이전 엔비디아는 프로세서 수율을 낮추는 설계 결함으로 인해 블랙웰 생산을 연기했었다. 그 결과 블랙웰 GPU의 최종 개선 버전은 10월 말에야 대량 생산에 돌입했으며, 이는 1월 말부터 출하가 가능한 상황이다.

    구글, 메타, 마이크로소프트 등 거대 기술 기업 등은 엔비디아 GPU를 사용해 가장 강력한 대형 언어 모델(LLM)을 학습해 왔다.


    베타뉴스 이직 기자 (leejik@betanews.net)
    Copyrights ⓒ BetaNews.net