- [기고]김성준 한국 델 테크놀로지스 부사장
인공지능(AI)은 방대한 양의 데이터를 실시간으로 처리하고 해석해 의사 결정이나 문제 해결 절차를 개선하고, 보다 정확한 예측 분석을 제공하는 등 수많은 분야에서 혁신을 실현하고 있다.
하지만 AI 기술의 보편화는 컴퓨팅 성능이나 GPU 가속기의 발전과 맞물려 있는 만큼 막대한 전력 소비와 데이터센터 냉각 비용이 큰 문제점으로 대두되고 있다.
지난 10년 동안 CPU 설계의 거듭된 혁신으로 인해 코어 수가 늘어나고 주파수 또한 증가했다.
그 결과 CPU TDP(열 설계 전력)는 불과 몇 세대 만에 거의 두 배로 증가했으며 앞으로도 계속 증가할 것으로 예상된다.
CPU와 마찬가지로 GPU의 전력 소비량도 빠르게 증가하고 있는데, 특히 AI 및 머신 러닝(ML)과 같은 워크로드를 위한 고성능 범용 GPU는 처리 능력을 높이는데 초점이 맞춰져 있는 만큼 전력 소모가 엄청난 속도로 증가하고 있다.
예를 들어, 2021년 엔비디아(NVIDIA) A100 GPU의 전력은 300W였지만, 최신 엔비디아 H100 GPU는 최대 700W를 소비한다.
향후 3년 이내에 GPU의 전력 소비량은 1000W를 돌파할 것이라고 예상된다.
▲ 그림1. CPU 전력 소비량 추이. |
CPU나 GPU의 발열 문제는 프로세서의 설계 외의 방법으로도 개선할 수 있다. AI를 위한 데이터센터에 설치되는 서버에는 팬 및 방열판과 같은 냉각 구성 요소가 설치되는데, 기술의 빠른 발전으로 냉각 효율성 또한 개선되고 있다.
델 테크놀로지스의 지능형 시스템 관리 소프트웨어 ‘iDRAC’은 서버 내부 곳곳의 센서를 지속적으로 모니터링하고 환경을 학습하여 최소한의 팬 사용으로 최적의 냉각을 보장한다.
이같은 기능은 ‘델 스마트 쿨링’ 기술의 일환으로서 총 전력 수요가 증가하더라도 냉각에 소비되는 전력은 최소화하는데 일조한다.
델 스마트 쿨링 기술의 핵심은 각 서버 내 발열 구성 요소에 액체 냉각수를 펌핑하는 ‘다이렉트 리퀴드 쿨링(Direct Liquid Cooling, 이하 DLC)’이다.
2018년 HPC 냉각을 위해 개발된 이 솔루션은 지속적인 업데이트를 통해 3세대 버전까지 개발됐으며, 현재 델의 16세대 서버 중 12종이 DLC 지원 플랫폼으로 제공되고 있다.
이제는 HPC를 넘어 폭넓은 사용 환경에서 DLC 방식을 통해 냉각 비용을 낮추고, 공간을 절약하며, 제한된 데이터센터 전력을 냉각이 아닌 컴퓨팅에 더 많이 할당할 수 있게 됐다.
◆액체 냉각의 원리
액체 냉각은 액체 냉각수를 사용해 서버 내부의 일부 또는 모든 구성 요소에서 열을 제거하는 열 추출 방식이다.
델의 DLC3000 및 DLC7000 솔루션의 경우 CDU(냉각수 분배 장치)가 냉각수 루프 주위로 액체를 순환시켜 서버에서 열을 수집하고 전달한다.
그 다음 열 교환기를 통해 설비 냉각수가 열을 데이터 센터 밖으로 운반한다.
델 파워엣지 서버에는 서버의 CPU 및 GPU와 직접 접촉하는 특수 설계된 액체 냉각 냉각판이 탑재됐다.
▲ 그림2. 일반적인 DLC 솔루션의 구성 요소. |
◆다이렉트 리퀴드 쿨링의 6가지 주요 이점
액체 냉각은 공기 냉각(공랭식)에 비해 열을 모으고 이동하는 데 훨씬 더 효율적이며, 액체는 공기보다 4배 더 많은 열을 보전한다.
DLC는 기존의 공랭식 냉각 방식에 비해 아래와 같은 다양한 이점을 제공하므로 최신 데이터센터에 매력적인 옵션이다.
- 컴퓨팅 집적도 향상 = DLC를 사용하면 공기 흐름을 위한 공간을 설계할 필요가 없으므로 데이터 센터의 서버 집적도를 높일 수 있다.
예를 들어, 델 파워엣지 C6620의 경우 DLC 방식이 공냉식과 비교해 랙당 58% 더 많은 CPU 코어를 구축할 수 있다.
- 균일한 냉각 = 액체 냉각 방식은 서버 내부에서 특정 부위에 열이 집중되는 현상을 방지하고, 서버 전체에 냉각을 고르게 분배한다.
- 서버 성능 강화 = 액체 냉각을 통해 서버를 적정 온도로 유지하면 성능이 향상되고 장애 발생률도 낮출 수 있다.
과열로 인해 CPU에서 기기 손상을 막고자 클럭 및 전압을 강제로 낮추는 ‘서멀 스로틀링(thermal throttling)’을 적용하면 서버 성능이 저하될 수 있기 때문이다.
- 에너지 절감 = DLC 방식은 에너지 집약적인 공조 시스템과 고속 팬의 필요성을 줄임으로써 에너지를 절약하고 전력 사용 효율 비율(PUE)을 낮춰 운영 비용을 절감한다.
- 지속 가능성 제고 = 전력 사용을 낮춰 탄소 발자국을 줄일 수 있다.
- 소음 감소 = DLC 방식은 일반적으로 공냉식 시스템보다 더 조용하다. 서버 내부의 팬의 속도도 훨씬 낮을 뿐더러 데이터센터 내의 공기흐름을 제어하는 장치 또한 공냉식보다 작업량이 훨씬 적기 때문이다.
▲ 그림3. 델 DLC 솔루션의 하드웨어 구성요소. |
델 파워엣지 서버에 통합할 수 있는 DLC3000 및 7000 랙 솔루션은 액체 냉각 시스템을 선택하고 설치하는데 따르는 복잡성과 리스크를 제거한다.
이 솔루션에는 랙, 서버에 냉각수를 분배하는 랙 매니폴드, 공장에서부터 제조돼 델 DLC 지원 랙 및 모듈형 서버에 적합한 랙 내 CDU 등이 포함된다.
DLC3000 냉각 솔루션이 통합된 랙은 제작 및 테스트를 거쳐 고객의 데이터 센터 현장으로 배송되며, 델 전문 서비스 팀에서 랙을 설비 냉각수 공급 장치에 연결하고 완전한 작동을 지원한다.
한편 ‘델 오픈매니지 엔터프라이즈 파워 매니저(Dell OpenManage Enterprise Power Manager)’를 이용하면 서버 전력과 열 데이터를 모니터링하고 관리할 수 있다.
파워매니저는 각 서버의 iDRAC에서 제공하는 정보를 수집해 개별 서버, 랙, 행 또는 전체 데이터 센터로 보고함으로써, 서버 전력 효율을 검토하고 특정 부위에 열이 집중되는 이상 징후를 찾을 수 있도록 한다.
전력 제한 및 탄소 배출량 계산 등의 기능과 더불어 DLC 누수 및 열 이벤트에 대응하는 자동화 기능도 내장되어 있다.
AI 및 컴퓨팅 수요의 급증과 더불어 CPU 및 GPU 성능이 빠르게 향상되는 가운데, 액체 냉각을 사용하는 비중도 늘어나고 있으며, 데이터센터에서 보다 중요한 역할을 하게 될 것으로 전망된다.
액체 냉각은 많은 이점을 제공하지만 효과적으로 구현하기 위해서는 철저한 계획과 적절한 설치 작업이 필요한 만큼 델과 같이 신뢰할 수 있는 파트너와 함께 하는 것이 현명하다.
<글 = 김성준 한국 델 테크놀로지스 부사장>
김성준 한국 델 테크놀로지스 부사장 webmaster@bikorea.net