omniture

화웨이와 PCL, 클라우드 브레인 II 구축

Huawei
2019-12-05 13:31 1,390

-- 1000 PFLOPS 규모에서 AI 클러스터를 위한 새로운 장을 열어

-- PCL, 화웨이 Atlas 900 AI 클러스터를 채택하고, Kunpeng 컴퓨팅 산업 촉진에 박차

(선전, 중국 2019년 12월 4일 PRNewswire=연합뉴스) 지난 11월 29일, 화웨이와 Peng Cheng Laboratory (PCL)가 Peng Cheng 클라우드 브레인 II의 1단계를 공동 발표하고, 1000 petaFLOPS (PFLOPS) 규모의 AI 클러스터를 구축하기 위한 여정을 공식적으로 시작했다. 이는 Kunpeng 컴퓨팅 산업을 위한 과학연구 분야의 새로운 이정표다. 클라우드 브레인 II의 초석은 화웨이 Atlas 900 AI 클러스터다. 이 AI 클러스터는 화웨이 Kunpeng과 Ascend 프로세서로 구동된다. Atlas 900은 클라우드 브레인 II가 안정적인 컴퓨팅 파워를 발휘할 수 있도록 하고, 컴퓨터 비전, 자연어, 자율주행, 스마트 운송 및 스마트 헬스케어 같은 AI 분야에서 기본 연구와 탐색을 지원한다. Peng Cheng 클라우드 브레인의 컴퓨팅 파워는 현재 100 PFLOPS며, 내년에 1000 PFLOPS 이상으로 확장될 예정이다.

개장식에서 화웨이 선임부사장이자 화웨이 클라우드 & AI 부문 제품 및 서비스 사장인 Hou Jinlong(왼쪽)과 Peng Cheng Lab 소장 Gao Wen(오른쪽)
개장식에서 화웨이 선임부사장이자 화웨이 클라우드 & AI 부문 제품 및 서비스 사장인 Hou Jinlong(왼쪽)과 Peng Cheng Lab 소장 Gao Wen(오른쪽)

 

Atlas 900을 소개하는 화웨이 지능형 컴퓨팅 비즈니스 사장 Michael Ma
Atlas 900을 소개하는 화웨이 지능형 컴퓨팅 비즈니스 사장 Michael Ma

화웨이 선임부사장이자 화웨이 클라우드 & AI 부문 제품 및 서비스 사장 Hou Jinlong은 "올 9월, 자사는 Kunpeng + Ascend 듀얼 엔진 컴퓨팅 전략을 개시했다"라며 "자사는 이 전략에서 영감을 받아 세계에 궁극적인 컴퓨팅 파워를 제공하는 데 전념하고 있다. 또한, 세계에서 가장 빠른 AI 훈련 클러스터인 Atlas 900도 출시했다"고 말했다.

이어 그는 "오늘 Peng Cheng 클라우드 브레인 II 프로젝트에 Atlas 900가 선정된 것에 자부심을 느낀다"라며 "클라우드 브레인 II는 업계 주도적인 AI 연구 플랫폼"이라고 설명했다. 그는 "PCL은 수많은 학술위원과 AI 연구 인재를 영입했다"면서 "자사는 앞으로 PCL과 힘을 모아 지능형 세상을 위한 중요한 과학 연구의 선두에 설 계획"이라고 덧붙였다.

또한, Hou 부사장은 "현재 자사와 PCL은 클라우드 브레인 II 1단계를 구축 중"이라며 "PCL과의 공동 노력을 통해 조만간 1000 PFLOPS 규모의 클라우드 브레인 II로 나아갈 길을 만들 것이다. 또한, 클라우드 브레인 II가 세계 굴지의 AI 연구 플랫폼이 될 것으로 확신한다"고 언급했다.

화웨이 지능형 컴퓨팅 비즈니스 사장 Michael Ma는 "자사는 Ascend 프로세서를 기반으로 하는 Atlas AI 컴퓨팅 플랫폼을 구축하고, 모듈, 카드, 엣지 스테이션, AI 서버 및 클러스터로 구성된 광범위한 포트폴리오를 제공한다"라며 "자사의 올-시나리오 AI 기반시설은 클라우드-엣지-장치를 커버하며, 풀-파이프라인 추론과 딥 러닝을 위한 훈련을 지원한다"고 말했다.

이어 Ma 대표는 "자사의 플래그십 Atlas 제품인 Atlas 900은 세계 AI 컴퓨팅 부문의 정점"이라며 "Atlas 900과 클라우드 브레인 II의 결합으로 1000 PFLOPS 규모의 AI 클러스터를 위한 새로운 장이 열리고, 여러 산업에서 더 빠른 지능형 변혁을 도모할 우수한 컴퓨팅 파워가 전개될 것"이라고 덧붙였다.

Peng Cheng 클라우드 브레인은 AI 분야의 핵심적인 기술 시설이자, AI 기술의 변경을 탐색하기 위한 기본적인 연구 플랫폼이다. 현재 Peng Cheng 클라우드 브레인은 100 PFLOPS에 달하는 AI 컴퓨팅 파워를 자랑한다. 내년에 클라우드 브레인 II 프로젝트가 진행되면, 1000 PFLOPS 규모로 확장될 전망이다.

클라우드 브레인 II는 PCL과 화웨이가 공동으로 구축한다. 화웨이의 Kunpeng과 Ascend 프로세서로 구동되는 Atlas 900 AI 클러스터는 우수한 컴퓨팅 파워를 제공한다. PCL은 1000 PFLOPS 규모의 클라우드 브레인 기술을 개발한다.

Atlas 900 AI 클러스터는 10년 넘게 축적된 화웨이의 기술 노하우를 물려받았다. 수천 개의 Ascend 910 AI 프로세서로 구성된 Atlas 900은 59.8초 만에 ResNet 이미지 분류 모델 훈련을 완료한다. 이는 동일한 정밀도 조건에서 기존 세계 기록보다 10초 더 빠른 기록이다. Atlas 900의 강력한 컴퓨팅 역량은 천문학적 탐색, 날씨 예보, 자율주행 및 석유 탐사 같은 과학 연구와 기술 혁신에서 차이를 만든다. Atlas 900의 주요 특징은 다음과 같다.

- 강력한 컴퓨팅: 수천 개의 Ascend 910 AI 프로세서를 결합하는 Atlas 900은 절반 정밀도(FP 16)에서 256~1024 PFLOPS를 제공한다. 이는 PC 500,000대의 컴퓨팅 파워에 해당한다. SoC 설계는 AI 컴퓨팅, 다목적 컴퓨팅 및 I/O 기능성을 통합해 훈련 효율성을 효과적으로 높인다.

- 구속 클러스터망: Atlas 900은 '화웨이 Cache Coherence System (HCCS)', 'PCIe 4.0', '100G RoCE' 등 세 가지 유형의 고속 망 인터페이스를 지원한다. 이를 통해 Atlas 900은 경사 동기화 지연시간을 10~70% 감소시켜 모델 훈련 효율성을 크게 높인다. Atlas 900은 망 전반에 걸쳐 트래픽의 실시간 학습과 훈련을 지원하고자 혁신적인 iLossless 지능형 변환 알고리듬을 이용하며, 이를 통해 패킷 손실률 제로와 포괄적인 마이크로초 지연 시간을 달성한다.

- 궁극적인 열 방산: Atlas 900은 캐비닛 차원의 밀봉 단열 시스템을 사용해 액체 냉각률이 95%가 넘고, 시스템 전원사용 효과(power usage effectiveness, PUE)가 1.1(이상적인 PUE는 1.0) 미만이다.

화웨이는 지금까지 Ascend 910과 310 AI 프로세서를 기반으로 Atlas 900 AI 클러스터, Atlas 800 AI 서버, Atlas 500 AI 엣지 스테이션, Atlas 300 AI 가속기 카드 및 Atlas 200 AI 가속기 모듈을 출시했다. 전체 Atlas 포트폴리오는 클라우드-엣지-장치 전반에 걸쳐 모든 시나리오에서 훈련과 추론을 위한 강력한 컴퓨팅을 제공한다.

화웨이는 앞으로도 Kunpeng 컴퓨팅 산업을 위한 프로세서, 운영 체제 및 데이터베이스 같은 기반시설에 대한 투자와 혁신을 계속 증대하고, Peng Cheng 클라우드 브레인을 위한 AI 컴퓨팅을 제공하여 더 광범위한 적용 범위에서 AI 기술의 현실화 속도를 높일 예정이다.

사진 - https://photos.prnasia.com/prnh/20191203/2659308-1-a?lang=0    
사진 - https://photos.prnasia.com/prnh/20191203/2659308-1-b?lang=0

출처: 화웨이(Huawei)

 

출처: Huawei
관련 링크: