테슬라는 미국 본사에서 열린 ‘AI(인공지능)데이’ 행사에서 자체 개발한 AI 학습용 맞춤 ASIC(주문형 집적 회로) ‘D1’을 발표했다.
D1 칩은 머신러닝 전용 칩으로 Autopilot(자율주행) 고도화를 담당할 테슬라가 개발 중인 자율주행 신경망 처리 슈퍼컴퓨터 Dojo에 탑재할 예정이다.
Dojo는 네트워크로 연결된 분산형 컴퓨팅 아키텍처다, Large Compute Plane, Extreamly low latencies와 High bandwidth, Big Networks Pratitioned & Mapped 형태로 설계됐다.
기본적으로 Dojo라는 개념은 자율주해에 활용되는 Neural network (신경망)에 대한 Self 지도 학습 프로세스이다. 8개의 카메라로 이미지를 인식하고, 이미지 내의 각각의 객체를 인식함에 있어 현재의 학습 프로세스는 대부분 사람의 개입이 이루어지고 있다. 즉 사람이 이미지에 객체의 형태를 레이블링하여 (예: 이것은 자동차, 이것은 사람) 이 데이터를 Neural network에 학습시키는데 사용하고 있다.
하지만 Dojo가 완성되면 사람의 개입이 필요없이 엄청나게 빠른 속도의 대량의 자료를 Neural network에 학습시킬 수 있다. 이를 통해 더욱 완벽한 자율주행이 가능한 시스템의 개발이 가능한 것이다.
2022년에 가동될 도조는 전 세계 100만 대 이상의 테슬라 전기차가 수집한 방대한 양의 도로 교통·운행 데이터를 신경망(DNN) 처리를 통해 분석, 자율주행 완성도를 높인다는 계획이다.
이번에 테슬라가 D1 칩을 개발함으로서 이제 테슬러는 서버용 칩과 통합 시스템, 컴퓨팅 클러스터와 이를 구동하는 소프트웨어까지 모두 독자 설계해 완성을 한 것이다. 50만 개 노드를 동시에 처리하며 초당 36TB의 데이터 처리 속도를 지닌 D1 칩은 기계 학습의 대역폭 병목 현상을 줄이기 위해 자체 설계했다.



D1 칩은 6.45cm 정사각형에 트랜지스터 수만 500억 개가 탑재된다. 또한 코어 4개와 64비트(bit) 슈퍼스칼라(SuperScalar, 한 사이클 동안 여러 명령어를 동시에 처리할 수 있게 하는 설계) CPU와 함께 노드 354개가 장착돼 있다.
이러한 D1 칩 25개를 집적한 멀티칩 모듈 Training Tile 은 BF16·CFP8에서 9P(페타)플롭스 컴퓨팅 성능으로 오프타입 대역폭이 최대 36TBps가 된다. Dojo 슈퍼컴퓨터에는 120타일 (D1칩 3,000개)이 탑재되는 구조로 초당 100경 번 연산이 가능한1.1Exa (엑사)플롭스급 성능을 제공한다.
이는 기존 엔비디아 슈퍼컴퓨터보다 전력 효율성은 1.3배로 높으며, 크기가 5배나 작고, 성능은 4배나 높다.
테슬라는 카메라 8개를 통해 주변 환경을 인지하고 HydraNet을 통해 Objection Detection(사물인지), Lane Protection(차선예측), Traffic Light Task(신호등인지) 등 상황을 분석하는 FSD(완전자율주행 시스템)을 개발 중이다. 하지만 이 같은 기술만으로는 자율주행을 고도화하기에 충분치 않다. 단순히 이미지 픽셀 정보로 표현된 공간을 3차원 벡터 공간(Vector Space)으로 정확하게 변환하는 신경망(Neural Network) 구축이 필요하다고 판단한 것이다. 따라서 다양한 상황을 시뮬레이션해 시스템을 훈련하는 데 있어 이전보다 고성능 컴퓨터 칩이 필요했다.
앞서 테슬라 완전자율주행(FSD, Full Self-Driving) 및 FSD 베타 기능이 구현되지 않고 레벨 2급 운전자 보조 기능을 위한 시스템일 뿐이라는 지적이 나오기도 했다. 하지만 이번 D1 칩 개발로 테슬라의 자율주행 시스템 발전에 크게 기여할 것으로 보인다.