정보통신 IT/인공지능 AI

HBM, High Bandwidth Memory, 고대역폭 메모리, SK하이닉스

Jobs 9 2024. 3. 20. 10:59
반응형

HBM , High Bandwidth Memory, 고대역폭 메모리

2013년에 발표된 적층형 메모리 규격

 

HBM 구조
H100 HBM

엔비디아 H100에 탑재된 HBM2e 모습

 

GDDR과 HBM의 구조 비교


기존의 GDDR 계열 SGRAM을 대체하고 보다 고대역폭의 메모리 성능을 달성하기 위해 제안되었으며, 2013년에 반도체 표준협회인 JEDEC에 의해 채택되었다. 메모리 다이를 적층하여 실리콘을 관통하는 통로(TSV)를 통해 주 프로세서와 통신을 한다는 것으로, 이를 위해서 직접 인쇄 회로 기판 위에 올려지는 GDDR 계열 SGRAM과는 달리 인터포저라는 중간 단계를 필요로 한다. 

GDDR의 경우 32개의 핀을 구리배선으로 연결하면 되므로 따로 미세공정이 필요 없었다. 그러나 HBM은 1024개나 되는 미세한 핀을 연결해야 하기 때문에 그대로 기판에 붙일 수 없다. 설령 그대로 붙인다고 하더라도 1024개나 되는 배선을 기판에 구현하여 GPU에 연결하는 것도 만만치 않은 일이라, 중간에 인터포저를 추가하여 여기에 GPU와 HBM을 가깝게 배치해서 연결하자는 아이디어가 나왔다. 2012년에 이종간 패키징이 가능한 TSMC CoWoS가 개발되고, 2014년에 AMD와 SK하이닉스가 협력하여 HBM 개발에 성공하면서, 이후 본격적으로 HBM을 활용한 제품이 나오게 되었다.


JEDEC 표준 규격

규격
총 채널 구성과
스택당 다이 구성
스택당
최대 용량
스택당
버스 폭
전압
클럭
(비트레이트)
채널당
I/O 데이터
전송률
스택당
대역폭
개발
표준화
적용
HBM
8 채널 × 128-bit × 4-Hi
4 GB
1024-bit
1.3 V
500 MHz
(1 Gbps)
1 GT/s
128 GB/s
2013년
2013년
2015년
HBM2
8 채널 × 128-bit × 8-Hi
8 GB
1024-bit
1.2 V
1000 MHz
(2 Gbps)
2 GT/s
256 GB/s
2015년
2016년
2016년
HBM2E
8 채널 × 128-bit × 12-Hi
24 GB
1024-bit
1.2 V
1200 MHz
(2.4 Gbps)
2.5 GT/s
307 GB/s
2019년
2018년
2020년
HBM3
16 채널 × 64-bit × 16-Hi
64 GB
1024-bit
1.1 V
3200 MHz
(6.4 Gbps)
6.4 GT/s
819 GB/s
2021년
2022년
2023년
HBM3E
 
 
 
 
 
 
 
2023년
(미정)
(미정)

 

HBM 역사
한때 GDDR에 비해서 뚜렷하게 우세하지 못한 성능으로 인해 계륵 취급을 받은 적도 있었다. 초기 HBM 1세대가 개발되었을 때, 그래픽카드에 HBM 4개(4096bit)를 배치한 것과 GDDR 12개(384bit)를 배치한 것을 비교하면, 대역폭 및 용량 차이가 그리 크지 않은데 가격은 비쌌기 때문이다. 한편으로는 그래픽 메모리를 대용량으로 필요할 만한 게임도 없었고, 대학 또는 기업의 인공지능 랩에서나 쓰이는 정도라 일반 GDDR에 비해 수요가 적었다. 이런 이유로 2019년 삼성전자에서는 시장성이 없다고 판단하고 일시적으로 사업을 철수한 적도 있었다.

그러나 시간이 흘러 성능 개선이 이루어지면서, GDDR과 HBM간의 기술 격차가 점점 크게 벌어지는 상황이다. 특히 GDDR의 경우 단층에 따른 구조적 한계로 개선이 더딘 반면, HBM의 경우 메모리 다이만 잘 쌓으면 용량과 대역폭이 배로 증가하니 상대적으로 기술 발전이 빠른 편이다. 거기에 매개변수가 많아 메모리를 많이 쓸 수 밖에 없는 초거대 인공지능[5] 분야에서 수요가 급증했는데, 이들을 제대로 활용하려면 사실상 HBM 사용이 강제된다. 용량도 중요하지만 많은 모델 데이터들을 빠른 시간내 처리하기 위해선 메모리 대역폭도 중요하기 때문이다.

근본적인 구조의 차이 때문에 GDDR과 비교를 하더라도 대역폭 면에서는 HBM이 월등하게 우수하다. 삼성은 스택당 최대 8-Hi, 최대 3.2 GT/s, 410 GB/s, 총 16 GB를 지원하는 플래시볼트 HBM2E를 2020년 2월에 양산했다. SK하이닉스도 스택당 최대 8-Hi, 최대 3.6 GT/s, 460 GB/s, 총 16 GB를 지원하는 HBM2E를 개발하여 2020년 7월 대량 생산에 돌입했다고 한다. 그리고 2020년 11월 16일, NVIDIA가 3.2 Gbps와 총 2 TB/s 대역폭을 지니는 HBM2E로 업그레이드된 A100 80 GB 연산 카드를 발표했다.

2021년에 SK하이닉스의 HBM3 개발 소식이 발표된 후, 2022년 1월 27일에 HBM3의 JEDEC 표준 사양이 발표되었다. 스택당 최대 819 GB/s로 2개의 스택으로만 구성해도 약 1.6 TB/s가 되는데, GDDR6X SGRAM 21 Gbps 사양이어야 384-bit 구성시 1 TB/s를 겨우 돌파하므로, HBM3가 탑재된 제품의 투입 시기가 늦어지지 않는다면 당분간 대역폭 우위를 차지할 수 있을 것이다.

2019년에 개발을 일시 철수했던 삼성전자는 뒤늦게 4세대 HBM 개발을 시작하였고, 2022년에 HBM3 '아이스볼트(Icebolt)'를 개발하였다.# 그러나 SK하이닉스보다 1년 늦게 개발된 탓인지 엔비디아에 납품은 어려운 상황이다. 트렌트포스측에서는 삼성전자가 HBM3를 2023년 말에서 2024년 1월 사이에 양산할 것으로 전망하고 있다.#

2023년 기준 메모리반도체 시장에서 HBM이 차지하는 비중은 1% 미만이지만# 매출은 10%에 달할 정도로 고부가가치 메모리 중 하나로 자리잡았다. 인공지능 칩의 가파른 수요 증가로 인해 이에 걸맞는 처리속도에 대한 수요도 덩달아 증가하며 호조세를 맞고 있다. 2023년에는 해당 분야에서 하이닉스와 삼성전자가 각각 53%, 38%로서 도합 90% 수준의 점유율을 기록하고 있고 나머지 10%는 마이크론이 차지하고 있다. 특히 최신 HBM3의 경우 2024년 기준 SK하이닉스가 90%를 차지할 정도로 거의 독주하고 있다.# 범용 인공지능 칩 시장의 80% 가량을 차지하고 있는 엔비디아가 하이닉스와의 협력을 통해 자사 GPU에 제품을 결합하여 판매하기 때문에 시장점유율 면에서 상당히 유리한 위치를 차지하고 있다.

2023년 8월, SK하이닉스에서 HBM3E 개발에 성공하였다.#

2023년 5월, 삼성전자의 차세대 HBM에 HBM3P '스노우볼트'라는 명칭을 붙일 것으로 알려졌다.# 동년 9월에는 엔비디아에 HBM3를 공급하기로 합의했다는 소식이 들려오기도 하였다.# 그러나 HBM3 샘플을 받아본 엔비디아에서 수율 문제를 우려하여, 최종 계약에는 이르지 못하고 조건부 가계약을 맺은 것으로 알려졌다.# 특히 엔비디아 측에선 차세대 HBM 메모리 명칭을 'HBM3E'로 정했으니, 삼성전자가 붙인 'HBM3P'라는 명칭을 바꿔달라고 요구한 것으로 알려졌다.#

2023년 10월, 삼성전자에서 일명 '샤인볼트(Shinebolt)’라는 HBM3E의 개발에 성공하였다고 발표하였다.#

2023년 11월, 엔비디아는 HBM3E가 탑재된 H200과 B100을 2024년 2분기에 출시한다고 발표하였다. AMD와 인텔도 각각 HBM3가 탑재된 MI350과 가우디3를 출시한다.

2023년 HBM 시장 전체 규모는 40억 달러로 추정하고 있고#, 2024년에는 120억달러로 작년 대비 3배 늘어날 것으로 예상하고 있다. 하이닉스의 2023년 HBM 매출은 20억달러 수준이다.#

2024년 2월, SK하이닉스에서 16단 HBM3E 기술을 첫 공개할 것으로 알려졌다. 16단 48GB에 1.28TB/s의 대역폭을 처리할 수 있는 것으로 알려졌다.#

 

HBM 장점
짧은 레이턴시와 높은 메모리 대역폭
메모리 적층이 이루어지면 각 층의 메모리와 GPU간 통신이 이루어 져야하는데, 이를 위해 메모리 셀 사이사이에 구멍을 뚫어 1,024개나 되는 채널(핀)을 구성하게 되었다. 또 HBM의 이론상 높은 대역폭을 그대로 실성능으로 끌어낼 수 있는데, GPU와 HBM간 통신거리가 극도로 짧아 신호 노이즈와 같은 간섭을 고려할 필요가 없어서 그렇다. 반면 GDDR의 경우 기판 배선을 거쳐야 하므로 노이즈 간섭을 받아 실 대역폭은 더욱 더 나오지 않는 경우가 허다하다. 덕분에 GDDR에 비해 짧은 레이턴시와 높은 대역폭을 어떠한 장애물 없이 그대로 구현할 수 있다.
작은 칩 면적과 작은 컨트롤러 면적
PCB에서 차지하는 메모리 칩(모듈)의 총 면적을 줄일 수 있고, 프로세서 내부에 탑재되는 내장 메모리 컨트롤러 자체도 기존 GDDR 계열 SGRAM 대비 더 작은 편이기 때문에 면적 대비 고대역폭에 유리하다. 당장 최상위 GPU에 탑재되는 GDDR6 SGRAM 컨트롤러의 총 면적만 봐도 HBM 컨트롤러보다 훨씬 더 넓은 면적으로 차지하고 있다. 그러므로 제한된 크기에서 성능을 올려야 할 때 HBM으로 성능 밀도를 더 올릴 수 있다. 
낮은 전력 소모
소비 전력도 낮은 편이다. (참고1, 참고2) 따라서 전력 공급의 한계에 걸린 하이엔드 VGA에선 HBM을 써서 메모리에서 아낀 전력을 GPU에 공급하여 더욱 성능을 이끌어 낼 수 있다. 물론 HBM 칩 개별로는 GDDR보다 소비량이 높지만, 1기가당 와트를 따지자면 GDDR보다 1/4 수준의 전력소모량을 보인다. 24GB 용량 기준으로 GDDR6X칩 12개가 최대 60W를 소모하는데, HBM3 1개가 최대 15W이므로 전력 소모량에서 유리하다. 
유리한 메모리 용량 확장성
과거 HBM 개발 초기에는 적층 노하우가 거의 없던 시기라 용량을 확장하기 매우 어려웠다. 적층 과정에서 본딩 장비와 접합 물질 기술, 무엇보다도 층마다 있는 메모리를 어떻게 기판과 연결해야 하는지에 대한 문제로 너무나 많은 기술적 한계가 보였었다. GDDR6와 동세대에서 경쟁하던 시절의 HBM 메모리는 4층까지 적층할 수 있는데, 층당 2GB라 8GB가 고작이었다. 이후 등장한 HBM2는 8층까지 적층할 수 있게 되어 용량이 대폭 늘어났고, 이후 HBM3에서는 12층짜리 24GB 스택도 등장하여# 확장성은 크게 늘어나게 되었다. 이를 위해 TSV라는 실리콘 관통 전극을 도입하고, 본딩에서도 NCF 또는 어드밴스드 MUF 기술을 도입하면서 점차 다양하게 해결해 나가고 있다. 반면 GDDR의 경우 미세공정에 따른 용량 증가가 더뎌 2024년 GDDR6X 기준 칩 당 2GB, GDDR7 기준 칩 당 3GB가 한계인데, 그렇다고 해서 용량을 늘리겠다고 기판에 칩을 많이 박아 넣을 수도 없는 상황이다.# GPU와 GDDR 간의 물리적인 거리가 늘어나면, 레이턴시&노이즈가 증가하는건 당연하므로, 일반적으론 12개, 기판 앞뒤로 많이 박아봐야 24개 정도가 한계라고 보면 된다. 결론적으로 HBM의 경우 수평이 아닌 수직으로 쌓다보니 기술만 가능하다면, 메모리를 계속 적층해 나가며 용량을 계속해서 늘릴 수 있다. 
HMC보다 쉬운 구현 난이도
HBM은 프로세서의 바로 위로 적층하는 것은 불가능하여 완전한 원칩은 구현할 수 없다. 이를 구현하는 것을 목표로 하는 마이크론의 HMC(Hybrid Memory Cube)와 비교했을 때 다소 완전하지 않은 모습으로 인해 3D가 아닌 2.5D라고 불리기도 한다. 하지만 HMC는 기술적으로 구현이 매우 어려워 존재감이 미미한 상태인 반면, HBM은 현재 삼성전자와 SK하이닉스가 대량 생산하고 있으며, AMD와 NVIDIA의 그래픽 카드에 채택되는 등 활약을 하고 있다. 또한 프로세서에도 TSV를 통과시켜야 하는 HMC에 비해서 단순히 인터포저 위에 올리기만 하면 되어 구현 난이도가 비교적 낮다는 것과, HBM이 그래픽 카드 업체에게 보다 사용하기 편한 것이 HBM의 성공에 보탬이 되었다. 

 

HBM 단점
GDDR 대비 높은 구현 난이도와 비싼 가격
단순히 기판(Substrate)에 붙이면 되는 SGRAM에 비해 HBM은 인터포저를 그려넣는 공정이 추가로 필요하다. 이를 위해 파운드리 업체인 TSMC의 최신 패키지 공정인 CoWoS를 이용해야 하므로, 온전히 물건을 받아보는데 시간이 많이 걸리고 비용도 더 든다. 가격도 비싼편인데 B2B로만 납품되는 물건이라 정확한 가격에 대해서는 알려진 바가 없으나, TrendForce 기준 2022년 HBM2e의 1GB당 가격이 13.7달러이므로 16GB짜리 칩셋 하나가 무려 30만원이라는 계산이 나온다. 이런 비싼 가격에도 불구하고 생산량은 그렇게 많지 않아 돈주고도 못구하는 상황이 부지기수. 거기에 인터포저에 본딩하는 공정을 거치면서 열로 인해 멀쩡한 HBM이 불량나는 경우[7]가 있어, 솔더링 작업에서 거의 불량나지 않는 GDDR에 비하면, 버려지는 HBM 비용을 최종고객사에서 감내해야 한다. 따라서 아직까지는 일반적인 소비자용 그래픽카드에 적용되어 있는 GDDR을 완전히 대체하기엔 무리가 있다. 
복잡한 구조와 낮은 공정 숙련도로 인한 낮은 내구성
HBM이 적용된 Radeon VII과 같은 그래픽 카드의 경우 아무래도 기존의 그래픽카드에 많이 사용되던 GDDR이 아닌 새로운 형태의 메모리이고 구조도 복잡하기 때문에 내구성이 떨어져 메모리가 고장나면서 그래픽카드가 돌연사 하는 경우가 종종 나타나고 있다. # 또한 메모리가 고장났을 시 리솔더링을 통해 비교적 쉽게 수리가 가능한 GDDR과 달리 그래픽 카드 다이에 인터포저가 직결되어 있는 HBM은 수리가 굉장히 까다로우며, 사실상 자가수리가 불가능하다고 보아야 한다. 
낮은 메모리 클럭과 낮은 오버클럭 마진
기본적으로 HBM 메모리는 대역폭이 GDDR 대비 엄청나게 넓지만, 동작 속도 자체가 훨씬 낮고 GDDR에 비해 구조가 복잡하며 여러 개의 칩으로 구성되어 열원이 분산되는 GDDR에 비해 하나의 칩에 적층으로 구성되어 있어 열원이 더 집중되어 나타난다. 그러므로 방열에 더욱 불리한 구조를 가지고 있다. 따라서 메모리 오버클럭으로 인한 성능 증가에 비하여 발열의 증가가 GDDR의 경우보다 더욱 크기 때문에 오버클럭을 통한 성능향상에 한계가 있다. 



요즘 메모리 반도체 업계의 가장 뜨거운 키워드는 단연 고대역폭 메모리(HBM·High Bandwidth Memory)다.
메모리 불황으로 반도체 업계가 보릿고개를 넘는 가운데 HBM이 불황 탈출의 열쇠로 업계의 주목을 받고 있다.
특히 HBM이 인공지능(AI) 시대의 필수재로 인식되면서 반도체 업계의 주도권 경쟁도 치열해지고 있다.

챗GPT 등 AI 시장 성장세에 고성능 메모리 HBM 급부상

HBM이 AI 시대에 어떤 역할을 하는지 알기 위해선 우선 그래픽처리장치(GPU)를 살펴볼 필요가 있다.
GPU는 이름 그대로 게임이나 동영상 등 그래픽 연산에 특화된 프로세서로, AI 연산에도 활용된다.
데이터를 순차적으로 처리하는 중앙처리장치(CPU)와 달리 GPU는 여러 데이터를 동시에 처리하는 병렬 연산이 가능하기 때문이다.

AI 시대의 도래는 GPU의 발전 덕분이라고 해도 과언이 아니다.
역으로 GPU 강자인 미국의 엔비디아가 1분기 깜짝 실적을 낸 것은 챗GPT의 등장 등 AI 열풍 덕분이다.
챗GPT는 대규모 데이터를 학습하기 위해 1만개가 넘는 엔비디아의 GPU를 활용하는 것으로 알려졌다.
또 이런 GPU에는 고성능 메모리인 HBM이 탑재된다.
AI가 방대한 데이터를 학습하려면 데이터 처리와 저장 기능이 중요하기 때문이다.
HBM은 쉽게 말해 D램을 쌓아 만든 제품이다.
여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올렸다.
초기 HBM 역시 고성능 그래픽 작업을 위해 제작됐으나, AI 등으로 GPU의 활용 범위가 넓어지면서 HBM 시장도 덩달아 커지고 있다.
대만 시장조사업체 트렌드포스에 따르면 올해 전 세계 HBM 수요는 2억9천만GB(기가바이트)로 작년보다 60% 가까이 증가할 전망이다. 또 내년에는 30% 더 성장할 것으로 내다봤다.

 

SK하이닉스, 세계 최초 12단 적층 HBM3 개발


SK하이닉스가 세계 최초로 D램 단품 칩 12개를 수직 적층해 현존 최고 용량인 24기가바이트(GB)를 구현한 HBM3 신제품을 개발하는 데 성공


HBM 시장을 주도하는 업체는 SK하이닉스[000660]와 삼성전자[005930]다.
전체 D램 시장의 독보적 시장 점유율 1위는 삼성전자지만 HBM 분야에서는 SK하이닉스가 한발 앞섰다는 평가를 받는다.
트렌드포스는 지난해 SK하이닉스와 삼성전자, 마이크론 등 3개사의 글로벌 HBM 시장점유율을 각각 50%, 40%, 10%로 추정했다.
SK하이닉스는 2021년 세계 최초로 HBM3를 개발했으며 지난해에는 양산에 성공했다. HBM3는 1세대(HBM), 2세대(HBM2), 3세대(HBM2E)에 이은 4세대 제품이다.
올해 4월에는 세계 최초로 24GB 12단 HBM3 신제품을 개발했다.
12단 HBM3는 제품 안에 적층된 D램 칩의 개수를 8개(기존 16GB 제품)에서 12개로 늘려 용량을 50% 늘렸다.
SK하이닉스는 최근 진행된 주요 기관투자가 및 증권사 애널리스트 대상 비공개 기업설명회(IR)에서 내년 HBM 물량이 올해의 2배 이상이 될 것으로 전망했다.

삼성전자, HBM3 24GB 양산 준비 완료…"시장점유율 50% 이상"
삼성전자 역시 HBM 사업에 힘을 싣고 있다.
삼성전자는 업계 최고 6.4Gbps(초당 기가비트)의 성능과 초저전력을 기반으로 하는 HBM3 16GB와 12단 24GB 제품 샘플을 출하 중이며 이미 양산 준비를 완료했다.
또 차세대 HBM3P 제품도 출시

반응형