목차
- 1. CoWoS 뜻 — Chip on Wafer on Substrate
- 2. CoWoS의 역사 — 2012년부터 AI 시대까지
- 3. 왜 필요한가 — 메모리 벽(Memory Wall) 문제
- 4. CoWoS의 구조 — 3층 샌드위치
- 5. 인터포저는 어떻게 만드는가
- 6. 기존 패키징과 비교
- 7. CoWoS를 쓰는 제품들
- 8. CoWoS가 비싼 이유 — 비용 구조 분석
- 9. CoWoS 변형 미리보기 — S, R, L
- 10. 자주 묻는 질문 (FAQ)
- 11. 시리즈 안내
1. CoWoS 뜻 — Chip on Wafer on Substrate
CoWoS는 Chip on Wafer on Substrate의 약자입니다. TSMC(Taiwan Semiconductor Manufacturing Company)가 2012년에 상용화한 2.5D 웨이퍼 레벨 멀티칩 패키징 기술입니다.
이름이 곧 구조를 설명합니다:
- Chip on Wafer — 개별 칩(다이)을 웨이퍼 위에 올린다 (여기서 '웨이퍼'는 실리콘 인터포저)
- on Substrate — 이 조합체를 다시 유기 기판(substrate) 위에 실장한다
쉽게 말하면, 여러 칩을 하나의 실리콘 판 위에 나란히 올려놓고, 초고밀도 배선으로 연결하는 기술입니다.
칩을 수평으로 나란히 배치하면 2D, 수직으로 쌓으면 3D입니다. CoWoS는 칩을 수평 배치하되, 그 아래에 인터포저라는 중간층을 두어 입체적으로 연결합니다. 완전한 3D는 아니지만 2D보다 복잡한 구조라 '2.5D'라고 부릅니다.
2. CoWoS의 역사 — 2012년부터 AI 시대까지
CoWoS는 하루아침에 탄생한 기술이 아닙니다. TSMC가 10년 넘게 발전시켜 온 기술이 AI 시대를 만나 폭발적으로 성장했습니다.
주요 이정표
- 2012년 — TSMC, CoWoS 상용화. 최초 고객은 Xilinx(현 AMD)의 FPGA. 당시에는 고성능 네트워킹용 틈새 기술로 출발
- 2016년 — HBM을 CoWoS 위에 통합하는 구조 시작. 인터포저 면적 1.5x reticle로 확대
- 2020년 — NVIDIA A100에 CoWoS-S 적용. AI 학습 수요와 맞물려 수요 급증 시작
- 2023년 — ChatGPT 이후 AI 투자 폭발. H100 품귀 현상. CoWoS 캐파가 AI 칩 공급의 병목으로 부각
- 2025년 — CoWoS-L 양산 개시 (NVIDIA B200/GB200). HBM3E 12-Hi 스택 지원
- 2026년(현재) — TSMC CoWoS 캐파 월 ~130K wafer로 확대 (업계 추정). 여전히 수요 > 공급
3. 왜 필요한가 — 메모리 벽(Memory Wall) 문제
AI 시대의 근본 병목
AI 가속기(GPU, TPU)의 연산 성능은 세대마다 기하급수적으로 증가합니다. 하지만 프로세서가 아무리 빨라도, 메모리에서 데이터를 가져오는 속도가 따라가지 못하면 연산 유닛은 데이터를 기다리며 놀게 됩니다.
이것이 메모리 벽(Memory Wall) 문제입니다. LLM(대규모 언어 모델) 학습과 추론에는 수십~수백 GB의 파라미터를 초당 수 TB 속도로 주고받아야 합니다.
해결책: HBM을 프로세서 바로 옆에
HBM(High Bandwidth Memory)은 DRAM 칩을 수직으로 쌓아 대역폭을 극대화한 메모리입니다. 하지만 HBM의 성능을 100% 활용하려면:
- 프로세서와 수 mm 이내 거리에 배치해야 합니다 (배선이 길면 신호 지연·전력 손실)
- 수천 개의 I/O 핀을 동시에 연결해야 합니다 (HBM3E: 1024-bit 인터페이스)
- 이 모든 것을 하나의 패키지 안에서 해결해야 합니다
기존 패키징(Wire Bond, Flip Chip)으로는 이 요구사항을 충족할 수 없습니다. CoWoS가 바로 이 문제를 해결하기 위해 만들어진 기술입니다.
• NVIDIA H100 (CoWoS 적용): 메모리 대역폭 3.35 TB/s
• NVIDIA B200 (CoWoS-L 적용): 메모리 대역폭 8 TB/s
• 비교: DDR5 데스크탑 PC의 메모리 대역폭은 약 0.05 TB/s — 160배 차이
4. CoWoS의 구조 — 3층 샌드위치
CoWoS는 아래에서 위로 3개 층으로 구성됩니다:
| 층 | 역할 |
|---|---|
| 1층: Substrate (기판) | 유기 기판. PCB(메인보드)와 패키지를 연결하는 역할. BGA(Ball Grid Array) 솔더볼로 보드에 실장됩니다. |
| 2층: Interposer (인터포저) | 핵심 층. 실리콘(또는 RDL)으로 만든 중간 배선판. 상부 다이들 사이를 sub-micron급 미세 배선으로 연결하고, TSV(Through-Silicon Via)로 아래 기판과 소통합니다. |
| 3층: Dies (다이) | 실제 칩들. GPU/CPU 같은 로직 다이와 HBM 메모리 스택이 인터포저 위에 micro-bump로 접합됩니다. |
인터포저가 핵심인 이유
인터포저는 '실리콘 고속도로'에 비유할 수 있습니다. 일반 기판의 배선 폭이 수십 um인 데 비해, 실리콘 인터포저의 배선 폭은 1um 이하입니다. 같은 면적에 수십 배 더 많은 배선을 넣을 수 있고, 이는 곧 대역폭의 차이로 직결됩니다.
기존 패키징 = 일반 도로 위에 건물(칩)을 떨어뜨려 놓고 국도로 연결
CoWoS = 건물들 아래에 지하 고속철도(인터포저)를 깔아 초고속으로 연결
5. 인터포저는 어떻게 만드는가
CoWoS의 핵심인 실리콘 인터포저는 사실상 '배선만 있는 칩'입니다. 일반 반도체 공정과 유사한 방식으로 웨이퍼 위에 만들어집니다.
제조 4단계
| 단계 | 내용 |
|---|---|
| 1. TSV 형성 | 실리콘 웨이퍼에 수만 개의 미세 구멍(Via)을 뚫고 구리(Cu)로 채웁니다. 이 TSV(Through-Silicon Via)가 인터포저 상하를 전기적으로 연결합니다. 직경 5~10um, 깊이 50~100um. |
| 2. 배선층 형성 | 인터포저 표면에 sub-micron급 구리 배선을 여러 층 쌓습니다. 이 배선이 상부 다이(GPU, HBM) 간의 '고속도로' 역할을 합니다. TSMC 65nm 공정을 활용합니다. |
| 3. 범핑(Bumping) | 인터포저 윗면에 micro-bump(상부 다이 연결용), 아랫면에 C4 bump(기판 연결용)를 형성합니다. |
| 4. 조립(Assembly) | 인터포저 위에 다이들을 플립칩 본딩으로 접합 → 인터포저+다이 조합체를 기판 위에 실장 → 몰딩(밀봉) → 테스트. |
6. 기존 패키징과 비교
| 항목 | Wire Bond | Flip Chip | Fan-Out (InFO) | CoWoS (2.5D) |
|---|---|---|---|---|
| 연결 방식 | 금선(Au wire) | 솔더 범프 | RDL (재배선층) | 실리콘 인터포저 + TSV + micro-bump |
| I/O 밀도 | 낮음 (주변부만) | 중간 (면 전체) | 중~상 | 매우 높음 (수천~수만) |
| 대역폭 | 낮음 | 중간 | 중간 | TB/s급 |
| 멀티다이 통합 | 제한적 | 제한적 | 가능 | 핵심 강점 (GPU+HBM) |
| 비용 | 최저 | 낮음 | 중간 | 높음 |
| 대표 용도 | 저가 IC, 센서 | CPU, 모바일 AP | Apple A-series | AI GPU, HPC, HBM 통합 |
핵심 차이: Wire Bond/Flip Chip은 '단일 칩'을 실장하는 기술입니다. CoWoS는 '여러 칩을 하나의 패키지 안에서 초고속으로 연결'하는 기술입니다. 이 근본적인 차이가 AI 시대에 CoWoS를 필수로 만들었습니다.
7. CoWoS를 쓰는 제품들
| 기업 | 제품 | HBM | CoWoS 변형 |
|---|---|---|---|
| NVIDIA | A100, H100, H200 | HBM2E / HBM3 / HBM3E | CoWoS-S |
| NVIDIA | B200, GB200 | HBM3E | CoWoS-L |
| AMD | MI300X, MI300A | HBM3 | CoWoS-S |
| TPU v4, v5 | HBM2E / HBM3 | CoWoS-S (일부) | |
| Broadcom | 네트워크 ASIC | HBM3 | CoWoS-S / R |
2026년 기준, AI 학습·추론에 사용되는 거의 모든 고성능 가속기가 CoWoS 기반입니다. TSMC의 CoWoS 생산능력이 곧 AI 칩의 공급 상한선을 결정하는 구조입니다.
NVL72 — CoWoS 72개가 한 랙에
CoWoS의 중요성을 가장 잘 보여주는 제품이 NVIDIA GB200 NVL72입니다. GTC 2025에서 발표되어 2025~2026년 본격 출하 중인 이 시스템은, 서버 랙 하나에 B200 GPU 72개 + Grace CPU 36개를 넣은 초대형 AI 컴퓨터입니다.
72명의 천재가 한 방에 모여 하나의 거대한 화이트보드(13.8TB 통합 메모리)를 공유하며 동시에 문제를 푸는 것. 일반 서버가 천재 몇 명이 각자 방에서 일하고 복도에서 메모를 전달하는 구조라면, NVL72는 같은 방에서 직접 대화하는 구조입니다.
NVL72 한 대의 CoWoS 소요량:
- B200 GPU 72개 × CoWoS-L 패키지 1개씩 = CoWoS-L 72개
- B200 1개당 HBM3E 8스택 → 랙 전체 576개 HBM 스택, 총 13.8TB
- CoWoS-L 웨이퍼 약 14~18장이 랙 1대에 소모 (업계 추정)
- 하이퍼스케일러가 B200 10만 개를 주문하면 → CoWoS 웨이퍼 약 2만~2.5만 장 필요
이것이 왜 TSMC의 CoWoS 캐파가 "AI 칩의 공급 상한선"인지 보여주는 수치입니다. 아무리 GPU 설계가 좋아도, CoWoS로 패키징하지 못하면 출하할 수 없습니다.
왜 72개가 한 랙에 있어야 할까?
GPT 같은 초대형 AI 모델은 GPU 1개에 들어가지 않습니다. 수십 개 GPU에 나눠 담아야 하는데, 이때 GPU끼리 데이터를 주고받는 속도가 곧 전체 성능을 결정합니다.
| 연결 방식 | 대역폭 | 비유 |
|---|---|---|
| 일반 이더넷 | 400 Gbps | 고속도로 1차선 |
| NVLink 5 | 14,400 Gbps (1.8 TB/s) | 고속도로 36차선 |
NVLink는 일반 네트워크보다 약 36배 빠릅니다. 72개 GPU를 같은 랙에 넣고 NVLink로 직결하면, 72개가 마치 1개의 거대한 GPU처럼 동작합니다. 이것이 NVL72의 핵심이고, 그 각각의 GPU 안에 CoWoS가 들어있습니다.
GTC 2026에서 확인된 것
2026년 3월 GTC에서 NVIDIA는 차세대 로드맵을 공개했습니다:
- Vera Rubin — Blackwell 다음 세대. Rubin GPU + Vera CPU 조합. HBM4 채택 예상. CoWoS 다음 세대 패키징 적용 전망
- Blackwell Ultra — Blackwell과 Rubin 사이 중간 업그레이드
- 3세대 로드맵 — Blackwell → Blackwell Ultra → Vera Rubin으로 이어지는 연간 업그레이드 사이클
세대가 올라갈수록 HBM 스택 수와 인터포저 면적이 계속 커집니다. 이는 곧 CoWoS 수요가 세대마다 증가한다는 것을 의미합니다. "CoWoS 병목"은 당분간 해소되기 어렵습니다.
NVL72를 가능하게 한 핵심 — NVLink Switch
GPU 72개를 한 랙에 넣는 것만으로는 부족합니다. 72개가 하나의 GPU처럼 동작하려면 모든 GPU가 서로 초고속으로 통신해야 합니다. GPU 72개를 전부 1:1로 직접 연결하면 2,556개의 배선이 필요한데, 이건 물리적으로 불가능합니다.
NVIDIA의 해결책은 NVLink Switch라는 전용 칩을 별도로 설계한 것입니다. 고속도로 인터체인지처럼, 72개 GPU 간의 데이터 교통을 정리하는 역할입니다.
| 기술 | 역할 | 없으면? |
|---|---|---|
| CoWoS-L | B200 다이 + HBM을 한 패키지로 | GPU 1개를 만들 수 없음 |
| NVLink Switch | 72개 GPU를 하나로 연결 | GPU끼리 느린 네트워크로 통신해야 함 |
| 액체 냉각 | 120kW 발열 해결 | 과열로 작동 불가 (공랭 한계 초과) |
| CUDA 생태계 | 72개 GPU를 소프트웨어로 제어 | 하드웨어만 있고 돌릴 수 없음 |
GPU만 잘 만드는 게 아닙니다. GPU(칩) + CoWoS(패키징) + NVLink(연결) + CUDA(소프트웨어) — 이 4가지를 동시에 보유한 회사가 세상에 없습니다. CoWoS는 GPU 1개를 만드는 기술이고, NVLink Switch는 그 GPU 72개를 하나의 거대한 두뇌로 묶는 기술입니다. 경쟁사(AMD, Intel)가 GPU 성능을 따라잡아도 이 시스템 레벨의 해자를 넘기가 훨씬 어렵습니다.
8. CoWoS가 비싼 이유 — 비용 구조 분석
CoWoS 패키징 비용은 일반 Flip Chip 대비 5~10배로 추정됩니다. 왜 이렇게 비쌀까요?
비용을 높이는 4가지 요인
| 요인 | 설명 |
|---|---|
| 1. 인터포저 제조 | 실리콘 인터포저는 웨이퍼 공정으로 만듭니다. 사실상 칩 하나를 더 만드는 비용이 추가됩니다. TSMC 65nm 공정 사용. 웨이퍼 1장에서 나오는 인터포저 수도 적습니다 (대면적이므로). |
| 2. 대면적 수율 | 인터포저가 클수록 결함 확률이 높아집니다. 현재 최대 3.3x reticle (~2,700mm²)까지 확대되었는데, 이를 위해 리소그래피를 여러 번 이어 찍는 'stitching' 기술이 필요합니다. |
| 3. 멀티다이 조립 | GPU + HBM 4~8개를 마이크로미터 정밀도로 접합해야 합니다. 다이 하나라도 불량이면 패키지 전체가 폐기됩니다. Known Good Die(KGD) 검증이 필수입니다. |
| 4. 테스트 복잡도 | 멀티다이 패키지의 테스트는 단일 칩보다 훨씬 복잡합니다. 다이 간 인터페이스, 신호 무결성, 열 관리 등을 모두 검증해야 합니다. |
• 일반 Flip Chip 패키징: 칩당 $50~100
• CoWoS-S 패키징: 칩당 $500~1,000+
• NVIDIA H100 전체 패키지 비용 중 CoWoS 비중: 약 20~30%
비용이 높지만, AI 가속기 전체 가격($25,000~40,000)에서 차지하는 비중을 생각하면, 성능을 위해 감수할 수 있는 수준입니다. "비싸지만 대안이 없다"가 현재 상황입니다.
9. CoWoS 변형 미리보기 — S, R, L
CoWoS는 하나의 기술이 아니라, 용도에 따라 3가지 변형이 있습니다:
| 변형 | 인터포저 | 특징 |
|---|---|---|
| CoWoS-S | 실리콘 (Silicon) | 가장 성숙. 최고 성능. 비용 높음. H100, MI300X에 사용 |
| CoWoS-R | 유기 RDL | 실리콘 인터포저 대신 재배선층 사용. 비용 절감. 대면적 가능 |
| CoWoS-L | 실리콘 브릿지 + RDL | S와 R의 하이브리드. 차세대 메인스트림. B200에 사용 추정 |
각 변형의 구조, 장단점, 선택 기준은 시리즈 2편 「CoWoS-S vs CoWoS-R vs CoWoS-L — 뭐가 다른가」에서 자세히 다룹니다.
10. 자주 묻는 질문 (FAQ)
CoWoS 시리즈 — 첨단 패키징 완전 가이드
- 1편: CoWoS란? — AI 시대 반도체 패키징의 핵심 (지금 읽는 글)
- 2편: CoWoS-S vs CoWoS-R vs CoWoS-L — 뭐가 다른가
- 3편: CoWoS와 HBM — 왜 같이 다닐 수밖에 없는가 (근간)
- 4편: CoWoS 공급 전쟁 — TSMC vs 삼성 vs Intel (근간)
- 5편: 한국 반도체와 첨단 패키징 — 기회와 딜레마 (근간)