SemiHub
기술 딥다이브 — CoWoS 시리즈 #1

CoWoS란? — AI 시대 반도체 패키징의 핵심

TSMC가 만든 2.5D 패키징 기술이 AI GPU와 HBM에 왜 필수인지, 기존 패키징과 무엇이 다른지 총정리

2026.04.09 · 읽기 약 15분 · SemiHub
한 줄 요약: CoWoS(Chip on Wafer on Substrate)는 TSMC가 개발한 2.5D 패키징 기술로, AI GPU와 HBM을 실리콘 인터포저 위에 나란히 올려 TB/s급 대역폭을 실현합니다. NVIDIA H100, B200 등 모든 주요 AI 가속기에 사용됩니다.

목차

1. CoWoS 뜻 — Chip on Wafer on Substrate

CoWoSChip on Wafer on Substrate의 약자입니다. TSMC(Taiwan Semiconductor Manufacturing Company)가 2012년에 상용화한 2.5D 웨이퍼 레벨 멀티칩 패키징 기술입니다.

이름이 곧 구조를 설명합니다:

쉽게 말하면, 여러 칩을 하나의 실리콘 판 위에 나란히 올려놓고, 초고밀도 배선으로 연결하는 기술입니다.

왜 '2.5D'인가?
칩을 수평으로 나란히 배치하면 2D, 수직으로 쌓으면 3D입니다. CoWoS는 칩을 수평 배치하되, 그 아래에 인터포저라는 중간층을 두어 입체적으로 연결합니다. 완전한 3D는 아니지만 2D보다 복잡한 구조라 '2.5D'라고 부릅니다.

2. CoWoS의 역사 — 2012년부터 AI 시대까지

CoWoS는 하루아침에 탄생한 기술이 아닙니다. TSMC가 10년 넘게 발전시켜 온 기술이 AI 시대를 만나 폭발적으로 성장했습니다.

2012 CoWoS 상용화 Xilinx FPGA 최초 고객 2016 HBM 통합 시작 1.5x reticle 인터포저 2020 CoWoS-S Gen3 A100 탑재 AI 시대 개막 2023 수요 폭발 H100 품귀 캐파 전쟁 시작 2025 CoWoS-L 양산 B200/GB200 HBM3E 12-Hi 2026 캐파 2배 확장 130K wafer/月 수요 > 공급 지속 CoWoS 기술 발전 타임라인

주요 이정표

10년간의 변화: 2012년 틈새 기술 → 2026년 AI 반도체 산업의 핵심 인프라. CoWoS 생산능력이 곧 AI 칩의 공급 상한선을 결정하는 시대가 되었습니다.

3. 왜 필요한가 — 메모리 벽(Memory Wall) 문제

AI 시대의 근본 병목

AI 가속기(GPU, TPU)의 연산 성능은 세대마다 기하급수적으로 증가합니다. 하지만 프로세서가 아무리 빨라도, 메모리에서 데이터를 가져오는 속도가 따라가지 못하면 연산 유닛은 데이터를 기다리며 놀게 됩니다.

이것이 메모리 벽(Memory Wall) 문제입니다. LLM(대규모 언어 모델) 학습과 추론에는 수십~수백 GB의 파라미터를 초당 수 TB 속도로 주고받아야 합니다.

해결책: HBM을 프로세서 바로 옆에

HBM(High Bandwidth Memory)은 DRAM 칩을 수직으로 쌓아 대역폭을 극대화한 메모리입니다. 하지만 HBM의 성능을 100% 활용하려면:

기존 패키징(Wire Bond, Flip Chip)으로는 이 요구사항을 충족할 수 없습니다. CoWoS가 바로 이 문제를 해결하기 위해 만들어진 기술입니다.

수치로 보는 CoWoS의 효과:
• NVIDIA H100 (CoWoS 적용): 메모리 대역폭 3.35 TB/s
• NVIDIA B200 (CoWoS-L 적용): 메모리 대역폭 8 TB/s
• 비교: DDR5 데스크탑 PC의 메모리 대역폭은 약 0.05 TB/s — 160배 차이

4. CoWoS의 구조 — 3층 샌드위치

CoWoS는 아래에서 위로 3개 층으로 구성됩니다:

CoWoS 패키지 단면 구조도 GPU Logic Die HBM HBM HBM HBM micro-bump Silicon Interposer sub-micron Cu 배선 + TSV TSV C4 bump Organic Substrate (유기 기판) BGA ball PCB (메인보드) 3층 Dies 2층 1층
역할
1층: Substrate (기판) 유기 기판. PCB(메인보드)와 패키지를 연결하는 역할. BGA(Ball Grid Array) 솔더볼로 보드에 실장됩니다.
2층: Interposer (인터포저) 핵심 층. 실리콘(또는 RDL)으로 만든 중간 배선판. 상부 다이들 사이를 sub-micron급 미세 배선으로 연결하고, TSV(Through-Silicon Via)로 아래 기판과 소통합니다.
3층: Dies (다이) 실제 칩들. GPU/CPU 같은 로직 다이와 HBM 메모리 스택이 인터포저 위에 micro-bump로 접합됩니다.

인터포저가 핵심인 이유

인터포저는 '실리콘 고속도로'에 비유할 수 있습니다. 일반 기판의 배선 폭이 수십 um인 데 비해, 실리콘 인터포저의 배선 폭은 1um 이하입니다. 같은 면적에 수십 배 더 많은 배선을 넣을 수 있고, 이는 곧 대역폭의 차이로 직결됩니다.

비유하자면:
기존 패키징 = 일반 도로 위에 건물(칩)을 떨어뜨려 놓고 국도로 연결
CoWoS = 건물들 아래에 지하 고속철도(인터포저)를 깔아 초고속으로 연결

5. 인터포저는 어떻게 만드는가

CoWoS의 핵심인 실리콘 인터포저는 사실상 '배선만 있는 칩'입니다. 일반 반도체 공정과 유사한 방식으로 웨이퍼 위에 만들어집니다.

제조 4단계

단계 내용
1. TSV 형성 실리콘 웨이퍼에 수만 개의 미세 구멍(Via)을 뚫고 구리(Cu)로 채웁니다. 이 TSV(Through-Silicon Via)가 인터포저 상하를 전기적으로 연결합니다. 직경 5~10um, 깊이 50~100um.
2. 배선층 형성 인터포저 표면에 sub-micron급 구리 배선을 여러 층 쌓습니다. 이 배선이 상부 다이(GPU, HBM) 간의 '고속도로' 역할을 합니다. TSMC 65nm 공정을 활용합니다.
3. 범핑(Bumping) 인터포저 윗면에 micro-bump(상부 다이 연결용), 아랫면에 C4 bump(기판 연결용)를 형성합니다.
4. 조립(Assembly) 인터포저 위에 다이들을 플립칩 본딩으로 접합 → 인터포저+다이 조합체를 기판 위에 실장 → 몰딩(밀봉) → 테스트.
핵심 포인트: 인터포저 자체가 웨이퍼 공정으로 만들어진다는 것입니다. 사실상 '칩 하나를 더 만드는' 것과 같아서 비용이 높고, 대면적 인터포저의 수율 관리가 기술적 도전입니다. 이것이 CoWoS가 비싼 근본 이유입니다.

6. 기존 패키징과 비교

기존 패키징 vs CoWoS 기존 (Flip Chip) 칩 1개 Substrate PCB 칩 1개만 실장 가능 CoWoS (2.5D) GPU HBM HBM HBM Si Interposer Substrate PCB
항목 Wire Bond Flip Chip Fan-Out (InFO) CoWoS (2.5D)
연결 방식 금선(Au wire) 솔더 범프 RDL (재배선층) 실리콘 인터포저 + TSV + micro-bump
I/O 밀도 낮음 (주변부만) 중간 (면 전체) 중~상 매우 높음 (수천~수만)
대역폭 낮음 중간 중간 TB/s급
멀티다이 통합 제한적 제한적 가능 핵심 강점 (GPU+HBM)
비용 최저 낮음 중간 높음
대표 용도 저가 IC, 센서 CPU, 모바일 AP Apple A-series AI GPU, HPC, HBM 통합

핵심 차이: Wire Bond/Flip Chip은 '단일 칩'을 실장하는 기술입니다. CoWoS는 '여러 칩을 하나의 패키지 안에서 초고속으로 연결'하는 기술입니다. 이 근본적인 차이가 AI 시대에 CoWoS를 필수로 만들었습니다.

7. CoWoS를 쓰는 제품들

기업 제품 HBM CoWoS 변형
NVIDIA A100, H100, H200 HBM2E / HBM3 / HBM3E CoWoS-S
NVIDIA B200, GB200 HBM3E CoWoS-L
AMD MI300X, MI300A HBM3 CoWoS-S
Google TPU v4, v5 HBM2E / HBM3 CoWoS-S (일부)
Broadcom 네트워크 ASIC HBM3 CoWoS-S / R

2026년 기준, AI 학습·추론에 사용되는 거의 모든 고성능 가속기가 CoWoS 기반입니다. TSMC의 CoWoS 생산능력이 곧 AI 칩의 공급 상한선을 결정하는 구조입니다.

NVL72 — CoWoS 72개가 한 랙에

CoWoS의 중요성을 가장 잘 보여주는 제품이 NVIDIA GB200 NVL72입니다. GTC 2025에서 발표되어 2025~2026년 본격 출하 중인 이 시스템은, 서버 랙 하나에 B200 GPU 72개 + Grace CPU 36개를 넣은 초대형 AI 컴퓨터입니다.

NVL72, 쉽게 말하면:
72명의 천재가 한 방에 모여 하나의 거대한 화이트보드(13.8TB 통합 메모리)를 공유하며 동시에 문제를 푸는 것. 일반 서버가 천재 몇 명이 각자 방에서 일하고 복도에서 메모를 전달하는 구조라면, NVL72는 같은 방에서 직접 대화하는 구조입니다.

NVL72 한 대의 CoWoS 소요량:

이것이 왜 TSMC의 CoWoS 캐파가 "AI 칩의 공급 상한선"인지 보여주는 수치입니다. 아무리 GPU 설계가 좋아도, CoWoS로 패키징하지 못하면 출하할 수 없습니다.

왜 72개가 한 랙에 있어야 할까?

GPT 같은 초대형 AI 모델은 GPU 1개에 들어가지 않습니다. 수십 개 GPU에 나눠 담아야 하는데, 이때 GPU끼리 데이터를 주고받는 속도가 곧 전체 성능을 결정합니다.

연결 방식 대역폭 비유
일반 이더넷 400 Gbps 고속도로 1차선
NVLink 5 14,400 Gbps (1.8 TB/s) 고속도로 36차선

NVLink는 일반 네트워크보다 약 36배 빠릅니다. 72개 GPU를 같은 랙에 넣고 NVLink로 직결하면, 72개가 마치 1개의 거대한 GPU처럼 동작합니다. 이것이 NVL72의 핵심이고, 그 각각의 GPU 안에 CoWoS가 들어있습니다.

GTC 2026에서 확인된 것

2026년 3월 GTC에서 NVIDIA는 차세대 로드맵을 공개했습니다:

세대가 올라갈수록 HBM 스택 수와 인터포저 면적이 계속 커집니다. 이는 곧 CoWoS 수요가 세대마다 증가한다는 것을 의미합니다. "CoWoS 병목"은 당분간 해소되기 어렵습니다.

NVL72를 가능하게 한 핵심 — NVLink Switch

GPU 72개를 한 랙에 넣는 것만으로는 부족합니다. 72개가 하나의 GPU처럼 동작하려면 모든 GPU가 서로 초고속으로 통신해야 합니다. GPU 72개를 전부 1:1로 직접 연결하면 2,556개의 배선이 필요한데, 이건 물리적으로 불가능합니다.

NVIDIA의 해결책은 NVLink Switch라는 전용 칩을 별도로 설계한 것입니다. 고속도로 인터체인지처럼, 72개 GPU 간의 데이터 교통을 정리하는 역할입니다.

기술 역할 없으면?
CoWoS-L B200 다이 + HBM을 한 패키지로 GPU 1개를 만들 수 없음
NVLink Switch 72개 GPU를 하나로 연결 GPU끼리 느린 네트워크로 통신해야 함
액체 냉각 120kW 발열 해결 과열로 작동 불가 (공랭 한계 초과)
CUDA 생태계 72개 GPU를 소프트웨어로 제어 하드웨어만 있고 돌릴 수 없음
NVIDIA가 강한 진짜 이유:
GPU만 잘 만드는 게 아닙니다. GPU(칩) + CoWoS(패키징) + NVLink(연결) + CUDA(소프트웨어) — 이 4가지를 동시에 보유한 회사가 세상에 없습니다. CoWoS는 GPU 1개를 만드는 기술이고, NVLink Switch는 그 GPU 72개를 하나의 거대한 두뇌로 묶는 기술입니다. 경쟁사(AMD, Intel)가 GPU 성능을 따라잡아도 이 시스템 레벨의 해자를 넘기가 훨씬 어렵습니다.

8. CoWoS가 비싼 이유 — 비용 구조 분석

CoWoS 패키징 비용은 일반 Flip Chip 대비 5~10배로 추정됩니다. 왜 이렇게 비쌀까요?

비용을 높이는 4가지 요인

요인 설명
1. 인터포저 제조 실리콘 인터포저는 웨이퍼 공정으로 만듭니다. 사실상 칩 하나를 더 만드는 비용이 추가됩니다. TSMC 65nm 공정 사용. 웨이퍼 1장에서 나오는 인터포저 수도 적습니다 (대면적이므로).
2. 대면적 수율 인터포저가 클수록 결함 확률이 높아집니다. 현재 최대 3.3x reticle (~2,700mm²)까지 확대되었는데, 이를 위해 리소그래피를 여러 번 이어 찍는 'stitching' 기술이 필요합니다.
3. 멀티다이 조립 GPU + HBM 4~8개를 마이크로미터 정밀도로 접합해야 합니다. 다이 하나라도 불량이면 패키지 전체가 폐기됩니다. Known Good Die(KGD) 검증이 필수입니다.
4. 테스트 복잡도 멀티다이 패키지의 테스트는 단일 칩보다 훨씬 복잡합니다. 다이 간 인터페이스, 신호 무결성, 열 관리 등을 모두 검증해야 합니다.
업계 추정 비용 (비공개, 애널리스트 추정치):
• 일반 Flip Chip 패키징: 칩당 $50~100
• CoWoS-S 패키징: 칩당 $500~1,000+
• NVIDIA H100 전체 패키지 비용 중 CoWoS 비중: 약 20~30%

비용이 높지만, AI 가속기 전체 가격($25,000~40,000)에서 차지하는 비중을 생각하면, 성능을 위해 감수할 수 있는 수준입니다. "비싸지만 대안이 없다"가 현재 상황입니다.

9. CoWoS 변형 미리보기 — S, R, L

CoWoS는 하나의 기술이 아니라, 용도에 따라 3가지 변형이 있습니다:

변형 인터포저 특징
CoWoS-S 실리콘 (Silicon) 가장 성숙. 최고 성능. 비용 높음. H100, MI300X에 사용
CoWoS-R 유기 RDL 실리콘 인터포저 대신 재배선층 사용. 비용 절감. 대면적 가능
CoWoS-L 실리콘 브릿지 + RDL S와 R의 하이브리드. 차세대 메인스트림. B200에 사용 추정

각 변형의 구조, 장단점, 선택 기준은 시리즈 2편 「CoWoS-S vs CoWoS-R vs CoWoS-L — 뭐가 다른가」에서 자세히 다룹니다.

10. 자주 묻는 질문 (FAQ)

CoWoS 뜻이 무엇인가요?
Chip on Wafer on Substrate의 약자입니다. 칩(다이)을 웨이퍼(인터포저) 위에 올리고, 이를 기판 위에 실장하는 구조를 뜻합니다. TSMC가 2012년에 상용화했습니다.
CoWoS는 TSMC만 만들 수 있나요?
CoWoS는 TSMC의 브랜드명입니다. 삼성(I-Cube), Intel(EMIB/Foveros) 등도 유사한 2.5D/3D 패키징 기술을 보유하고 있습니다. 하지만 양산 실적과 고객 기반에서 TSMC가 압도적 우위에 있습니다. 경쟁사 비교는 시리즈 4편에서 다룹니다.
CoWoS 없이 HBM을 쓸 수 있나요?
이론적으로 가능하지만, HBM의 광대역 성능을 100% 활용하려면 CoWoS급 인터포저 기술이 필수입니다. 일반 기판으로는 HBM이 요구하는 수천 개 I/O를 처리할 수 없습니다.
CoWoS가 비싼 이유는?
대면적 실리콘 인터포저 제조 비용이 핵심입니다. 인터포저 자체가 웨이퍼 공정으로 만들어지므로 사실상 '칩 하나를 더 만드는' 비용이 추가됩니다. 또한 대면적 인터포저의 수율 관리도 비용을 높이는 요인입니다.

CoWoS 시리즈 — 첨단 패키징 완전 가이드

  • 1편: CoWoS란? — AI 시대 반도체 패키징의 핵심 (지금 읽는 글)
  • 2편: CoWoS-S vs CoWoS-R vs CoWoS-L — 뭐가 다른가
  • 3편: CoWoS와 HBM — 왜 같이 다닐 수밖에 없는가 (근간)
  • 4편: CoWoS 공급 전쟁 — TSMC vs 삼성 vs Intel (근간)
  • 5편: 한국 반도체와 첨단 패키징 — 기회와 딜레마 (근간)

반도체 기술 트렌드, 놓치지 마세요

학회 일정, 기술 분석, 업계 동향을 정리해 보내드립니다.

SemiHub 블로그 전체 보기