왜 지금 '신뢰성'인가
GPU 5만 장 클러스터 시대. AI 모델 학습에 수천 개 칩이 수개월간 동시 가동된다.
문제는 Silent Data Corruption(SDC). 칩이 완전히 고장나면 시스템이 멈추고 원인을 알 수 있다. 하지만 트랜지스터가 "살짝 열화"되면? 1,000번 중 999번은 정상인데, 1번 틀린 값을 내보낸다. 에러 신호 없이. 조용히.
GPU 1개일 때는 큰 문제가 아니다. 하지만 5만 개가 동시에 수개월 가동되면, 그 중 하나에서 SDC가 발생할 확률은 급격히 상승. 한 개의 틀린 값이 AI 모델 전체 학습을 오염시킬 수 있고, 수개월 뒤에야 "모델 성능이 왜 이상하지?"로 발견 — 처음부터 재학습하면 GPU 비용만 수백억.
예전의 신뢰성: "고장 안 나면 됐다." 지금의 신뢰성: "고장을 실시간으로 감지하고 예측해야 한다."
이 변화를 가장 선명하게 보여준 학회가 IRPS 2026(3/22~26, 미국 투산, 60주년). 키노트·워크샵·논문을 기반으로 확인된 3가지 흐름을 정리하고, CEA-Leti·imec·POSTECH 등 주요 기관의 발표를 한눈에 볼 수 있도록 재구성.
IRPS 2026에서 확인된 3가지 흐름
흐름 1 — AI/HPC(초고성능 컴퓨팅)가 신뢰성의 최대 고객
키노트 4개 중 3개가 AI/HPC/데이터센터 직결. 워크샵 5개 중 3개가 AI 관련. 신뢰성 학회의 무게중심이 완전히 이동.
키노트 1 — TSMC Dr. Jun He (VP, Advanced Packaging)
TSMC 어드밴스드 패키징 총괄. 특허 141건, 논문 50편+. CoWoS 용량 확대와 AI용 패키징 수율 개선을 주도하는 인물.
"Advancing 3DIC Technologies to Propel AI Innovations"
AI 칩 출시 주기가 매년으로 빨라지면서, CoWoS(Chip on Wafer on Substrate — NVIDIA GPU에 HBM 메모리를 연결하는 TSMC의 핵심 패키징 기술) 등 어드밴스드 패키징도 매년 새로 개발·양산해야 하는 상황. 수율과 품질(DPPM, 100만 개당 불량 수)을 1년 안에 잡아야 하는 전례 없는 도전.
키노트 2 — AMD Dr. Vilas Sridharan (Senior Fellow)
AMD RAS(Reliability, Availability, Serviceability) 아키텍처 팀 리더. 데이터센터 환경에서 하드웨어 고장을 설계 단계부터 대비하는 전문가.
"Data Center Reliability: What Have We Learned?"
Silent data corruption이 AI 학습에 치명적. 칩 설계 단계(마이크로아키텍처)부터 고장을 견디는 구조가 필요. 데이터센터 현장에서 실제로 겪는 고장 유형과 대응 사례 공유.
키노트 3 — LLNL Dr. Bruce Hendrickson (Principal Associate Director)
로렌스 리버모어 국립연구소(LLNL) 컴퓨팅 부문 총괄. 세계 1위 슈퍼컴퓨터 El Capitan 운영 책임자.
"Reliability and HPC — lessons from the bleeding edge"
El Capitan 실제 운영 사례. 수만 개 프로세서가 동시에 돌아가는 환경에서 어떤 고장이 얼마나 나는지 현장 데이터 공유. 전력·열 관리부터 HW/SW 중복 설계까지.
워크샵 — AI 관련 3건
- Data Center Reliability — AWS, Fujitsu, Qualcomm 참여. 데이터센터 환경 실시간 고장 감지·예측
- Advanced Packaging — TSMC, Microchip 참여. 3DIC/칩렛 패키징 신뢰성 검증
- Resilient Edge AI — ASU, Sandia 참여. 엣지 환경의 AI 칩 내결함성
흐름 2 — 패키징(3DIC/HBM)이 새로운 병목
칩렛(작은 칩 여러 개를 하나로 묶는 설계), 인터포저(칩 사이 연결 기판), 하이브리드 본딩(칩을 직접 접합하는 기술). 예전에는 트랜지스터 자체의 수명(TDDB, EM)이 관건이었지만, 지금은 칩과 칩을 연결하는 부분의 수명이 전체를 결정.
- TSMC 키노트가 3DIC 패키징 신뢰성을 직접 다룬 것 자체가 신호. 패키징이 더 이상 "후공정"이 아니라 칩의 성능과 수명을 결정하는 핵심 공정
- imec — 웨이퍼 대 웨이퍼 하이브리드 본딩의 피치(접합 간격)를 줄일 때 생기는 신뢰성 한계 분석
- imec — 나노시트 기반 3D SiP(System in Package)의 열안정성 분석. 칩 여러 개를 쌓으면 열이 어떻게 쌓이고 수명에 영향을 주는지
- Highlighted Paper — EMIB-T(TSV 기반 패키징)의 품질·신뢰성 검증. 업계 표준(JEDEC) 수준 달성 확인
- Workshop Chair — Samsung Taiki Uemura가 Advanced Packaging 워크샵 의제 설정에 직접 참여
흐름 3 — 차세대 소자(CFET, 2D, GaN)의 신뢰성 경쟁 시작
양산 전에 수명·열화 메커니즘을 이해해야 경쟁력. IRPS가 그 데이터가 처음 공개되는 무대.
키노트 4 — imec Dr. Sri Samavedam (SVP, Semiconductor Technologies)
imec 반도체 기술 및 패스파인딩 총괄. GlobalFoundries에서 14nm FinFET 양산을 주도한 경력. MIT 박사.
"Technology Strategies for Evolving Compute Challenges"
트랜지스터를 더 작게 만드는 것(스케일링)이 한계에 가까워지면서, 새로운 구조의 트랜지스터가 필요. 그 새 구조가 "실제로 얼마나 오래 버티는가"가 핵심 질문.
- Workshop 1: Emerging Transistor Architectures — CFET(트랜지스터를 위아래로 쌓는 구조), Forksheet, 2D 소재, CNT(탄소나노튜브). 아직 양산 전이지만 수명 데이터 확보 경쟁이 이미 시작
- Workshop 5: Wide-Bandgap Device Reliability — SiC(탄화규소), GaN(질화갈륨). 전기차·데이터센터 전력 변환에 쓰이는 전력반도체의 신뢰성 검증 수요 폭증
기관별 발표 총정리 — 누가 무엇을 발표했나
IRPS 공식 프로그램에서 기관별 발표를 추출·재구성. 원래 사이트에서는 세션별로 흩어져 있어 한눈에 보기 어려운 정보를 기관 단위로 정리.
CEA-Leti — 유럽 최대 반도체 연구소, 7편 발표 (+2편 기여)
| 세션 | 제목 | 핵심 내용 | 왜 중요한가 |
|---|---|---|---|
| 11B - RF/mmW/5G (3/26) | RF Aging Characterization & Modeling for PA Design | 5G mmWave 파워앰프 RF 에이징 특성화 + 모델링 | 5G 상용화에 RF 신뢰성 데이터 직접 활용 |
| 11B - RF/mmW/5G (3/26) | Thermal Robustness of GaN-on-Si MIS-HEMT | CMOS 호환 GaN-on-Si MIS-HEMT 375°C 열안정성 | 자동차/항공 전자용 GaN 고온 신뢰성 검증 |
| 2A - Transistors (3/24) | Ground-Plane Effect on RTN in Mesa-Isolated SOI | SOI MOSFET의 random telegraph noise 분석 (STMicro 공동) | 3D sequential CIS(이미지센서) 핵심 이슈 |
| 3C - Reliability Testing (3/24) | Dit-Nt Correlation in pBTI Stressed SOI nMOSFET | 저주파 노이즈 기반 BTI 열화 메커니즘 | FD-SOI 노드 신뢰성 평가 방법론 |
| 4C - Process Integration (3/24) | BTI 10yrs Lifetime for BEOL-Compatible HV Si-CMOS | 420°C 이하 BEOL 호환 고전압 Si-CMOS 10년 수명 달성 | 3D sequential integration 핵심 요구사항 충족 |
| 4C - Process Integration (3/24) | Channel Doping Effect on HCI in Analog SOI nMOSFETs | 채널 도핑이 hot carrier 열화에 미치는 영향 | 아날로그 FD-SOI 설계 지침 |
| 4C - Process Integration (3/24) | HK Thickness Scaling down to 1.1nm | High-k 두께 1.1nm 스케일링 → gate leakage 감소 + PBTI 개선 | 차세대 FD-SOI 노드 로드맵 |
| 11A - BEOL (3/26) | Electromigration Lifetime Through Power Grid Segmentation | Blech effect 활용 power-grid 분할로 EM 수명 개선 (Siemens EDA 공동) | EDA 도구 연계 설계 단계 신뢰성 최적화 |
| 7A - Transistors (3/25) | Spacer Trapping Effect on HCI for Advanced FDSOI | 스페이서 트랩핑의 hot carrier 열화 영향 분석 | 차세대 FD-SOI/GAA/CFET 공통 이슈 |
imec — 차세대 소자·패키징 신뢰성 선도, 6편 발표
| 분류 | 제목 | 핵심 |
|---|---|---|
| Tutorial | GaN Power HEMTs Reliability Review | GaN 전력소자 신뢰성 종합 리뷰 |
| GaN | Dynamic ON-state Breakdown of GaN-on-Si HEMT | 동작 중 항복 메커니즘 분석 |
| 3D Packaging | Nanosheet 3D SiP Thermal Stability | Multi-die framework 기반 열안정성 |
| Packaging | W2W Hybrid Bonding Pitch Scaling Challenges | 웨이퍼 대 웨이퍼 본딩 미세 피치 한계 |
| Tutorial | 2D Material FETs: Gate Stack, Defectivity, Reliability | 2D 소재 FET 신뢰성 종합 |
| Photonics | GaAs-on-Si Nano-ridge Laser Lifetime Model | 실리콘 광소자 수명 모델 |
한국 — POSTECH 구두발표, Samsung Workshop Chair, KAERI Invited
POSTECH 이병훈 교수팀 — 구두발표 채택
레이저 유도 누설전류 매핑 기법. High-k 절연막의 결함 취약 지점을 파괴 전 사전 예측. 초기 취약 지점이 전기적 스트레스 후 실제 파괴 위치와 일치함을 검증. 저전계 조건에서도 고장 진단 가능.
Samsung — Workshop Chair
Taiki Uemura가 Advanced Packaging 워크샵 Chair. 워크샵 의제 설정에 직접 참여. Bronze 스폰서.
KAERI 강창구 박사 — Invited Speaker
나노소자 인터페이스 엔지니어링과 방사선 내성. 방사선 환경(우주·원자력)에서의 소자 신뢰성.
스폰서로 보는 업계 관심 지도
| 등급 | 기업 |
|---|---|
| Platinum | Infineon |
| Gold | Cisco, STMicroelectronics, TSMC, GlobalFoundries, AMD |
| Silver | Qualcomm, NVIDIA, QualitAu |
| Bronze | Applied Materials, Qorvo, Kioxia, IBM, NXP, Intel, TEL, Marvell, Solidigm, Toshiba, Samsung |
So What — 반도체 엔지니어에게 의미하는 것
1. 신뢰성 ≠ 소자만의 문제
패키징(3DIC), 시스템(데이터센터), 소재(2D/GaN)로 전방위 확장. "신뢰성 엔지니어"의 정의가 넓어지는 중. 소자 물리만 아는 것으로는 부족하고, 패키징·시스템·EDA까지 연결하는 시야 필요.
2. AI가 신뢰성의 최대 고객
Silent data corruption 하나가 수개월 학습을 오염시킬 수 있는 환경. "고장률 0.01% 줄이기"가 수억 달러 가치를 가지는 시대. 신뢰성 엔지니어의 비즈니스 임팩트가 급격히 상승.
3. 차세대 소자의 신뢰성 데이터 경쟁 시작
CFET, Forksheet, 2D materials — 양산 전 수명 데이터를 누가 먼저 확보하느냐가 경쟁력. IRPS가 그 데이터가 처음 공개되는 무대. 논문 1편이 기술 로드맵에 직접 영향.
4. 한국의 과제
삼성·SK하이닉스의 기술 리더십은 인정되지만, 학회 발표 볼륨에서 CEA-Leti(9편)/imec(6편) 대비 격차 존재. 산학 협력과 연구 생태계 투자가 핵심. POSTECH 학부생 oral 채택은 가능성의 증거.
마무리
IRPS 2026은 "반도체 신뢰성"이라는 주제가 AI 시대에 얼마나 중요해졌는지 보여준 학회. 60주년을 맞아 키노트·워크샵·논문 전반에서 AI/HPC가 중심축으로 자리잡은 것이 가장 큰 변화.
Best Paper 수상작은 공개되는 대로 이 글에 업데이트 예정.
사전 참가 가이드: IRPS 2026 — 반도체 신뢰성 엔지니어를 위한 참가 가이드
다른 학회 정리: GTC 2026 핵심 정리
놓치면 아쉬운 학회 소식, 먼저 받아보세요
CFP 마감, 주요 학회 일정, 업계 동향을 정리해서 보내드립니다.
월 1~2회 · 광고 없음 · 언제든 구독 해지 가능