반도체 공정 데이터 분석을 통한 수율 개선 프로젝트 (SECOM)

Kaggle의 실제 반도체 제조 공정(SECOM) 데이터에서 발생하는 수율 저하의 근본 원인을 찾기 위해 진행한 데이터 분석 프로젝트입니다.

기간2025.11

역할단독 진행 (전처리·분석·모델링)

스택Python, Pandas, Random Forest

데이터Kaggle SECOM (1,500개 이상 변수)

1,500+분석한 공정 변수

Top 5도출한 핵심 불량 변수

GitHub코드·방법론 공개

개요

반도체 기업에서 수율 엔지니어에게는 데이터 분석 역량이 필수적이라고 생각했습니다. Pandas와 머신러닝을 학습하는 데 그치지 않고, 실제 반도체 제조 공정 데이터를 활용해 수율 저하의 원인을 분석하는 프로젝트를 진행했습니다.

문제 정의: Kaggle의 실제 반도체 제조 공정(SECOM) 데이터에서 발생하는 수율 저하의 근본 원인을 찾고자 했습니다.

전처리

분석

Random Forest 기반 공정 변수 Feature Importance Top 5 (변수 ID: 59, 103, 348, 130, 33)

분석 결과, 특정 'Sensor' 값이 수율 저하와 가장 높은 상관관계를 보임을 확인했습니다. 이를 바탕으로 해당 공정 변수의 관리 한계선(Control Limit)을 강화하는 엔지니어링 솔루션을 제안했습니다.

증빙: 전체 분석 코드와 방법론은 GitHub에 문서화했습니다. GitHub Repository →

"제조 공정 데이터(SECOM)를 활용, Pandas 기반의 데이터 전처리 및 머신러닝(Random Forest)을 통해 수율 저하의 핵심 원인(공정 변수)을 규명하고 개선 방안을 도출한 프로젝트"

결측치를 처리하고, 머신러닝 모델로 핵심 불량 원인을 특정하며, 공정 개선점을 도출하는 엔지니어의 문제 해결 전 과정을 경험함
단일 변수 상관관계가 아닌 모델 기반 변수 중요도로 접근해야 다변량 공정 데이터의 원인을 더 신뢰성 있게 짚어낼 수 있음을 체득
다음에는 XGBoost·LightGBM 등 다른 분류 모델과 성능을 비교하고, 도출한 핵심 변수를 실제 공정 관리도(SPC)와 연동해 실시간 이상 탐지로 확장해보고 싶습니다