데이터라벨링

디지털 병리 프리뷰 이미지 AI 데이터라벨링, 왜 필요한가?

Tesser

09 Mar 2026 • 14 min read

디지털 병리학(Digital Pathology)은 기존의 광학 현미경 기반 조직 검사를 디지털 영상으로 전환하여, AI 분석과 원격 진단을 가능하게 하는 의료 영상 분야의 핵심 기술입니다. 이 과정에서 가장 중요한 장비 중 하나가 슬라이드 스캐너인데, 스캐너가 조직 슬라이드를 고해상도로 디지털화하려면 먼저 프리뷰 영상을 촬영하고, 어디에 조직이 있는지, 어디에 초점을 맞춰야 하는지를 정확히 판단해야 합니다.

이 판단을 사람이 아닌 딥러닝 모델이 자동으로 수행하도록 만들기 위해서는, 모델이 학습할 수 있는 고품질 라벨링 데이터가 필수적입니다.

이 글에서는 디지털 병리 프리뷰 이미지의 라벨링이 왜 필요한지, 어떤 클래스들을 구분해야 하는지, 그리고 실제 작업 시 주의해야 할 세부 기준은 무엇인지를 다루겠습니다.

1. 왜 프리뷰 이미지 라벨링이 필요한가

슬라이드 스캐닝의 작동 원리

병리 슬라이드 스캐너는 유리 위에 올려진 조직 샘플을 스캔하기 전에 저해상도 프리뷰 이미지를 먼저 촬영합니다.

이 프리뷰 영상(약 900×2000 픽셀, RGB 8-bit JPG)을 분석하여 스캐너는 다음과 같은 결정을 내립니다.

스캔 영역 결정: 실제 조직(tissue)이 있는 영역만 고해상도로 스캔
초점 포인트 설정: 조직이 선명하게 보이는 영역(Focus ON)과 빈 공간(Focus OFF)을 구분하여 최적의 초점 위치를 산출
아티팩트 회피: 먼지, 기포, 펜 마킹 등 스캔 품질을 저하시키는 요소를 인식하고 회피

기존에는 이러한 판단이 규칙 기반 알고리즘(rule-based)이나 단순 임계값(threshold) 방식으로 이루어졌지만, 조직의 염색 상태, 슬라이드 제작 품질, 아티팩트 유형 등이 워낙 다양하기 때문에 일반화된 규칙만으로는 한계가 있습니다.

딥러닝 모델의 등장과 데이터의 중요성

딥러닝 기반 초점 분류(Focus Classification) 모델은 프리뷰 영상의 각 영역이 어떤 클래스에 해당하는지를 픽셀 단위로 분류할 수 있습니다.
이를 통해 스캐너는 더 정확하고 빠르게 스캔 전략을 수립할 수 있죠.

그런데 이 모델을 학습시키려면, 사람이 직접 프리뷰 이미지의 각 픽셀을 정확히 분류해 놓은 라벨 맵(Label Map)이 대량으로 필요합니다.

이것이 바로 프리뷰 이미지 라벨링이 필요한 핵심 이유입니다.

2. 무엇을 라벨링하는가 — 7개 클래스 정의

프리뷰 이미지 라벨링에서는 슬라이드 위에 존재할 수 있는 모든 구성 요소를 7개 클래스로 분류합니다.

각 클래스에는 고유한 색상(RGB)과 우선순위(Priority)가 부여되며, 동일 픽셀에 여러 클래스가 겹칠 경우 우선순위가 높은 클래스가 남습니다.

이곳에서 자세한 설명은 드릴 수 없지만, 정의하는 7개의 클래스에 대한 정의는 대략 아래와 같습니다.

클래스 목록

클래스	설명
Pen	펜 마커 — 병리사가 슬라이드에 표시한 마킹
Dust	먼지 또는 아티팩트 입자
CoverSlip	커버슬립 경계(edge), 약 20픽셀 너비
Bubble	기포 — 커버슬립 아래에 갇힌 공기 방울
FocusON	명확한 조직(tissue) 영역
FocusOFF	조직 내 빈 공간 또는 매우 얇은 조직 영역
Slide	전체 슬라이드 경계, 약 10픽셀 너비
Background	미라벨(라벨링 대상 아님)

겹침 규칙

동일 픽셀에 다수 클래스가 겹칠 경우, 우선순위(Priority)가 더 높은(숫자가 작은) 클래스를 남기고 나머지를 제거합니다.

예를 들어, 펜 마킹이 조직 위에 있다면 해당 픽셀은 Pen(우선순위 1)으로 라벨링됩니다.

3. FocusON과 FocusOFF — 가장 까다로운 구분

7개 클래스 중 실제 라벨링에서 가장 판단이 어려운 영역이 FocusON(조직 영역)과 FocusOFF(빈 공간/얇은 조직)의 경계입니다. 이 두 클래스의 구분 기준은 최종 스캔 해상도와 직결되기 때문에, 단순히 "보이는 대로" 나누는 것이 아니라 정량적 기준을 따릅니다.

해상도 기반 판단 기준

프리뷰 영상은 약 935(또는 934)×2000 픽셀이며, 이 영상은 최종적으로 40×140 그리드로 나뉘어 각 셀 단위로 라벨이 결정됩니다.

한 셀의 크기: 약 23.3 × 14.2 픽셀
즉, 조직 내에 23.3×14.2 영역보다 큰 빈 공간은 FocusOFF 처리가 필요
이보다 작은 빈 공간은 미세하게 FocusOFF를 라벨링할 필요 없음

염색 농도에 따른 기준 차이

진한 염색의 경우: FocusON 영역에 둘러싸인 닫힌 공간이면서, 다른 라벨(예: Bubble)이 아닌 경우에 FocusOFF로 처리합니다. 진한 염색 조직에서는 FocusOFF 기준을 타이트하게(엄격하게) 적용합니다.
연한 염색의 경우: 완전히 닫힌 영역이 아니더라도 FocusOFF로 처리합니다. 또한, Background로 판단했던 영역이 실제로는 FocusON일 수 있으므로, 연한 염색에서는 FocusOFF 기준을 루즈하게(유연하게) 적용합니다.

이처럼 동일한 클래스 구분이라도 조직의 특성에 따라 판단 기준이 달라질 수 있기 때문에, 라벨링 가이드라인을 세밀하게 정의하고 라벨러 간 일관성을 유지하는 것이 매우 중요합니다.

4. 라벨링 작업 방식과 도구

작업 방식: 픽셀 단위 세그멘테이션 마스크

이 작업은 단순 바운딩 박스(Bounding Box)나 점(Point) 라벨링이 아닌,
원본 이미지와 동일한 크기의 7-클래스 세그멘테이션 마스크를 제작하는 것으로,
이미지의 모든 픽셀이 7개 클래스 중 하나(또는 Background)로 분류되어야 합니다.

출력 포맷

라벨 맵의 출력 형식은 PNG 이미지 또는 NumPy 배열(.npy)로, 각 픽셀 값이 해당 클래스의 인덱스(0~7)를 나타냅니다.

활용 가능한 라벨링 도구
픽셀 단위 세그멘테이션 작업에 적합한 대표적인 도구들은 다음과 같습니다.

QuPath: 병리 이미지에 특화된 오픈소스 도구로, 대용량 병리 영상의 어노테이션에 최적화되어 있습니다. 조직 영역 자동 검출 기능이 내장되어 있어 초기 라벨링 속도를 높일 수 있습니다.

CVAT (Computer Vision Annotation Tool): Intel이 개발한 웹 기반 어노테이션 플랫폼으로, 다수의 라벨러가 동시에 작업하고 관리자가 진행 상황을 모니터링할 수 있는 협업 기능이 강점입니다. 세그멘테이션 마스크 내보내기를 기본 지원합니다.

Labelme: 가볍고 직관적인 폴리곤 기반 라벨링 도구로, JSON 형태의 어노테이션을 세그멘테이션 마스크로 변환하는 유틸리티가 함께 제공됩니다.

테서는 고객사와 토의하여 CVAT을 선택하였고, 고객사의 니즈를 실시간으로 반영하며 라벨링 작업이 진행되었습니다.

5. AI 사전 라벨링(Pre-labeling)의 활용

대규모 라벨링 작업에서는 AI 모델을 활용한 사전 라벨링 방식이 점차 보편화되고 있습니다.

이 방식은 크게 두 가지로 나눌 수 있습니다.

A방식: AI 사전 라벨링 + 라벨러 리터치

학습된 AI 모델이 먼저 자동으로 라벨링 결과를 산출
라벨러가 AI 결과를 검토하며 오류를 수정(리터치)
검수자가 최종 품질을 확인

이 방식은 라벨러의 작업 시간을 크게 단축할 수 있지만, AI 결과에 대한 과신(over-reliance) 문제가 발생할 수 있습니다.

라벨러가 AI 결과를 무비판적으로 수용하면 체계적인 오류가 그대로 전파될 위험이 있습니다.

B방식: 처음부터 라벨러가 직접 라벨링

라벨러가 원본 이미지를 보고 처음부터 직접 라벨링
검수자가 최종 품질을 확인

시간과 비용은 더 들지만, AI 편향(bias)에 영향받지 않는 독립적인 라벨링 데이터를 얻을 수 있습니다.

특히 모델의 초기 학습 단계에서는 이 방식이 더 적합할 수 있습니다.

6. 라벨링 품질 관리 — 목표 지표

라벨링 데이터의 품질을 정량적으로 평가하는 것은 쉽지 않지만, 다음과 같은 지표들을 통해 라벨링의 일관성과 정확성을 수치화할 수 있습니다. 아래는 유사한 의료영상 세그멘테이션 작업에서 일반적으로 활용되는 품질 기준입니다.

정확도 (Inter-rater Dice)
라벨러 간 일치도를 측정하는 Dice 계수로, 두 라벨러가 동일한 이미지를 라벨링했을 때 얼마나 일치하는지를 나타냅니다. 일반적으로 90% 이상(단순 케이스 기준)을 목표로 합니다.

경계 오차 (HD95, Hausdorff Distance 95th percentile)
예측 경계와 실제 경계 사이의 거리를 측정하며, 상위 5%의 극단적 오차를 제외한 값입니다. 의료영상에서는 2.0~3.0mm 이하를 목표로 설정하는 경우가 많습니다.

평균 표면 오차 (ASD, Average Surface Distance)
경계면 전체에 걸친 평균 거리 오차로, 0.5~0.8mm 이하가 일반적인 목표입니다.

체적 오차 (Volume Difference)
전체 라벨링 영역의 크기 차이로, 5% 이하를 목표로 합니다.

재현율 (Recall)
실제 존재하는 영역을 빠뜨리지 않고 얼마나 잘 잡아내는지를 나타냅니다. 95% 이상(즉, False Negative 5% 이하)이 일반적인 목표입니다.

7. 작업 시 주의사항

불필요한 슬라이스 제거
데이터에 따라 라벨링 목적에 불필요한 이미지가 포함되어 있을 수 있습니다. 라벨러가 육안으로 판단하여 불필요한 이미지를 선별하거나, 전달 전에 사전 필터링 작업을 수행하는 것이 효율적입니다.

전문의 검수 여부
의료 데이터 라벨링에서 전문의(병리의 등)의 검수는 데이터 신뢰도를 높이지만, 비용이 크게 상승합니다. 프리뷰 이미지의 경우 조직 진단이 아닌 영역 분류 작업이므로, 전문의 검수 없이 숙련된 라벨러의 작업과 교차 검증으로도 충분한 품질을 확보할 수 있는 경우가 많습니다.

라벨러 교육과 가이드라인
FocusON/FocusOFF 구분처럼 주관적 판단이 개입되는 클래스가 있으므로, 작업 전 충분한 가이드라인 공유와 예시 이미지 교육이 필수적입니다. 특히 염색 농도에 따른 판단 기준 차이는 구체적인 예시 이미지와 함께 전달되어야 합니다.

병리 이미지 데이터 라벨링 후기

디지털 병리 프리뷰 이미지 라벨링은 단순한 데이터 제작 작업이 아니라, 슬라이드 스캐닝 시스템의 지능화를 위한 핵심 기초 작업입니다.

7개 클래스에 대한 명확한 정의, 겹침 규칙, 염색 농도에 따른 판단 기준, 그리고 체계적인 품질 관리 지표까지 이 모든 요소가 조화를 이루어야 비로소 딥러닝 모델이 학습할 수 있는 고품질 데이터가 완성됩니다.

앞으로 이러한 라벨링 데이터를 기반으로 한 초점 분류 모델이 고도화되면, 병리 슬라이드 스캐닝의 자동화 수준은 한 단계 더 도약할 수 있을 것입니다.

의료기기 AI 도입을 위한 의료 영상 데이터라벨링
문의 및 상담은 아래 링크에 문의를 남겨주세요.