의료데이터 라벨링과 AI 모델, 테서와 함께하세요.

의료데이터 라벨링과 AI 모델, 테서와 함께하세요.

의료 인공지능 솔루션 기업 '테서'는 AI 기술을 바탕으로 의료데이터 라벨링 서비스를 운영하고 있습니다. 

의료데이터와 활용방안은 있지만, 라벨링을 진행할 전문인력이나 비용 문제, IRB 절차 등으로 고민하셨을 분들을 위해, 테서의 의료데이터 라벨링 서비스와, 어노테이션 효율을 높여주는 AI 기술을 소개드립니다. 

의료와 관련된 데이터라면 학습 데이터 구축부터 서비스 기획, AI 모델링, 제품 구현까지, 전문 상담을 통해 빠르고 편리하게 진행해보세요.

데이터 라벨링의 중요성

인공지능의 성능은 데이터가 좌우한다고 해도 과언이 아닙니다.

테슬라 차량의 자율주행부터 ChatGPT, 그리고 의료/헬스케어 영역의 다양한 서비스들에서도 마찬가지입니다.

'지도학습' 모델 뿐 아니라, GPT와 같은 '비지도 학습' 기반의 거대 언어모델에서도 성능을 높이기 위해 사람의 라벨링 데이터를 함께 활용하는 RLHF(Reinforcement Learning from Human Feedback, 사람의 피드백을 통한 강화학습) 방식을 대규모로 사용하고 있습니다. 

이제는 모델 자체의 성능보다, 양질의 데이터를 얼마나 빠르게 많이 구축했는지가 가장 중요한 시기 입니다.

의료데이터 라벨링의 어려움

의료 도메인에서는 이러한 라벨링이 차지하는 비중이 다른 분야보다도 훨씬 더 높다고 할 수 있습니다. 

임상 진료나 연구 환경에서 사용되려면 다른 분야의 인공지능보다 더욱 높은 정확성과 정밀성을 요구하고, 여기에 가장 많은 영향을 미치는 것이 정확한 라벨링이기 때문입니다. 

뇌 종양 영역 라벨링 예시. 종양 내에서도 조직의 특징에 따라 여러가지 범위로 나누어집니다. 

그러나 정확한 의료 데이터 라벨링에는 여러가지 현실적인 어려움이 있습니다. 많은 기업과 병원이 이로 인해 데이터를 충분히 제작하지 못하고 있는 경우가 많습니다.

1) 먼저, 라벨링에 참여할 전문인력을 찾는 것이 쉽지 않습니다. 

정확한 병변 어노테이션을 위해서는 보통 해당 질환의 전문성을 가진 의료인(예: 폐 질환만 다루는 영상의학과 전문의)이 함께 참여해주며 데이터 작업을 이끌어주어야 합니다. 그렇지만 이들을 직접 찾아 연결되는 단계부터도 결코 쉽지 않으며, 또한 함께 참여하도록 설득하는 것 또한 마찬가지입니다. 

2) 이는 높은 라벨링 단가의 원인이 됩니다. 

임상 진료로 많은 시간을 보내며, 높은 수준에 인건비가 형성되어 있는 의사가 직접 참여해야 하기 때문에, 이들이 적극적으로 참여하도록 하기 위해서는 어쩔 수 없이 높은 비용을 지불해야 하는 경우가 많습니다. 또한 정확성을 위한 여러 차례의 검수는 더욱 단가를 높이는 원인이 됩니다. 

3) 인력이 제한적이기에, 작업 속도 또한 느립니다. 

임상 진료로 많은 시간을 보내며, 높은 수준에 인건비가 형성되어 있는 의사가 직접 참여해야 하기 때문에, 이들이 적극적으로 참여하도록 하기 위해서는 어쩔 수 없이 높은 비용을 지불해야 하는 경우가 많습니다. 또한 정확성을 위한 여러 차례의 검수는 더욱 단가를 높이는 원인이 됩니다. 

4) 개인정보 관리에 철저해야 합니다.

데이터의 비식별처리와 함께, 의료데이터를 다룰 수 있는 관리체계와 보안 아키텍쳐를 다뤄야 하며, 작업자에 대한 관리 또한 철저하게 이루어져야 합니다. 기본적인 서약서 작성은 물론, 작업 환경과 반출방지 등에 대한 체계적인 지침과 시스템이 필요합니다. 그래서 일반적인 크라우드 소싱보다 더 복잡한 관리와 운영이 요구됩니다. 

5) IRB 심의와 관련해서도 핸들링이 필요합니다. 

많은 경우 원내 또는 공용 IRB 심의를 거쳐서 원천 데이터를 확보해야 하고, 작업 위탁 시 연구 참여자로 함께 등록되어야 할 경우도 많습니다. 체계적인 개인정보 관리 방침과 시스템, 그리고 이러한 절차에 대한 이해와 지원이 가능해야 합니다. 

테서의 의료데이터 라벨링 서비스가 필요한 이유

테서에서는 이러한 어려움을 해결하기 위한 기술과 시스템으로, 더 효율적이고 정확하게 인공지능 개발과 임상 분석 연구에 필요한 의료 데이터를 가공합니다. 

1) 전문 의료인 풀을 통해 정확한 검수를 지향합니다. 

많은 기업들이, 때론 병원들도 가장 어려워하는 부분 중 하나가 바로 의료인 풀입니다. 저희는 다양한 분야별 전문의 및 교수님들의 참여 및 자문을 통하여 확실하게 검증된 의료 데이터 제작을 진행하고, 이러한 과정에서 소요되는 불필요한 시간 낭비를 줄일 수 있습니다.

2) 인공지능 기술을 통해 보다 빠른 작업이 가능합니다. 

CT, MRI, 병리영상, X-Ray 등 다양한 의료 이미지와 의료 분야 텍스트 등의 데이터를 분할하고 또 정보를 추출해 분석하는 자체 인공지능 알고리즘과 사전학습모델을 통해, 반자동 어노테이션을 도입해 보다 빠른 속도로 데이터 제작이 가능합니다. 

3) 철저한 개인정보 관리 시스템을 제공합니다. 

의료 영상 및 다양한 의료정보의 비식별화 기술과 HIPAA(미국의료정보보호법) 기준을 준수하는 의료 정보를 다룰 수 있는 안전한 클라우드 아키텍쳐 기반의 보안환경 구성, 내부 개인정보 관리조직으로 안전한 시스템 운영이 가능합니다. 

4) IRB 관련 지원이 가능합니다. 

다수의 공용, 기관 IRB 심의 통과 경험을 바탕으로, 데이터 관리 및 개인정보 처리와 관련 보안문서, 원내 프로토콜에서 요구되는 사항들에 대한 지원이 가능합니다. 

테서의 의료 데이터 라벨링은 기본적으로 아래와 같은 절차를 따라 진행됩니다.

전반적인 라벨링 프로세스 모식도(클릭해서 자세히 살펴보세요)


효율적인 라벨링을 위한 인공지능 기술

테서는 효율적이고 정확한 라벨링을 가능하게 하는 다양한 AI(인공지능) 솔루션을 보유하고 있습니다.


Ontologia AI

의료 텍스트 최적화 LLM(거대언어모델)로 비정형 텍스트에서 자동 정보 추출

국내 임상용어에 최적화된 언어모델로, 의료용어, 의료약어를 정확하게 인식하고 정보를 추출합니다. 

  • 지능형 OCR로 종이로 보관된 의무기록지에서도 정확한 정보 추출과 데이터 인식이 가능합니다. 
  • 데이터 자동 정형화로 더 편리한 후향적 연구와 Real World Data 분석, 인공지능 연구를 할 수 있습니다. 
  • 의무기록, 논문, 대화기록 등 다양한 의료 관련 데이터를 활용할 수 있습니다. 
국내 의료 최적화 LLM 솔루션, 온톨로지아
테서는 의료에 최적화된 LLM 솔루션 온톨로지아를 개발해 기업과 병원에 제공하고 있습니다. 검사결과지 해석 서비스 ‘온톨’에 탑재된 기반 기술을 바탕으로, 임상 텍스트 데이터를 추출하고 정형화하며, 고객서비스에 연계해 사용할 수 있도록 제공합니다.

Ontol 3D 

CT/MRI 장기 및 병변 자동 분할 및 계측 딥러닝 모델

CT, MRI의 전,후처리 기술과 딥러닝 모델을 통해 전신 장기 영역과 다양한 병변을 분할하고 계측합니다. 영상 정합을 통한 시계열 병변 추적과 분석이 가능합니다.

기본 지원 영역

  • CT 전신 장기/근육/뼈 및 혈관 분할
  • 폐 CT 영역 분할
    • 폐엽/기관지/혈관
    • 결절/림프절비대
  • 뇌 MRI 영역 분할
    • 뇌 주요 영역 분할(Segmentation & Parcellation)
    • 뇌종양(Glioma)
  • 유방 MRI 영역 분할
    • 유방/유선 조직/혈관
    • 유방암

위 영역에 대한 빠른 자동분할과 함께, 새로운 병변 영역에 대해서도 추가적인 모델링을 통해 빠른 최적화와 데이터 제작 효율화를 지원합니다.

의료 데이터, 의학용어에 특화된 AI 모델 도입을 고려하고 계시다면,
편하게 아래 링크에 문의 남겨주세요.
가능한 빠르게 회신 드리겠습니다.

도입 문의 및 상담 : https://labeling.tesser.co.kr

감사합니다.