의학지식 말뭉치 데이터
May 1, 2024

2024.05 – 2024.12 | 한국지능정보사회진흥원 초거대AI 확산 생태계 조성사업
- 전문 의료지식과 필수의료(산부인과, 소아청소년과, 응급의학) 분야의 고품질 말뭉치 데이터를 한글·영문으로 2억 토큰 구축 및 개방
- 의료 전문가가 직접 작성하고 검수한 질의응답 데이터를 활용하여, 거대언어모델 기반의 소형 의료 특화 AI 모델 2종 개발
- 구축된 데이터셋은 의료 특화 AI 모델 fine-tuning에 활용되어, 의료 도메인 특화 자연어처리 성능 향상을 목표로 함
- 진료지원, 교육, 연구 등 다양한 응용 분야에 활용 가능하며, 국내 의료 인공지능 경쟁력 강화를 위한 기반 마련