- 영문명
- A Case Study on the Construction of an AI Training Dataset for Natural Korean Speech Generation by 3D Digital Humans
- 발행기관
- 한국디자인리서치학회
- 저자명
- 이솔(Sol Lee) 이학범(Hak Bum Lee) 김진겸(Jin Kyum Kim) 오문석(oon Seok Oh) 서영호(Young Ho Seo)
- 간행물 정보
- 『한국디자인리서치』Vol10, No. 2(통권 35권), 122~136쪽, 전체 15쪽
- 주제분류
- 예술체육 > 미술
- 파일형태
- 발행일자
- 2025.06.30

국문 초록
최근 방송 및 콘텐츠 제작 분야에서 시공간 제약 없이 활용 가능한 3D 디지털 휴먼의 수요가 증가하고 있으나, 자연스러운 한국어 발화를 위한 3D 얼굴 데이터는 부족한 실정이다. 본 연구는 3D 디지털 휴먼 제작을 위한 한국어 음성 기반 발화 얼굴 데이터를 구축하고, 이를 기반으로 생성형 AI 모델을 학습하여 현실감 있는 얼굴 애니메이션을 생성하는 것을 목표로 한다. 조음 특성과 음운 분포를 고려해 설계한 5,000문장 대본과 다시점 촬영을 통해 총 570,000개 이상의 고정밀 3D 메쉬 데이터를 구축하였으며, 트랜스포머 기반의 CodeTalker 모델을 학습해 음성과 표정 간의 정합성이 높은 3D 애니메이션을 구현하였다. 본 연구는 한국어 특화 디지털 휴먼 제작 기반을 마련하고, 생성형 AI 기술의 실용화를 통해 메타버스, 방송, 공공서비스 등 다양한 분야에 기여할 수 있다.
영문 초록
Recently, the demand for 3D digital humans—capable of being used without spatial or temporal constraints—has been increasing in broadcasting and content production. However, there is a lack of 3D facial data tailored for natural Korean speech generation. This study aims to construct a Korean speech-driven 3D facial dataset for digital human creation and to develop a generative AI model that produces realistic facial animations. A total of over 570,000 high-resolution 3D meshes were built through multi-view capture of 5,000 carefully designed sentences that reflect articulatory features and phoneme distributions. Based on this dataset, a transformer-based CodeTalker model was trained to generate synchronized and lifelike 3D facial animations from speech input. This research establishes a foundation for Korean-specific digital human development and contributes to various domains such as the metaverse, broadcasting, and public services through the practical application of generative AI technologies.
목차
1. 서론
2. 문장의 구성
3. 전체 구축 과정의 연구
4. 데이터 세트의 구
5. 데이터 구축 결과
6. 결론
참고문헌
키워드
해당간행물 수록 논문
참고문헌
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
