- 영문명
- Context-Aware Dual-Path Cross-Attention for Content-OrientedText-Audio Speech Source Separation
- 발행기관
- 한국스마트미디어학회
- 저자명
- 이건우(Geon Woo Lee)
- 간행물 정보
- 『스마트미디어저널』제14권 제9호, 33~42쪽, 전체 10쪽
- 주제분류
- 공학 > 컴퓨터학
- 파일형태
- 발행일자
- 2025.09.30
4,000원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
본 논문에서는 텍스트 데이터의 문맥 정보 반영을 위해 오디오 및 텍스트 데이터를 활용한 트랜스포머 기반 음성 분리 모델을 제안한다. 음성 분리 기술은 음성 신호와 배경 음원이 혼합된 미디어 콘텐츠 오디오 신호에서 음성 신호만을 분리할 수 있으며, 이와 같이 분리된 음성 신호는 콘텐츠 재가공을 위해 활용될 수 있다. 미디어 콘텐츠에 포함된 대본과 같은 텍스트 데이터는 문맥 정보를 잠재적으로 포함하여 음성 분리 모델의 성능을 향상하는 데 사용될 수 있다. 미디어 콘텐츠에 포함된 텍스트 데이터를 활용하기 위해 제안된 음성 분리 모델은 텍스트 임베딩 모델을 활용하여 텍스트 데이터에서 문맥 정보와 토큰 정보를 추출하고, 트랜스포머 기반 음성 분리 모델에 cross-attention을 적용하여 텍스트 임베딩 벡터와 오디오 특징 벡터 사이 정렬 정보가 학습되도록 구성한다. 제안된 음성 분리 모델은 LibriSpeech 및 MUSDB18 데이터셋을 기반한 시뮬레이션 데이터로 평가를 진행하였으며, 기존 텍스트 및 오디오 데이터를 사용하는 음성 분리 모델 대비 SDR, SAR, SIR, PESQ, STOI 지표에서 모두 우수한 성능을 나타냈다. 특히, 보컬 음원이 포함된 배경음악 환경에서도 텍스트 데이터를 활용함으로써 기존 방법보다 높은 음성 분리 성능을 달성했다. 이와 같은 텍스트-오디오 멀티 모달 기술은 미디어 콘텐츠 리믹싱 및 재생성 분야에서 주요한 역할을 수행할 것으로 기대한다.
영문 초록
This paper proposes a transformer-based speech source separation model that leverages both audio and textual data to improve separation performance by incorporating contextual information from text. Speech separation enables the extraction of speech signals from audio mixtures containing background sources, facilitating downstream content repurposing. Textual information embedded in media content, such as scripts, provides contextual cues that can improve separation performance. To integrate such contextual cues, the proposed model employs a text embedding network to extract contextual and token-level representations, and integrates them into a transformer-based separation framework via cross-attention, enabling alignment between text and audio features. These features are then aggregated with the audio feature vector via cross-attention within a transformer-based separation model, which enables alignment between the two modalities. The proposed model is evaluated on simulated mixtures created from the LibriSpeech and MUSDB18 datasets. Experimental results demonstrate that the proposed model achieves performance improvements over existing text-audio separation models, as measured by SDR, SAR, SIR, PESQ, and STOI metrics. Furthermore, the proposed separation model achieves superior performance in scenarios involving vocal source-included background music, where conventional approaches typically degrade.
목차
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 텍스트-오디오 기반 음성 분리 신경망 모델
Ⅳ. 실험 및 성능평가
Ⅴ. 결론
키워드
해당간행물 수록 논문
- 스마트미디어저널 제14권 제9호 목차
- 계층형 메모리 시스템을 위한 동적 페이지 마이그레이션 기법
- RTEMS 운영체제를 위한 개발 자동화 프레임워크 설계 및 구현
- Prophet 모형을 이용한 정보시스템 접속 건수 예측에 관한 연구
- 콘텐츠 내 텍스트 문맥 정보 활용을 위한 Dual-Path Cross-Attention 기반 텍스트-오디오 음성 분리 기술
- 디지털 커뮤니케이션 채널로서의 AI 교사보조로봇: 발명교육에서의 초등학생 인식 변화 탐색
- Python 입문자를 위한 TDD 환경에서 AI 기반 테스트 케이스의 교육 효과 분석
- 미국, 유럽, 일본 사례와의 비교를 통한 딥페이크 관련 CITRA 기반 디자인 윤리 가이드라인 제안
참고문헌
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
