본문 바로가기

추천 검색어

실시간 인기 검색어

학술논문

한국어 발화 텍스트 데이터 기반 성별 판별에 관한 사례연구

이용수  90

영문명
A Case Study on the Discrimination of Gender based on the Korean Conversation Text Data
발행기관
한국자료분석학회
저자명
박선정(Sun Jeong Park) 강현철(Hyuncheol Kang)
간행물 정보
『Journal of The Korean Data Analysis Society (JKDAS)』Vol.27 No.1, 93~103쪽, 전체 11쪽
주제분류
자연과학 > 통계학
파일형태
PDF
발행일자
2025.02.28
4,120

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의
논문 표지

국문 초록

자연어 처리(natural language processing, NLP) 기술은 딥러닝의 발전과 함께 다양한 분야에서 혁신을 이끌고 있다. 예를 들어, 자율주행 차량 내 대화형 인공지능(AI)은 사용자의 발화를 분석하여 목적지 추천, 차량 제어 명령 수행, 온도 조절과 같은 개인 맞춤형 서비스를 제공한다. 또한, 헬스케어 분야에서는 음성 데이터를 활용한 심리 상담과 질병 진단 보조 서비스 등에서도 NLP 기술이 중요한 역할을 하고 있다. 이때 한국어는 어순의 자유로움과 복잡한 조사 및 어미변화 등 독특한 언어적 특성을 지니고 있어, 다른 언어에 비해 자연어 처리 기술 적용이 까다롭다고 알려져 있다. 본 연구에서는 한국어 발화 데이터의 특수성을 반영하여 성별을 판별하고, 최적의 임베딩 기법과 모형을 탐색하고자 한다. 이를 위해 TF-IDF, Doc2Vec, BERT와 같은 텍스트 임베딩 기법과 의사결정나무, 로지스틱 회귀, 랜덤 포레스트, SVM, XGBoost, RNN 등 다양한 머신러닝 모델 및 딥러닝 모델에 대하여 간단히 소개하고, 여러 가지 분석 방법에 따른 데이터의 성능을 비교하기 위해 AI Hub에서 제공된 대규모 한국어 발화 데이터셋을 활용하여 사례분석을 진행하였다.

영문 초록

Natural language processing (NLP) technology is leading innovation in various fields along with the development of deep learning. For example, interactive artificial intelligence (AI) in an autonomous vehicle analyzes the user's utterance and provides personalized services such as recommending destinations, performing vehicle control commands, and temperature control. In addition, in the health care field, NLP technology is playing an important role in psychological counseling using voice data and disease diagnosis assistance services. At this time, it is known that applying natural language processing technology is more difficult than other languages because Korean language has unique linguistic characteristics such as freedom of word order, complex investigation, and mother change. In this study, gender is determined by reflecting the specificity of Korean speech data, and the optimal embedding technique and model are explored. To this end, we briefly introduced text embedding techniques such as TF-IDF, Doc2Vec, and BERT, various machine learning models such as decision trees, logistic regression, random forest, SVM, XGBoost, and RNN, and conducted case analysis using large-scale Korean speech data sets provided by AI Hub to compare the performance of data according to various analysis method.

목차

1. 서론
2. 텍스트 데이터에 대한 임베딩 기법
3. 모델 설계 및 평가 방법
4. 사례분석
5. 요약 및 결론
References

키워드

해당간행물 수록 논문

참고문헌

교보eBook 첫 방문을 환영 합니다!

신규가입 혜택 지급이 완료 되었습니다.

바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

교보e캐시 1,000원
TOP
인용하기
APA

박선정(Sun Jeong Park),강현철(Hyuncheol Kang). (2025).한국어 발화 텍스트 데이터 기반 성별 판별에 관한 사례연구. Journal of The Korean Data Analysis Society (JKDAS), 27 (1), 93-103

MLA

박선정(Sun Jeong Park),강현철(Hyuncheol Kang). "한국어 발화 텍스트 데이터 기반 성별 판별에 관한 사례연구." Journal of The Korean Data Analysis Society (JKDAS), 27.1(2025): 93-103

결제완료
e캐시 원 결제 계속 하시겠습니까?
교보 e캐시 간편 결제