학술논문
한국어 뉴스 데이터의 AI 생성 여부를 판별하기 위한 임베딩 방법과 머신러닝 모형의 적용에 관한 사례연구
이용수 0
- 영문명
- A Case Study on the Application of Embedding Methods and Machine Learning Models to Determine Whether Korean News Data is AI-Generated
- 발행기관
- 한국자료분석학회
- 저자명
- 이인규(In-Gyu Lee) 강현철(Hyuncheol Kang)
- 간행물 정보
- 『Journal of The Korean Data Analysis Society (JKDAS)』Vol.27 No.3, 797~807쪽, 전체 11쪽
- 주제분류
- 자연과학 > 통계학
- 파일형태
- 발행일자
- 2025.06.30
4,120원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
4차 산업 혁명 시대에 접어들면서 AI와 로봇을 포함한 첨단 IT 기술이 빠르게 발전하고 있으며, 이에 따라 AI 서비스 경험률도 최근 급격히 증가하고 있다. AI 기술이 점점 우리 생활에 밀접해짐에 따라 생성형 AI가 미치는 영향도 커지고 있으며, 그중 하나가 AI가 생성한 뉴스 콘텐츠의 확산이다. AI가 작성한 뉴스는 독자들에게 편리함을 제공하지만, 동시에 가짜 뉴스 및 정보 조작 등의 문제를 야기할 수 있어 이에 대한 판별이 중요한 과제가 되었다. 본 연구는 AI 생성 뉴스 데이터를 판별하는 효과적인 방법을 찾기 위해 다양한 머신러닝 기법을 적용하여 분석을 진행하였다. 본 연구에서는 TF-IDF, Doc2Vec, roBERTa와 같은 임베딩 기법을 활용하였으며, 로지스틱회귀모형, 서포트벡터머신, 의사결정나무, XGBoost, 랜덤포레스트 등의 분류 모형을 비교하였다. 분석을 위해 AI-Hub에서 제공한 실제 한국어 뉴스 데이터를 활용하였으며, AI 생성 뉴스 데이터는 KULLM 모델을 이용하여 직접 생성하였다. 분석 결과에서 roBERTa 기반 모형이 가장 높은 정확도를 기록하며 AI 생성 뉴스 판별에 효과적인 것으로 나타났다. 본 연구를 통해 AI 생성 뉴스의 특징을 분석하고, 효과적인 판별 방법을 제시함으로써 가짜 뉴스 및 정보 도용 문제 해결에 기여할 수 있을 것으로 기대된다.
영문 초록
As we enter the era of the 4th industrial revolution, cutting-edge IT technologies including AI and robots are rapidly developing, and the AI service experience rate has also been rapidly increasing recently. As AI technology becomes increasingly closely related to our lives, the influence of generative AI is also increasing, and one of them is the spread of AI-generated news content. News written by AI provides convenience to readers, but at the same time, it can cause problems such as fake news and information manipulation, so discerning them has become an important task. This study conducted an analysis by applying various machine learning techniques to find an effective method for discerning AI-generated news data. In this study, we utilized embedding techniques such as TF-IDF, Doc2Vec, and roBERTa, and compared classification models such as logistic regression model, support vector machine, decision tree, XGBoost, and random forest. For the analysis, we used actual Korean news data provided by AI-Hub, and AI-generated news data was directly generated using the KULLM model. The analysis results showed that the roBERTa-based model recorded the highest accuracy and was effective in identifying AI-generated news. It is expected that this study will contribute to solving the problems of fake news and information theft by analyzing the characteristics of AI-generated news and suggesting an effective identification method.
목차
1. 서론
2. 연구 방법
3. 사례분석 결과
4. 논의 및 결론
References
해당간행물 수록 논문
- 생애주기별 경제문제와 결혼생활 평가가 결혼 만족도와 삶의 질에 미치는 영향
- 시간 흐름에 따른 정서 편향의 변화: 반응시간과 표류 확산 모델을 활용한 분석
- PLAS 기반 커뮤니티 텍스트 분석: 정치적 성향에 따른 언어 및 심리 특성 비교
- 엘리트 학자의 학술적 기여와 지식불균형: ICA 펠로우의 정책 영향력 분석
- The Effects of Elderly Internet Use on Daily Life Satisfaction: Mediating Effects of Social Networks and Moderating Effects of Digital Efficacy
- A Recent Analysis of Markov Regime Shift Behaviors of the Korean Stock Market
- Dynamics of Term Structure and Macroeconomy with Market Uncertainty
- Journal of The Korean Data Analysis Society (JKDAS) Vol.27 No.3 Contents
- 불균형이 있는 다중 클래스 분류 문제에서 오버샘플링 기법 적용에 관한 연구
- 후쿠시마 원자력 발전소 오염수 방류가 수산물 가격에 미치는 단기적 영향
- 다섯수치요약에 근거한 정규성 검정법 제안
- 사이버범죄 데이터에 대한 분석과 판별 모형에 관한 연구
- 자율주행 도메인에서 LoRA 기반 sLLM 파인튜닝 연구
- 한국어 뉴스 데이터의 AI 생성 여부를 판별하기 위한 임베딩 방법과 머신러닝 모형의 적용에 관한 사례연구
- 베이지안 헤도닉 가격 모형: 미술품 가격-제작 시기 연관성 연구에의 응용
- AI 기반 추천 시스템의 전략적 설계와 사용자 경험 변화 분석: MLOps 자동화를 통한 금융 앱 실험
- GMM을 이용한 경제적 자유 하에서 경제성장에 대한 외국인 직접투자 유입과 금융발전의 영향 분석
- 순환신경망 기반 전력 데이터 분석을 활용한제조설비 운영 상태 예측 사례 연구
- 임금근로자의 국민연금 미가입 특성에 관한 실증분석
- 기업의 환경, 사회적 성과가 대규모기업집단 지배주주일가 임원의 보수에 미치는 영향
- 20-30대 한국인 운전자의 운전스타일 분류 연구: MDSI의 문화적 타당성 검증
- 기업 회생 예측 모형에 관한 연구
- 기업의 문화적 자본이 구성원의 혁신행동에 미치는 영향 연구: 부르디외의 문화적 자본 개념의 응용 관점에서
- 영구 장애 산재근로자의 장애 수용이 삶의 질에 미치는 영향: 자기효능감의 매개효과를 중심으로
참고문헌
관련논문
자연과학 > 통계학분야 BEST
- 의사결정나무 분석에 대한 국내 연구 동향 탐색
- 대학 재학생들의 중도탈락 패턴 분석 및 이탈 예측: H 대학교를 중심으로
- 가정 내 아동학대 행위자 특성에 따른 유형분류: 잠재계층분석(Latent Class Analysis)을 중심으로
자연과학 > 통계학분야 NEW
- 생애주기별 경제문제와 결혼생활 평가가 결혼 만족도와 삶의 질에 미치는 영향
- 시간 흐름에 따른 정서 편향의 변화: 반응시간과 표류 확산 모델을 활용한 분석
- PLAS 기반 커뮤니티 텍스트 분석: 정치적 성향에 따른 언어 및 심리 특성 비교
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
