- 영문명
- Comparative Study on the Performance of Imbalanced Multi-Class Classification Using Oversampling and Machine Learning
- 발행기관
- 한국교육평가학회
- 저자명
- 김나영(Nayoung Kim)
- 간행물 정보
- 『교육평가연구』제38권 제3호, 623~649쪽, 전체 27쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2025.09.30
6,040원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
이 연구는 교육 데이터의 다중 클래스 분류에서 소수 클래스의 예측 성능을 저하시키는 데이터 불균형 문제를 해결하고자 6가지 오버샘플링 기법(RandomOverSampler, SMOTE, BorderlineSMOTE, ADASYN, SMOTE+ENN, SMOTE+Tomek)과 8가지 머신러닝 알고리즘(CatBoost, XGBoost, LightGBM, RandomForest, ExtraTrees, LogisticRegression, SVM, KNN)을 조합한 총 48개의 분류 모델의 성능을 비교 분석하였다. 다문화청소년패널조사(MAPS) 데이터를 사용하여 진로 역량 수준에 따라 집단을 분류한 결과, RandomOverSampler 기법을 적용한 CatBoost 모델이 Accuracy, Macro F1, Macro Recall, MMCC 등 주요 평가지표에서 가장 뛰어난 성능을 나타냈다. 이 최적 모델을 기반으로 SHAP 지수, 순열 특성 중요도, 불순도 기반 중요도를 각각 활용하여 상위 10%(18개) 변수를 추출했으며, 세 방법에서 공통으로 선정된 7개의 핵심 변수를 대상으로 예측 기여도와 비선형적 관계를 시각적으로 분석하였다. 분석 결과, 자아존중감, 진로 태도 결정성, 상급학교 진학 준비도, 또래 관계와 같은 개인적·관계적 요인이 다문화청소년의 진로 역량 유형을 예측하는 가장 중요한 변수임이 확인되었다. 본 연구는 데이터 기반의 취약계층 조기 선별과 맞춤형 진로 지원 시스템 구축을 위한 방법론적 토대를 제시한다는 점에서 의의가 있다.
영문 초록
This study aimed to address the data imbalance problem, which often deteriorates the prediction performance of minority classes in multi-class classification using educational data. To this end, the performance of 48 classification models combining six oversampling techniques (RandomOverSampler, SMOTE, BorderlineSMOTE, ADASYN, SMOTE+ENN, SMOTE+Tomek) and eight machine learning algorithms (CatBoost, XGBoost, LightGBM, RandomForest, ExtraTrees, LogisticRegression, SVM, KNN) was compared. Using data from the Multicultural Adolescents Panel Study (MAPS), adolescents were classified into groups based on their career competency levels. The results revealed that the CatBoost model combined with RandomOverSampler achieved the highest performance across key evaluation metrics, including Accuracy, Macro F1, Macro Recall, and MMCC. Based on this optimal model, the top 10% (18 variables) of important predictors were extracted using SHAP, permutation importance, and impurity-based importance methods, and a visual analysis of predictive contributions and nonlinear relationships for seven core variables commonly identified across all three approaches was conducted. The findings indicated that individual psychological and behavioral factors—such as self-esteem, career decision-making attitudes, preparedness for higher education, and peer relationships—were the most influential predictors of career competency types. This study provides a methodological foundation for early identification of vulnerable groups and the development of tailored career support systems.
목차
Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구 방법
Ⅳ. 연구결과
Ⅴ. 결론 및 논의
참고문헌
키워드
해당간행물 수록 논문
- 서·논술형 평가에서 생성형 AI 활용 가능성 탐색: 리젠트 시험 데이터를 중심으로
- 다차원 적응형 검사에서 신규 문항의 잠재 특성 예측 정확도 비교
- 대규모 온라인 학습 로그 데이터 EdNet을 활용한 학습 참여도의 시계열 분석: 동적시간워핑 기법을 중심으로
- 프로세스 데이터를 활용한 수학 학업성취도 예측: 선형회귀와 랜덤 포레스트 비교
- PISA 2022 창의적 사고력 도메인별 예측 변수 구조 분석: 딥러닝 기반 해석 접근
- 오버샘플링과 머신러닝을 활용한 불균형 다중클래스 분류 성능 비교 연구
- 학교의 수학 학업 성취도 편차에 따른 경제·사회·문화적 취약 학생의 수학 성취도 예측 변수 탐색: 랜덤 효과를 반영한 XGBoost 활용
- 사교육 참여가 수학 정의적 태도와 학업성취도의 잠재계층 간 전이에 미치는 영향: 잠재계층 MIMIC 모형과 성장혼합모형을 결합한 잠재전이분석
- 랜덤 생존 포레스트의 교육 종단자료 분석 적용: 대학생의 사교육 참여 시점 예측을 중심으로
- 거주 지역에 따른 대학 진학 유형: 다중규모 지리가중회귀모형을 통한 공간적 영향 분석
- 다국면라쉬모형을 활용한 ChatGPT-4o의 논술형 평가 자동채점 정확도 및 채점자 효과 분석
- 논술형 평가 자동채점을 위한 머신러닝, 임베딩 벡터, 사전학습 언어모델 기반 분류기의 성능 비교 연구
참고문헌
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
