- 영문명
- Exploring the Potential of Generative AI in Essay-Based Assessments: Evidence from the Regents Exam Data
- 발행기관
- 한국교육평가학회
- 저자명
- 안해연(Haeyeon Ahn)
- 간행물 정보
- 『교육평가연구』제38권 제3호, 823~846쪽, 전체 24쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2025.09.30
5,680원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
본 연구는 서·논술형 평가에서 생성형 AI의 활용 가능성을 실증적으로 분석하기 위해 미국 뉴욕주 리젠트 시험의 서·논술형 답안을 대상으로 GPT-4o, Gemini 2.0, Gemini 2.5 모델의 평가 성능을 비교·검토하였다. 가중 파카 계수(QWK), 평균 절대 오차(MAE), 상관 계수(PCC)를 분석한 결과, 모든 모델이 QWK 0.889~0.935, MAE 0.210~0.410, PCC 0.904~0.944를 기록하며 높은 정확도를 보였다. 자료 기반 논증형 문항에서는 Gemini 2.5, 텍스트 분석형 문항에서는 GPT-4o가 가장 우수했다. 혼동 행렬 분석에서도 대부분의 오차가 ±1점 이내였으나, 등급 경계 혼동과 0점 과대평가 등 일부 한계가 확인되었다. 본 연구는 정교한 평가 기준표와 등급별 예시 답안을 활용하여 등급 차이를 보정하였고, LLM의 편향을 방지하기 위한 시스템 명령 프롬프트를 적용하였다는 점에서 기존 연구와 차별성을 지닌다. 이를 통해 생성형 AI가 서·논술형 평가에서 신뢰성 있는 도구로 기능할 가능성을 확인하고, 인간-AI 협업 평가 체계를 제안하였다.
영문 초록
This study empirically analyzed the potential of generative AI in constructed-response assessment by comparing the scoring performance of GPT-4o, Gemini 2.0, and Gemini 2.5 on written responses from the New York State Regents Examinations. Analyses using the Quadratic Weighted Kappa (QWK), Mean Absolute Error (MAE), and Pearson Correlation Coefficient (PCC) showed that all models achieved high accuracy, with QWK scores ranging from 0.889 to 0.935, MAE from 0.210 to 0.410, and PCC from 0.904 to 0.944. Gemini 2.5 performed best on evidence-based argument tasks, while GPT-4o showed the highest accuracy on text-analysis items. Confusion matrix analysis revealed that most errors were within ±1 point, though some limitations were observed, including boundary-level misclassifications and overestimation of zero scores. By employing a refined scoring rubric and grade-specific anchor papers as preparatory materials, and by implementing system prompts to mitigate large language model bias, this study distinguishes itself from prior research. These findings suggest that generative AI can serve as a reliable tool for evaluating constructed responses and propose a collaborative human-AI scoring framework.
목차
Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구방법
Ⅳ. 연구결과
Ⅴ. 결론 및 논의
참고문헌
해당간행물 수록 논문
- 서·논술형 평가에서 생성형 AI 활용 가능성 탐색: 리젠트 시험 데이터를 중심으로
- 다차원 적응형 검사에서 신규 문항의 잠재 특성 예측 정확도 비교
- 대규모 온라인 학습 로그 데이터 EdNet을 활용한 학습 참여도의 시계열 분석: 동적시간워핑 기법을 중심으로
- 프로세스 데이터를 활용한 수학 학업성취도 예측: 선형회귀와 랜덤 포레스트 비교
- PISA 2022 창의적 사고력 도메인별 예측 변수 구조 분석: 딥러닝 기반 해석 접근
- 오버샘플링과 머신러닝을 활용한 불균형 다중클래스 분류 성능 비교 연구
- 학교의 수학 학업 성취도 편차에 따른 경제·사회·문화적 취약 학생의 수학 성취도 예측 변수 탐색: 랜덤 효과를 반영한 XGBoost 활용
- 사교육 참여가 수학 정의적 태도와 학업성취도의 잠재계층 간 전이에 미치는 영향: 잠재계층 MIMIC 모형과 성장혼합모형을 결합한 잠재전이분석
- 랜덤 생존 포레스트의 교육 종단자료 분석 적용: 대학생의 사교육 참여 시점 예측을 중심으로
- 거주 지역에 따른 대학 진학 유형: 다중규모 지리가중회귀모형을 통한 공간적 영향 분석
- 다국면라쉬모형을 활용한 ChatGPT-4o의 논술형 평가 자동채점 정확도 및 채점자 효과 분석
- 논술형 평가 자동채점을 위한 머신러닝, 임베딩 벡터, 사전학습 언어모델 기반 분류기의 성능 비교 연구
참고문헌
- The Journal of Technology, Learning and Assessment
- Education and Information Technologies
- Handbook of automated essay evaluation
- In 16th International Conference on Educational Data Mining, EDM 2023
- Automated essay scoring: A cross-disciplinary perspective
- Interactive Multimedia Electronic Journal of Computer-Enhanced Learning
- International Journal of Learning, Teaching and Educational Research
- biometrics
- Innovations in Education and Teaching International
- Research Methods in Applied Linguistics
- Advances in Neural Information Processing Systems
- In M. D. Shermis & J. Burstein (Eds.), Automated essay scoring: A cross-disciplinary perspective
- The Phi Delta Kappan
- Journal of Writing Assessment
- Proceedings of the 12th International Conference on Learning Representations
- Educational and Psychological Measurement
- Education and Information Technologies
- Learning and Instruction
- Computers and Education: Artificial Intelligence
- psychometrika
- Teaching of Psychology
- Educational measurement: issues and practice
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
