- 영문명
- Analysis of ChatGPT-4o’s Automated Essay Scoring Accuracy and Rater Effects Using the Many-Facet Rasch Model
- 발행기관
- 한국교육평가학회
- 저자명
- 오유경(Youkyoung Oh) 김경선(Kyung Sun Kim)
- 간행물 정보
- 『교육평가연구』제38권 제3호, 769~793쪽, 전체 25쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2025.09.30
5,800원
구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

국문 초록
본 연구는 자동채점의 활용 가능성을 탐색하고자 거대언어모델 기반 논술평 평가 자동채점의 정확성과 채점자 효과를 실증적으로 분석하는 데 목적이 있다. 이를 위해 중학교 3학년 학생의 논술형 평가 응답 자료를 기반으로 인간 채점자와 ChatGPT 간의 채점 일치도를 분석하고, 다국면라쉬모형을 적용하여 채점자 특성을 비교하였다. 주요 분석 결과는 다음과 같다. 첫째, ChatGPT는 일부 항목에서 특정 점수에 집중하여 점수를 부여하는 경향을 보였다. 둘째, 인간 채점자와 자동채점 간 일치도는 ‘과제 수행’과 ‘근거의 타당성’ 등 구조화된 채점 기준을 가진 항목에서는 비교적 높은 수준을 보였으나 다른 항목에서는 전반적으로 낮은 수준이었다. 셋째, 일부 인간 채점자에게서는 부적합과 과적합 사례가 확인된 반면 ChatGPT는 허용 가능한 범위 내의 적합도를 보였다. 이러한 결과는 ChatGPT 기반 자동채점이 채점 신뢰도 제고에 일정 부분 기여할 수 있으나 정교한 판단과 맥락적 해석이 요구되는 항목에서는 추가적으로 기술적 보완이 필요함을 시사한다.
영문 초록
This study aims to explore the potential application of automated scoring in educational settings by empirically analyzing the accuracy and rater effects associated with an essay-type assessment conducted by a large language model (LLM), specifically ChatGPT. To this end, the agreement between human raters and ChatGPT was examined. Furthermore, the Many-Facet Rasch Model was applied to compare rater characteristics. The key findings are as follows. First, ChatGPT tended to concentrate its scores on specific values in certain criteria. Second, the level of agreement between human and automated ratings was relatively high for criteria with structured scoring rubrics such as “task completion” and “validity of evidence,” but generally low in other criteria. Third, while some human raters demonstrated misfit or overfit behaviors, ChatGPT displayed a slightly lenient scoring pattern but remained within an acceptable range of model fit. These findings indicate that ChatGPT-based automated scoring may contribute to improving scoring consistency. However, further technical refinement is needed for criteria that require nuanced judgment and contextual interpretation.
목차
Ⅰ. 서론
Ⅱ. 이론적 배경
Ⅲ. 연구방법
Ⅳ. 연구결과
Ⅴ. 결론 및 제언
참고문헌
키워드
해당간행물 수록 논문
- 서·논술형 평가에서 생성형 AI 활용 가능성 탐색: 리젠트 시험 데이터를 중심으로
- 다차원 적응형 검사에서 신규 문항의 잠재 특성 예측 정확도 비교
- 대규모 온라인 학습 로그 데이터 EdNet을 활용한 학습 참여도의 시계열 분석: 동적시간워핑 기법을 중심으로
- 프로세스 데이터를 활용한 수학 학업성취도 예측: 선형회귀와 랜덤 포레스트 비교
- PISA 2022 창의적 사고력 도메인별 예측 변수 구조 분석: 딥러닝 기반 해석 접근
- 오버샘플링과 머신러닝을 활용한 불균형 다중클래스 분류 성능 비교 연구
- 학교의 수학 학업 성취도 편차에 따른 경제·사회·문화적 취약 학생의 수학 성취도 예측 변수 탐색: 랜덤 효과를 반영한 XGBoost 활용
- 사교육 참여가 수학 정의적 태도와 학업성취도의 잠재계층 간 전이에 미치는 영향: 잠재계층 MIMIC 모형과 성장혼합모형을 결합한 잠재전이분석
- 랜덤 생존 포레스트의 교육 종단자료 분석 적용: 대학생의 사교육 참여 시점 예측을 중심으로
- 거주 지역에 따른 대학 진학 유형: 다중규모 지리가중회귀모형을 통한 공간적 영향 분석
- 다국면라쉬모형을 활용한 ChatGPT-4o의 논술형 평가 자동채점 정확도 및 채점자 효과 분석
- 논술형 평가 자동채점을 위한 머신러닝, 임베딩 벡터, 사전학습 언어모델 기반 분류기의 성능 비교 연구
참고문헌
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
