- 영문명
- A Comparison of the Angoff and Bookmark Methods Using Test Equating
- 발행기관
- 한국교육평가학회
- 저자명
- 김선(Sun Kim) 김성훈(Seonghoon Kim) 반재천(Jae-Chun Ban)
- 간행물 정보
- 『교육평가연구』제22권 제4호, 1035~1055쪽, 전체 21쪽
- 주제분류
- 사회과학 > 교육학
- 파일형태
- 발행일자
- 2009.12.30

국문 초록
본 연구는 검사동등화 결과를 통해 앵고프 방법과 북마크 방법에 의해 설정되는 분할점수의 타당성을 검토하고, 두 방법이 서로 다른 분할점수를 낳는 이유를 탐색하고자 하였다. 결과의 일반화를 높이기 위해서 세 개의 검사형(가형, 나형, 다형)을 개발하여 각 검사형마다 앵고프 방법과 북마크 방법으로 기준을 설정하였다. 성취수준은 미달, 보통, 우수로 구분하였다. 또한 가형을 기준으로 나형과 다형을 동등화 하였다. 동등화를 통해 구한 나형과 다형의 분할점수에서 동등화 표준오차를 이용하여 오차밴드(신뢰구간)를 설정하고, 이 안에 앵고프 방법과 북마크 방법에 의한 분할점수가 포함되는지를 검토하였다. 나아가, 패널리스트들의 문항수준에서의 정답률 추정치, 실제 경계선 피험자들의 경험적 문항정답률, 그리고 북마크 방법에서의 기대 정답률(즉 RP=0.67) 등을 검토함으로써 두 기준설정 방법 간에 패널리스트들의 문항수준에서의 판정들이 얼마나 일관되게 적용되었는지를 살펴보았다. 주요 결과로는, 미달/보통 분할점수에서는 앵고프 방법이 북마크 방법보다 낮은 점수를 산출하였고 보통/우수 분할점수에서는 그 반대였다. 동등화에 의한 분할점수와 비교하였을 때, 앵고프 방법이 북마크 방법보다 검사형 간에 보다 일관된 결과를 보였다. 두 기준설정 방법이 서로 다른 분할점수를 낳는 주요한 이유는, 패널리스트들이 앵고프 방법에서 판정한 각 문항에 대한 정답률 추정치를 북마크 문항을 결정할 때 다소 일관되게 적용하지 않은 것과 밀접한 관련이 있었다.
영문 초록
Standard-setting methods are widely used to determine cut scores on a test that examinees are expected to attain to demonstrate that they have met performance standards. Using a contrived data-collection design that involved test equating and repeated use of a standard-setting panel, this study attempted to evaluate the validity of cut scores from the Angoff and bookmark methods and to search for primary reasons that make the two types of cut scores different. For these purposes, three test forms of a 30-item multiple-choice mathematics test for the 5th grade students were developed and two cut scores that defined the “below basic,” “basic,” and “proficient” levels were set for the base form. For the two new forms, cut scores were determined by both test equating and implementation of first the Angoff method and then the bookmark method. The validity of Angoff and bookmark cut scores were evaluated by checking whether they were included or not in the confidence intervals of the corresponding equated cut scores, and how far they were from the equated scores. To investigate reasons for the distinct performances of the Angoff and bookmark methods, the Angoff estimates and the equating-based empirical estimates of item difficulty (i.e., percentage correct of the borderline examinees) for the bookmarked items were compared to the expected response probability (RP=.67). It was found for both new forms that for the basic standard the Angoff cut scores were less than the bookmark scores whereas for the proficient standard the opposite was held. In addition, the Angoff method appeared to result in more consistent cut scores with the equated cut scores than the bookmark method. One of the main reasons for the difference in performance between the two standard-setting methods seemed to be closely related to the tendency that for the bookmarked items some panelists did not keep item difficulty estimates in mind consistently between the Angoff and bookmark processes.
목차
키워드
해당간행물 수록 논문
참고문헌
최근 이용한 논문
교보eBook 첫 방문을 환영 합니다!
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
