GPT 기반 멀티모달 AI를 활용한 시각장애인 학습자용 이미지 해설 생성 및 적용 가능성 탐색 | sam

HOME
학술논문
- 학술논문
사회과학
- 인문학
- 사회과학
- 자연과학
- 공학
- 의약학
- 농수해양
- 예술체육
- 복합학
- 경제경영
- 법학
- 어문학
교육학

학술논문

GPT 기반 멀티모달 AI를 활용한 시각장애인 학습자용 이미지 해설 생성 및 적용 가능성 탐색

이용수 0

영문명: Exploring GPT-based Multimodal AI for Generating Automated Image Descriptions for Learners with Visual Impairments
발행기관: 한국시각장애교육재활학회
저자명: 박진석 이영선
간행물 정보: 『시각장애연구』제41권 제3호, 23~44쪽, 전체 22쪽
주제분류: 사회과학 > 교육학
파일형태: PDF
발행일자: 2025.09.30

5,440원

구매일시로부터 72시간 이내에 다운로드 가능합니다.
이 학술논문 정보는 (주)교보문고와 각 발행기관 사이에 저작물 이용 계약이 체결된 것으로, 교보문고를 통해 제공되고 있습니다.

1:1 문의

국문 초록

연구 목적: 본 연구는 GPT 기반 멀티모달 AI를 활용하여 시각장애인 학습자의 교과 학습 자료 내 시각 정보를 텍스트 기반 이미지 해설로 자동 변환하는 시스템을 고안하고, 그 품질과 적용 가능성을 실무 전문가를 통해 검증하고자 하였다. 연구 방법: 국내외 이미지 해설 가이드라인을 기반으로 GPT 확장 애플리케이션을 개발하였으며, 초·중학교 교과학습 자료에서 다양한 유형의 시각 자료를 수집하여 변환하였다. 생성된 이미지 해설 결과물에 대해 대체자료제작 전문가 13인을 대상으로 품질 평가, 튜링 테스트, 만족도 및 사회적 타당도 평가를 실시하였다. 연구 결과: 품질 평가는 전반적으로 높은 수준을 보였으나 이미지 유형에 따라 차이가 나타났으며, 특히 그래프·차트 유형에서 상대적으로 낮은 평가가 확인되었다. 튜링 테스트에서는 AI가 생성한 해설이 가이드라인 예시와 유사한 수준으로 평가되어 일정 수준의 전문성을 확보한 것으로 나타났다. 만족도 및 사회적 타당도 또한 전반적으로 긍정적인 평가를 받았다. 논의 및 결론: 멀티모달 AI 기반 이미지 해설 생성 시스템이 시각장애인 학습자를 위한 대체자료 제작의 효율성과 품질을 향상시킬 가능성을 확인하였다. 다만, 정보량 조절, 유형별 품질 편차, 사용자 인지 수준 반영 등에서 기술적 보완이 요구된다. 후속 연구에서는 실무 현장 적용, 사용자 중심 평가 확대, 적응형 생성 시스템 개발을 통한 기술 고도화가 필요하다.

영문 초록

Purpose: This study developed a GPT-based multimodal AI system to automatically generate text-based image descriptions for students with visual impairments, and evaluated its quality and applicability. Methods: A custom GPT-powered application was built to convert educational visual materials into text descriptions, adhering to international image description guidelines. The outputs were evaluated by 13 experts through a three-part assessment: a quality evaluation, a Turing test to gauge human-likeness, and satisfaction ratings. Results: The AI system consistently produced high-quality descriptions that were often indistinguishable from those created by humans, as evidenced by the Turing test results and high expert ratings on satisfaction and social validity. However, the system struggled with the complexity of graphs and charts. Discussion and Conclusion: GPT-based multimodal AI can be a promising, efficient solution for generating high-quality image descriptions for visually impaired students. Future work should refine information density control and adapt outputs to user cognitive needs for broader real-world application.

키워드

이미지 해설 대체 텍스트 멀티모달 인공지능 시각장애 image description alternative text multimodal artificial intelligence visual impairment

국문 초록

영문 초록

목차

키워드

해당간행물 수록 논문

참고문헌

관련논문

사회과학 > 교육학분야 BEST

사회과학 > 교육학분야 NEW

최근 이용한 논문

APA

MLA