인공지능(AI)으로 고전문헌 자동번역 서비스 가능
- 조선시대 살아있는 역사 ‘승정원일기’ 인공지능 기술로 번역기간 단축 -
□
“구글 번역처럼 과거의 문헌을 번역하여 쉽게 볼 수는 없을까?”, “왜 고문서는 자동번역이 이루어지지 않을까?” 이런 문제를 해결하기 위해 고전문헌 번역에 인공지능(AI)기술을 융합하여 서비스를 혁신하고 있다.
○ 이를 위해
과학기술정보통신부(장관 유영민)와 한국정보화진흥원(원장 서병조)은 ‘ICT기반 공공서비스 촉진사업’으로 ‘17년도에
’인공지능 기반 고전문헌 자동번역시스템 구축(주관기관 :
한국고전번역원)‘ 과제를 추진하였다.
□ 한국고전번역원은 이번 과제를 통해
자동번역시스템을 개발하여 승정원일기 원문을 번역하는 작업을 추진중이다.
○ 승정원일기는 조선시대 왕명(王命)의 출납(出納)을 관장하던 승정원에서 매일매일 취급한 문서(文書)와 사건을 기록한 조선시대의 최고 기밀기록으로 지난 2001년 유네스코 세계기록유산으로 지정된 바 있다.
○ 승정원일기의 필사 원본은 3,243책으로 약 2억 4,000만여 자에 이르는 방대함 탓에 한국고전번역원은 지난 1994년 번역을 시작하여 인조, 고종, 순종대의 번역을 완료하고, 현재 영조대 번역을 진행중이지만 전체 번역률은 20% 수준에 그치고 있는 실정이다.
○ 이는 단순히 자료의 방대함뿐만 아니라 한문번역자 1명을 양성하는데 최대 10년이 소요되고, 번역자 1명이 승정원일기 번역서 1책(1,800매)을 담당하고 있어, 승정원일기 번역사업은 시간과 예산과 인력이 많이 소요되는 거대한 고전문헌 정리사업이기 때문이다.
□ 이러한 문제를 해결하기 위해 이번에 개발한 고전문헌 자동번역시스템은
‘인공 신경망 기계번역(NMT, Neural Machine Translation) 기술’을 적용하였다.
○
NMT 기술은 기존에 단어와 구문을 쪼개어 번역했던 ‘통계기반번역(SMT)’과는 달리
문장을 통째로 파악해 번역하는 최신 기술로
어순, 문맥의 의미와 차이 등을 반영할 수 있으므로
문장 맥락 이해도 및 정확도가 높은편으로 구글번역과 네이버에서 서비스 중인 ‘파파고’도 적용중인 기술이다.
□ 아울러
인공지능 자동번역 모델을 생성하기 위해 반드시 필요한
코퍼스(말뭉치) 구축작업도 동시에 추진하였다.
○ 국사편찬위원회에서 구축한 승정원일기 표점원문과 한국고전번역원이 번역한 승정원일기 번역문 데이터를
번역문 150자 이내의 문장단위로 정제하고, 원문과 번역문을 1:1로 매칭하여 총 35만개의 병렬코퍼스를 구축하였으며,
○ 고품질의 기계학습 데이터 확보를 위해 코퍼스 구축 시 원문과 번역문에 대한 문장 분절부터 윤문, 교열 등 고급 정제 작업 진행에 승정원일기 번역자와 이에 준하는 전문 인력을 투입하였다.
○ 이렇게 구축된 병렬코퍼스를 토대로 BLEU* 평가점수와 휴먼평가점수가 가장 높은 모델을 자동번역모델로 선정하여 자동번역기(데모ver1.0)로 번역한 결과물이 한국고전번역원 역사문헌번역실 승정원일기 번역자에 의해 실시된 휴먼평가에서 평균 3.0점(5점 만점)을 획득하였다.
* BLEU(Bilingual Evaluation Understudy) 평가는 형태소 분석정보를 이용하여 기계번역문과 번역자가 번역한 정답문의 유사도를 평가하는 방법으로 기계번역 자동 평가에서 널리 사용되는 번역품질 측정 방법
□ 한국고전번역원은 승정원일기가 총 3,243권으로 1994년부터 번역을 시작하여 2062년에 완료될 것으로 예상했으나, 딥러닝 기반의 인공지능을 적용한 이번 과제를 통해 27년을 단축하여 2035년에는 번역이 완료될 것이라고 기대하고 있다.
□ 한국정보화진흥원 서병조 원장은 “향후
인공지능 자동번역기술이 고전문헌의 번역 기간을 대폭 앞당길 것으로 기대하며 4차 산업혁명 시대 대응을 위해 인공지능 기술을 포함한
ICT신기술을 공공분야에 선도적으로 도입하여 개발·확산을 지속해 나가겠다.”라고 말했다. <끝>
붙임 : 인공지능 기반 고전문헌자동번역시스템 구축 사업 성과