[보도자료] 인공지능(AI)으로 고전문헌 자동번역 서비스 가능
2017.12.20 조회수 1361 임수혁 총무홍보팀
인공지능(AI)으로 고전문헌 자동번역 서비스 가능
- 조선시대 살아있는 역사 ‘승정원일기’ 인공지능 기술로 번역기간 단축 -
 
 
“구글 번역처럼 과거의 문헌을 번역하여 쉽게 수는 없을까?, “왜 고문서는 자동번역이 이루어지지 않을까? 이런 문제를 해결하기 위해 고전문헌 번역에 인공지능(AI)기술을 융합하여 서비스를 혁신하고 있다.

○ 이를 위해 과학기술정보통신부(장관 유영민) 한국정보화진흥원(원장 서병조) ICT기반 공공서비스 촉진사업’으로 ‘17년도에 ’인공지능 기반 고전문헌 자동번역시스템 구축(주관기관 : 한국고전번역원) 과제를 추진하였다.
 
□ 한국고전번역원은 이번 과제를 통해 자동번역시스템을 개발하여 승정원일기 원문을 번역하는 작업을 추진중이다.

○ 승정원일기는 조선시대 왕명(王命)의 출납(出納)을 관장하던 승정원에서 매일매일 취급한 문서(文書)와 사건을 기록한 조선시대의 최고 기밀기록으로 지난 2001년 유네스코 세계기록유산으로 지정된 바 있다.

○ 승정원일기의 필사 원본은 3,243책으로 약 2억 4,000만여 자에 이르는 방대함 탓에 한국고전번역원은 지난 1994년 번역을 시작하여 인조, 고종, 순종대의 번역을 완료하고, 현재 영조대 번역을 진행중이지만 전체 번역률은 20% 수준에 그치고 있는 실정이다.

○ 이는 단순히 자료의 방대함뿐만 아니라 한문번역자 1명을 양성하는데 최대 10년이 소요되고, 번역자 1명이 승정원일기 번역서 1책(1,800매)을 담당하고 있어, 승정원일기 번역사업은 시간과 예산과 인력이 많이 소요되는 거대한 고전문헌 정리사업이기 때문이다.
 
□ 이러한 문제를 해결하기 위해 이번에 개발한 고전문헌 자동번역시스템은 ‘인공 신경망 기계번역(NMT, Neural Machine Translation) 기술’을 적용하였다.

NMT 기술은 기존에 단어와 구문을 쪼개어 번역했던 ‘통계기반번역(SMT)’과는 달리 문장을 통째로 파악해 번역하는 최신 기술로 어순, 문맥의 의미와 차이 등을 반영할 수 있으므로 문장 맥락 이해도 정확도가 높은편으로 구글번역과 네이버에서 서비스 중인 ‘파파고’도 적용중인 기술이다.
 
□ 아울러 인공지능 자동번역 모델을 생성하기 위해 반드시 필요한 코퍼스(말뭉치) 구축작업도 동시에 추진하였다.

○ 국사편찬위원회에서 구축한 승정원일기 표점원문과 한국고전번역원이 번역한 승정원일기 번역문 데이터를 번역문 150자 이내의 문장단위로 정제하고, 원문과 번역문을 1:1로 매칭하여 35만개의 병렬코퍼스를 구축하였으며,

○ 고품질의 기계학습 데이터 확보를 위해 코퍼스 구축 시 원문과 번역문에 대한 문장 분절부터 윤문, 교열 등 고급 정제 작업 진행에 승정원일기 번역자와 이에 준하는 전문 인력을 투입하였다.

○ 이렇게 구축된 병렬코퍼스를 토대로 BLEU* 평가점수와 휴먼평가점수가 가장 높은 모델을 자동번역모델로 선정하여 자동번역기(데모ver1.0)로 번역한 결과물이 한국고전번역원 역사문헌번역실 승정원일기 번역자에 의해 실시된 휴먼평가에서 평균 3.0점(5점 만점)을 획득하였다.

  * BLEU(Bilingual Evaluation Understudy) 평가는 형태소 분석정보를 이용하여 기계번역문과 번역자가 번역한 정답문의 유사도를 평가하는 방법으로 기계번역 자동 평가에서 널리 사용되는 번역품질 측정 방법

□ 한국고전번역원은 승정원일기가 총 3,243권으로 1994년부터 번역을 시작하여 2062년에 완료될 것으로 예상했으나, 딥러닝 기반의 인공지능을 적용한 이번 과제를 통해 27년을 단축하여 2035년에는 번역이 완료될 것이라고 기대하고 있다.
 
□ 한국정보화진흥원 서병조 원장은 “향후 인공지능 자동번역기술이 고전문헌의 번역 기간을 대폭 앞당길 것으로 기대하며 4차 산업혁명 시대 대응을 위해 인공지능 기술을 포함한 ICT신기술을 공공분야에 선도적으로 도입하여 개발·확산을 지속해 나가겠다.”라고 말했다. <끝>
 
 
 
붙임 : 인공지능 기반 고전문헌자동번역시스템 구축 사업 성과
 



트위터 페이스북 구글 플러스 인쇄