알리바바그룹, 정확도 97.5% 문자인식AI로 중국 고서 디지털화 추진

알리바바그룹의 글로벌 연구 기관 다모(DAMO) 아카데미가 중국 고서 디지털화에 나섰다. 광학문자인식(OCR) 기술로 고서 속 문자를 디지털로 옮기며, 기계 독해 기술의 발전을 도모하고 고전 문헌에 생명력을 불어 넣는다는 계획이다.

중국 고서 속 고대 한자는 오랜 시간에 걸쳐 여러 가지 형태로 변형되어 표기법이 다양하다. 다모 아카데미는 이러한 고서를 누구든 쉽게 접할 수 있게 하고자 스캔 이미지 속 고대 한자를 디지털화하는 인공지능(AI) 광학문자인식 기술을 개발했다.

다모 아카데미가 중국 쓰촨대학(四川大學) 연구진과 함께 개발한 인공지능 고서 변환 시스템에는 단일 문자 인덱싱, 자동 문자 그룹화, 자가 지도 학습(self-supervised learning), 퓨샷 러닝(few-shot learning) 등 머신 러닝 기술이 탑재되었다. 시스템의 문자 인식 정확도는 97.5 %에 달하며, 현재 약 3만 개의 고대 한자를 인식할 수 있는 것으로 나타났다. 인식 속도는 관련 인력 대비 30배 빠른 수준이다.

기술이 공식 적용되는 첫 사업은 UC 버클리 동아시아 도서관이 보유한 중국 고서 20만 장의 디지털화다. 1000여 년 전 송나라 및 원나라 시대의 목판본과 필사본, 청나라 시대에 편찬된 중국 문헌 총서인 <사고전서(四庫全書)> 원본의 일부 등이 포함되었다.

이번 프로젝트에는 다모 아카데미, 알리바바공익기금회, UC 버클리 도서관, 쓰촨대학, 중국국가도서관 그리고 중국 저장도서관이 참여한다. 세계 곳곳에 흩어져 있는 중국 고서를 디지털화하고, 고서 변환 시스템은 향후 누구든 사용할 수 있도록 공개할 예정이다.

장졘펑(Jeff Zhang) 알리바바 클라우드 인텔리전스 회장 겸 알리바바그룹 다모 아카데미 대표는 “알리바바그룹은 고서 디지털화를 비롯한 사회공헌 프로젝트를 위해 첨단 기술에 지속 투자할 계획이다. 알리바바그룹을 이끄는 가장 중요한 가치관 중 하나는 기술은 선한 영향력이 되어야 한다는 것이다. 기술이 소중한 문화유산을 보존하는 데 큰 역할을 할 수 있으리라 믿는다. 전 세계 도서관과 함께 이번 사업을 추진해 나갈 것”이라고 전했다.

다모 아카데미 알리바바그룹 중국 고서 디지털화