알리바바그룹, 인공지능 국제 대회 VQA 챌린지서 1위 기록

알리바바그룹의 인공지능 알고리즘이 글로벌 VQA(Visual Question Answering) 챌린지에서 1위를 차지했다. 동일한 환경에서 처음으로 머신러닝이 인간보다 우수한 점수를 기록한 사례다.

 

VQA 는 주어진 이미지를 이해하고 관련 텍스트 질문에 답을 하는 평가다. 이미지 관련 문답에서 알리바바그룹의 알고리즘은 정확도 81.26%[1]를 보였으며, 이는 인간의 80.83%보다 높다.

 

세계적인 컴퓨터 비전 학회 CVPR(Computer Vision and Pattern Recognition)이 2015년부터 해마다 개최하는 VQA 챌린지에는 페이스북, 마이크로소프트, 스탠포드 대학 등 세계 유수의 기업과 대학이 참가한다. 이미지와 이와 관련한 자연어 질문이 주어지면 각 모델이 자연어로 정답을 제시하는 형식의 평가다. 올해 챌린지는 250,000여 개의 이미지와 110만 개 질문으로 구성되었다.

 

이번 챌린지에 적용된 알고리즘은 알리바바그룹의 글로벌 연구기관인 다모 아카데미(DAMO Academy)가 개발했다. 다양한 시각적 표현, 사전 학습된 멀티모달 언어모델, 적응적 크로스 모달 시멘틱 융합 및 연결 등 기술을 활용하여 이미지 분석은 물론, 질문의 의도를 이해하고 추론을 통해 대화하듯 답을 할 수 있게 했다.

 

현재 VQA 기술은 알리바바그룹의 사업 분야 전반에 걸쳐 널리 적용되고 있다. 이커머스 플랫폼에서 수만 명의 판매자가 활용하고 있는 지능형 챗봇 알리미(Alime Shop Assistant)가 대표적인 예다. VQA 기술은 광범위하게 활용 가능해, 이커머스 사이트 검색 기능, 의료 영상 분석 기능, 스마트 주행 등에도 적용된다.

 

스 루오(Si Luo) 다모 아카데미 자연어처리(NLP) 책임자는 “머신 인텔리전스 부문에서 의미 있는 결과를 내며 알리바바그룹의 꾸준한 R&D 성과를 보여주게 되어 자랑스럽다. 이는 언젠가 로봇이 인간을 대체할 것이라는 의미가 아니다. 지능화된 기계가 일상적인 업무와 생활을 보조하여 사람들은 자신이 가장 잘하는 창의적인 일에 집중할 수 있게 될 것”이라고 밝혔다.

 

한편, 알리바바그룹의 머신러닝 모델은 대표적인 자연어처리 모델 성능 벤치마크인 GLUE 순위에서도 1위를 기록한 바 있다. 2019년에는 인공지능 분야에서 가장 까다로운 독해 테스트로 꼽히는 마이크로소프트 기계 독해(Microsoft Machine Reading Comprehension) 데이터세트 테스트에서 인간보다 더 높은 점수를 득점했다. MS 매크로(MS Marco) 문답 태스크에서 0.54점을 기록하며 마이크로소프트가 제시한 벤치마크인 인간의 0.539점에 앞섰다.

[1] VQA 챌린지 2021 리더보드 (Test-standard 단계 기준)

머신러닝 알리바바 클라우드 인공지능