닥터송 직원들이 2022 국립국어원 인공지능 언어 능력 평가 대회 시상식에서 기념 촬영을 하고 있다
서울--(뉴스와이어)--인공지능(AI) 전문 기업 닥터송은 11월 29일 문화체육관광부와 국립국어원이 주최하는 ‘2022년 국립국어원 인공지능 언어 능력 평가 대회’에서 동상(국립국어원장상)을 수상했다고 6일 밝혔다.
이번 대회 과제는 ‘속성 기반 감성 분석’으로 국립국어원 모두의 말뭉치가 제공하는 데이터셋을 이용해 인공지능이 문장을 이해해 작성자의 주관성이 드러나는 개체와 속성 쌍 및 극성을 추론하는 과제다. 참가자들은 주어진 학습 데이터를 사용해 모델을 만들고, 온라인상에서 수집한 리뷰나 상품 후기 등의 텍스트 데이터가 어떤 범주인지, 긍정이나 부정적 감정이 표현돼 있는지 추측했다. 올해 9월 15일부터 시작된 이번 대회는 210명의 참가자가 총 7468건을 제출했다.
기존의 일반적 감성 분석(sentiment analysis)은 문서 또는 문장의 전반적 감성을 분석한다. 그러나 감성 분석의 경우에는 하나의 문서나 문장에 여러 감성이 복합적으로 존재할 때 이를 정확하게 분류하지 못하는 단점이 존재한다. 속성 기반 감성 분석(ABSA,aspect-based sentiment analysis)은 대상(aspect)을 기준으로 문장을 이해하고, 감성을 분석하는 것을 목표로 한다.
기업의 고객 경험 관리 및 판매/마케팅에 특화한 특성의 도메인 데이터로 전처리 및 가공을 거쳐 최종적으로 70GB(약 127억개의 토큰)의 텍스트 데이터를 학습에 사용했다. 데이터는 화장품, 식품, 전자제품, 반려동물 등의 카테고리로 분류돼 있으며 특정된 도메인 특화 언어 모델 학습에 사용했다.
ABSA task를 수행하기 위해 문장의 개체를 분석하는 ACC (Aspect category detection / classification) 모델과 개체 속성을 분석하기 위해 ASC (Aspect Sentiment Classification) 모델을 활용했다. 닥터송은 언어 인공지능을 꾸준히 연구·개발하고 있으며 온라인상 리뷰를 인공지능 기술로 분석하는 평판 관리 툴 ‘리빗’을 출시한 바 있다. 개발된 알고리즘은 올겨울 리뷰에 대한 감성 분석과 속성 기반 분석 기능으로 업데이트될 예정이다.
닥터송 윤현지 대표는 “인공지능 기술을 활용해 마케팅 인텔리전스 툴과 헬스케어 관련된 다양한 혁신 제품을 개발하고 있으며 자연어 처리 기술을 오랫동안 연구해왔는데, 국립국어원에서 상을 받게 돼 더욱 영광”이라며 “이번 수상을 통해 앞으로도 더 연구, 개발에 박차를 가하겠다”고 말했다.
닥터송 개요
닥터송은 소프트웨어 개발 및 공급업, 마케팅을 맡고 있다.