본문 바로가기

데이터 사이언스 이야기

[논문 소개] 분야 특유의 비지도학습 고유표현인식(Domain-Specific Unsupervised Named Entity Recognitio

2017년 논문이라 최신은 아니지만, 최근에 NER에 대해 공부할 일이 있어서 리뷰.

개요

비지도학습에 의한 분야특유(domain specific) 고유표현인식(NER)을 제안하고 있다.
비지도학습 형태소해석수법인 PYHSMM을 확장하고 있다.
단어레벨의 PYHSMM과 semi-Markov CRF를 통합하여, 일반 분야의 코퍼스에 의한 pseudo labeled 데이터, 대상 분야의 적은 수의 시드 데이터를 사용하여 NER을 수행한다.
이 수법은 분야 특유의 고유표현 코퍼스가 존재하지 않는 분야에 대해서, 적은 비용으로 분야 특유의 비지도 NER을 수행할 수 있어, 다양한 분야나 언어, 고유표현 체계에 응용가능하다.
복수의 분야에 있어 영어 및 일본어에 대하여 실험하여, 제안수법이 NER의 정확도를 향상시키는 것이 확인되었다.

NER이란

일반적으로 고유표현인식(NER)이란, 텍스트 중에서 인명, 지명, 조직명 등을 추출하는 기술로, 정보검색이나 관계추출, 상호참조해결 등에 응용된다.
앞으로의 태스크는 구조화되어있지 않은 데이터를 컴퓨터로 다루기 쉽게 하는 것을 목적으로 하여, 보다 고도의 언어처리기술에 사용된다.
또한, 최근에는 바이오의료분야의 텍스트에 있어서의 DNA명, 단백질명 등의 인식을 목적으로 바이오텍스트 NER이나 요리레시피의 텍스트에 있어서의 식재명, 도구명 등의 인식을 목적으로 한 레시피 NER 등의 분야 특유의 고유표현체계가 정의된 코퍼스가 제안되어, 각각 문헌분류나 매뉴얼 이해 등의 기초기술이 되고 있다.

NER의 과제

많은 부분에 기계학습이 사용되고 있는데, 라벨링된 대량의 데이터를 얻을 수 있는 분야가 적어서, 분야 특유의 NER이 어렵다.
또한, 분야특유의 고유표현 코퍼스 작성은, 해당 분야의 전문지식이 필요한 일이어서 비용이 많이 든다.
따라서, 많은 분야특유 NER은 룰베이스 수법 또는 휴리스틱한 속성을 대량으로 준비한 기계학습 모델인 경우가 많다.
이러한 수법은 어느 쪽이든 특정 분야에 대한 깊은 전문지식이 필요하여, 다른 분야에 적용하기 어렵다.

이 논문의 성과

비지도학습에 의한 분야특유의 NER을 제안.
PYHSMM(Pitman-Yor Hidden Semi Markov Model)에 의한 비지도 형태소해석을 확장한 수법으로, 분야특유의 엔티티와 그 클래스를 동시에 추정한다.
대상이 되는 분야의 라벨링되지 않은 데이터와 소수의 시드데이터, 일반분야의 텍스트를 pseudo-labeled 데이터로 준비하는 것으로, 대상이 되는 분야에서만 많이 출현하는 단어열을 인식하여, 그 클래스를 주변문맥으로부터 추정한다.

해당 논문
TOMORI, SUZUSHI, and SHINSUKE MORI. "Domain-Specific Unsupervised Named Entity Recognition." 電子情報通信学会技術研究報告 117.367 (NLC2017 35-43) (2017): 21-29.

참고자료
Uchiumi, Kei, Hiroshi Tsukahara, and Daichi Mochihashi. "Inducing word and part-of-speech with Pitman-Yor hidden semi-Markov models." Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2015.