cleanUrl: "/paper/word2vec"

<aside> 📄 논문 : Efficient Estimation Of Word Representations In Vector Space (Word2Vec) 저자 : Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean ****

</aside>

논문 선정 배경

본 논문은 자연어처리 분야에서 Word2Vec 이라는 기법으로 알려진 모델을 제시한 저명한 논문입니다. 기법의 이름에서 유추할 수 있듯이, 각 단어의 의미를 벡터에 대응하여 저장할 수 있고 각 벡터 사이의 덧셈과 뺄셈으로 의미에 대한 연산처리를 통해 원하는 의미의 단어를 찾을 수 있다는 점이 흥미로웠습니다. 이 방식은 기존의 neural network 모델들로 처리하기 어려웠던 “단어의 의미”를 기계에게 학습시키고, 기계가 의미를 이해할 수 있게 만든다는 점에서 큰 의의가 있다고 보았습니다. 이에, Word2Vec 기법과 기계의 훈련을 위해 제시된 두 가지 모델인 CBOW, Skip-gram에 대해 알아보고자 본 논문을 선택하였습니다.

Introduction

2013년 이전의 NLP system과 기술들에서는 학습된 단어들 간의 연관성 없이 각각의 데이터로 존재하였습니다. 이런 단순한 모델들은 대량의 데이터를 학습하여 유의미한 성능 향상을 만들어낼 수 있으나, 실제 학습을 위한 데이터의 양이 제한되어있어 기술적인 발전을 하기는 어려웠습니다. 그러나 머신러닝 기술의 발전을 통해 더 복잡한 모델들의 정확도를 올릴 수 있게 되었습니다.

본 논문의 목표는 양질의 단어 벡터를 큰 data set 또는 vocabulary로부터 학습하는 방법을 소개하는 것입니다. 단어를 벡터로 표현하는 방식을 통해 유사한 의미의 단어가 근처에 위치할 뿐 아니라, **multiple degrees of similarity(**syntactic, semantic, phonetic 등의 분야의 feature를 공유)를 가질 수 있도록 만들어줍니다. vector(“서울”) - vector(“수도”) + vector(“일본”) 의 결과로 얻은 벡터와 가장 가까운 단어 벡터가 “도쿄”를 가리키는 방식으로, 단어 벡터의 연산이 단어 의미의 연산으로 가능하도록 새로운 모델 아키텍쳐를 구성하여 syntactic, semantic 영역에서 높은 정확도를 가질 수 있도록 하였습니다.

기존의 모델들

1. N-gram Language Model

일련의 단어가 주어졌을 때, 해당 단어들 뒤에 나올 단어를 통계적으로 추측하여 출력하는 모델입니다. 앞의 단어 중 최근 N개의 단어만을 사용하며, 사용하는 단어의 개수에 따라 unigram, bigram, trigram, 4-gram 등으로 이름이 붙습니다. 학습 코퍼스를 통해 단어들 뒤에 각 단어가 나올 확률을 계산하여 학습하고, 주어진 N개의 단어에 대하여 조건부 확률로 뒤에 등장할 가능성이 가장 높은 단어를 계산하여 결과로 출력하는 모델입니다.

장점

단어의 훈련과 추론 과정이 간단하고 큰 시스템에 쉽게 적용이 가능하다.

단점

과거의 사례를 기반으로 작동하기에 새로운 단어 조합에 대해 이해하지 못한다. (희소문제 - sparsity problem)
단어간의 유사도를 알지 못하기 때문에 근처의 단어만 참고하여 문장을 작성하므로 전체적인 문장의 구조와 맥락을 파악하기 힘들다.

2. NNLM

Neural Network Language Model 또는 Feedforward Neural Language model은 워드 임베딩을 통해 단어 간의 유사도를 기계에게 학습시켜, 훈련에 없던 단어의 순서에 대해 보다 정확한 예측이 가능하도록 한 개선된 모델입니다. N-gram 처럼 N개의 단어를 이용해 단어를 예측합니다. 주어진 단어에 대해 매핑된 임베딩 벡터에 대해 연결 연산하여 hidden layer로 전달하면 hidden layer에서 가중치를 곱해 출력층으로 보내고, 출력층에서 또다른 가중치와 곱해진 뒤 가장 결과치가 큰 값에 해당하는 단어를 출력하는 모델입니다. 학습 코퍼스의 정답과 얻어낸 결과 간의 차이에 대해 역전파가 이루어지며 지나온 가중치 행렬들과 임베딩 벡터의 값이 조정되며 학습합니다.

Untitled

장점

NNLM은 과거에 등장하지 않은 단어의 조합에도 충분히 대응할 수 있다. (희소문제-sparsity problem-의 해결)

단점

문장 앞은 생략한 채, 근처의 N개의 단어만 고려할 수 있다.
N-gram에 비해 훨씬 더 많은 연산을 필요로 하며 이 때문에 성능이 느리다.

논문 선정 배경

Introduction

기존의 모델들

1. N-gram Language Model

2. NNLM

3. RNNLM