cleanUrl: 'paper/bert'

논문 : BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 저자 : Google AI Language (Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova)

논문 선정 이유

본 논문은 왼쪽과 오른쪽 문맥을 모두 고려하는 양방향의 인코더를 가진 사전학습 모형, BERT를 제시합니다. 질의응답, 자연어추론 등 다양한 NLP task를 성공적으로 수행할 수 있도록 하는 사전학습 모델로써 널리 사용되고 있고, 저번 포스트로 소개드렸던 Transformer를 인코더로 사용하는 아키텍쳐를 가지고 있어, Transformer를 이어 임베딩 모형을 공부하고자 해당 논문을 선택했습니다.

Introduction

pre-training(사전학습) 언어 모델은 많은 NLP task(sentence-level task, token-level task)에서 효과적인 것으로 나타났습니다. 사전학습된 언어 표현은 2가지 방법으로 적용됩니다.

두 방법은 사전학습하는 동안 같은 목적함수를 사용합니다. 일반적인 language representaion을 학습하기 위해 단방향 언어 모델을 사용합니다. 단방향 언어 모델은 사전학습에 사용될 수 있는 아키텍쳐의 선택을 제한하기 때문에 한계가 있습니다. 예를 들어 OpenAI GPT는 left-to-right 구조로 모든 토큰은 self-attention layer에서 오직 이전의 토큰(previous token)만 접근할 수 있다는 한계가 있습니다. 이러한 한계는 sentence level task에 차선책이고 QA와 같이 양방향의 문맥을 이해해야하는 token-level task에 기반하는 사전학습을 적용할 때 치명적입니다.

본 논문은 양뱡향의 인코더를 가진 BERT를 제시하면서 사전학습에 기반하는 접근법을 개선합니다. BERT는 **MLM(masked language model)**를 사용해 성능을 개선했습니다. MLM은 랜덤하게 입력의 토큰을 mask하고, mask된 단어의 문맥만을 기반으로 mask된 단어의 원래의 vocabulary id를 예측하는 것이 목적입니다. left-to-right 구조와 다르게 masked 언어 모델 인 MLM은 왼쪽과 오른쪽 문맥을 융합해 나타낼수 있습니다. 또한 text-pair representaion을 결합적으로 사전학습하는 **NSP(next sentence prdiction)**을 사용합니다.

이 모델을 통해 언어 모델에서 양방향 사전모델의 중요성을 보여줬습니다. 또한 사전학습은 heavily-engineered task 아키텍쳐의 필요성을 감소시켰습니다.

Related Work

**사전학습(pre-training)**의 가장 많이 사용되는 접근방법을 소개합니다.