Abstract

BERT는 Tramsformer 의 양방향 인코더를 사용해 token의 representation을 학습한다. 최근 언어모델(GPT, ElMo)과 달리, BERT는 모든 계층에서 왼쪽과 오른쪽 context를 공동으로 조절하여 레이블이 없는 텍스트로 부터(unsupervised learn) 심층 양방향 표현을 pre-traning하도록 설계되었다.

결과적으로 사전 훈련된 BERT 모델은 작업별 아키텍처 수정없이 Q&A 및 언어 추론과 같은 광범위한 작업에 대한 state-of-the-artf model을 만들기 위해 하나의 추가 출력 계층으로 fine-tuning할 수 있다.

1. Introduction

언어 모델 사전 훈련은 많은 자연어 처리 작업을 개선하는 데 효과적인 것으로 나타났다. 다운스트림¹ 작업에 사전 훈련된 언어 표현(PLM, pre-trained language model)을 적용하기 위한 방법은 현재 크게 2가지로 구분된다.

  1. feature-based

  2. fine-tuning

두 방식 모두 pre-training하는 과정에서는 동일한 objective(목적함수)를 사용하고, 동일하게 undirectional language model(단방향 언어모델)을 사용한다.

BERT pre-training의 새로운 방법론은 크게 2가지로 나눌 수 있다. 하나는 Masked Language Model(MLM), 또 다른 하나는 **Next Sentence Prediction(NSP)**이다.

2. Related Work

ELMo, OpenAI GPT와 같은 모델이 존재. 추후 다루겠음

3. BERT