논문 원본 주소https://arxiv.org/pdf/1810.04805 ※ 오탈자, 내용 오류 지적, 질문은 댓글 또는 kimtorchedu@gmail.com로 이메일 남겨주시면 감사하겠습니다. # Transformer를 최초로 고안한 Attention Is All You Need 논문에서는, 미래의 정보를 참조할 수 없도록 Masking을 하였습니다. 즉, 현재 시점에서 과거에 해당하는 정보만(왼쪽) 단방향적으로 참조할 수 있다는 것입니다. 그러나 이제부터 읽어볼 BERT 논문에선, 단어 기준 양 방향의 정보를 반영하여 컴퓨터가 문장을 좀 더 다양한 각도에서 파악할 수 있게끔 하는 기술을 제안합니다. 이 논문에서 제안한 방법으로 수많은 후속 언어 모델들이 창시된 만큼, 꼼꼼히 읽어주시면 감사하겠습니..