GPT 2

[국가권력급 논문 - 2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

논문 원본 주소https://arxiv.org/pdf/1810.04805  ※ 오탈자, 내용 오류 지적, 질문은 댓글 또는 kimtorchedu@gmail.com로 이메일 남겨주시면 감사하겠습니다. # Transformer를 최초로 고안한 Attention Is All You Need 논문에서는, 미래의 정보를 참조할 수 없도록 Masking을 하였습니다. 즉, 현재 시점에서 과거에 해당하는 정보만(왼쪽) 단방향적으로 참조할 수 있다는 것입니다. 그러나 이제부터 읽어볼 BERT 논문에선, 단어 기준 양 방향의 정보를 반영하여 컴퓨터가 문장을 좀 더 다양한 각도에서 파악할 수 있게끔 하는 기술을 제안합니다. 이 논문에서 제안한 방법으로 수많은 후속 언어 모델들이 창시된 만큼, 꼼꼼히 읽어주시면 감사하겠습니..

[국가권력급 논문 - 1] Attention Is All You Need - Transformer 시대의 서막

논문 원본 주소 https://arxiv.org/pdf/1706.03762   ※ 오탈자, 내용 오류 지적, 질문은 댓글 또는 kimtorchedu@gmail.com로 이메일 남겨주시면 감사하겠습니다. # 언어 모델의 왕좌를 차지한 Chat GPT에서 GPT는 Generative Pre-trained Transformer의 약자입니다. 그중 한 자리를 차지하고 있는 Transformer는 2017년 발표된 Attention Is All You Need에서 고안된 모델 구조입니다. 당시 RNN 등의 구조가 가지고 있는 한계를 압도적으로 극복해 내며, 이 글을 작성하고 있는 2024년까지도 대부분의 언어 모델은 이 Transformer의 구조를 차용하고 있습니다.0. AbstractTransformer는 C..