전체 글 3

[국가권력급 논문 - 2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

논문 원본 주소https://arxiv.org/pdf/1810.04805  ※ 오탈자, 내용 오류 지적, 질문은 댓글 또는 kimtorchedu@gmail.com로 이메일 남겨주시면 감사하겠습니다. # Transformer를 최초로 고안한 Attention Is All You Need 논문에서는, 미래의 정보를 참조할 수 없도록 Masking을 하였습니다. 즉, 현재 시점에서 과거에 해당하는 정보만(왼쪽) 단방향적으로 참조할 수 있다는 것입니다. 그러나 이제부터 읽어볼 BERT 논문에선, 단어 기준 양 방향의 정보를 반영하여 컴퓨터가 문장을 좀 더 다양한 각도에서 파악할 수 있게끔 하는 기술을 제안합니다. 이 논문에서 제안한 방법으로 수많은 후속 언어 모델들이 창시된 만큼, 꼼꼼히 읽어주시면 감사하겠습니..

[AI 개발새발 - 1] 당신의 코드에서 2의 제곱수가 계속 보이는 이유

AI 개발을 하다보면 딥러닝 논문이나 구현된 모델의 코드에서 숫자만 나왔다하면 어째서인지 죄다 2의 제곱수인 것을 볼 수 있습니다. 레이어의 수, 은닉층 사이즈, 배치 사이즈 등에서 작게는 2, 4, 8 ... 더 나아가 1024, 2048..과 같이 2의 제곱인 숫자가 대부분 사용되는 것을 확인할 수 있습니다.  그런데 사실, 이것은 암묵적인 합의에 불과합니다. 즉, 2의 제곱수가 아닌 다른 숫자를 사용하더라도 코드는 아마 작동할 것입니다. 그럼에도 불구하고, 가급적이면 2의 제곱수로 여러분의 코드를 구성하는 것을 권장하고 싶습니다. 그 이유는 다음과 같습니다. 1.  컴퓨터는 2의 제곱수로 일을 합니다.흔히 우리가 컴퓨터 작동 방식을 떠올릴 때 01101010101.. 이렇게 표현하듯이, 컴퓨터는 기..

[국가권력급 논문 - 1] Attention Is All You Need - Transformer 시대의 서막

논문 원본 주소 https://arxiv.org/pdf/1706.03762   ※ 오탈자, 내용 오류 지적, 질문은 댓글 또는 kimtorchedu@gmail.com로 이메일 남겨주시면 감사하겠습니다. # 언어 모델의 왕좌를 차지한 Chat GPT에서 GPT는 Generative Pre-trained Transformer의 약자입니다. 그중 한 자리를 차지하고 있는 Transformer는 2017년 발표된 Attention Is All You Need에서 고안된 모델 구조입니다. 당시 RNN 등의 구조가 가지고 있는 한계를 압도적으로 극복해 내며, 이 글을 작성하고 있는 2024년까지도 대부분의 언어 모델은 이 Transformer의 구조를 차용하고 있습니다.0. AbstractTransformer는 C..