Transformer에서 가중치를 어떻게 초기화합니까? - 블로그

안녕하세요! 변압기 공급업체로서 저는 변압기의 가중치를 초기화하는 방법에 대해 자주 질문을 받습니다. 이는 특히 딥 러닝에 관심이 있고 이러한 놀라운 모델을 사용하는 사람들에게 중요한 주제입니다. 그럼 이제 이 과정에 대해 함께 알아보고 살펴보겠습니다.

좋아요, 우선 가중치 초기화가 왜 그렇게 중요한가요? 글쎄, Transformer를 크고 복잡한 기계로 생각하십시오. 무게는 모든 것을 하나로 묶는 볼트와 너트와 같습니다. 잘못된 무게로 시작하면 모든 것이 엉망이 될 수 있습니다. 잘못된 가중치 초기화로 인해 훈련 중에 수렴이 느려질 수 있으며, 더 나쁜 경우 모델이 전혀 학습하지 못할 수도 있습니다.

Transformer에서 가중치를 초기화하는 방법에는 여러 가지가 있으며 각 방법에는 고유한 장단점이 있습니다.

자비에르 초기화

가장 잘 알려진 방법 중 하나는 Xavier 초기화입니다. 이는 2010년에 Xavier Glorot와 Yoshua Bengio에 의해 제안되었습니다. Xavier의 기본 아이디어는 네트워크의 모든 계층에서 활성화의 분산을 대략 동일하게 유지하는 것입니다.

Transformer를 다룰 때 가중치는 특정 분산을 갖는 가우스 분포에서 초기화됩니다. (n_{in}) 입력 단위와 (n_{out}) 출력 단위가 있는 레이어의 경우 가중치는 (N(0, \frac{2}{n_{in}+n_{out}}))에서 샘플링됩니다.

이는 그라데이션이 사라지거나 폭발하는 문제를 방지하는 데 도움이 됩니다. Self-Attention 및 Feed-Forward 네트워크의 여러 계층이 있는 Transformer에서는 역전파 중에 기울기가 원활하게 흘러야 합니다. Xavier 초기화는 이에 대한 좋은 출발점을 제공합니다. 예를 들어, Transformer의 다중 헤드 self-attention 메커니즘에서 Xavier를 사용하여 가중치가 적절하게 초기화되면 그라데이션이 레이어를 통과할 때 너무 작아지거나(사라지거나) 너무 커지거나(폭발) 되지 않습니다.

그는 초기화

그런 다음 He 초기화가 있습니다. Kaiming He와 그의 동료들은 2015년에 이 방법을 고안했습니다. 이 방법은 ReLU(Rectified Linear Unit) 활성화 기능을 사용하는 네트워크를 위해 특별히 설계되었습니다. 그리고 무엇을 추측합니까? Transformer는 피드 포워드 네트워크에서 ReLU를 사용합니다!

초기화에서는 (\frac{2}{n_{in}})의 분산을 갖는 가우스 분포에서 가중치를 샘플링합니다. 여기서 (n_{in})은 레이어에 대한 입력 단위의 수입니다. ReLU는 모든 음수 값을 0으로 설정하므로 활성화의 분산이 다른 활성화 함수에 비해 더 빠르게 변경될 수 있습니다. 초기화는 이 효과를 상쇄하는 데 도움이 되며 네트워크가 효과적으로 학습할 수 있도록 보장합니다.

텍스트 분류와 같은 자연어 처리 작업을 위해 Transformer를 구축한다고 가정해 보겠습니다. Transformer의 피드포워드 레이어에 He 초기화를 사용하면 모델이 텍스트 데이터의 비선형 관계를 보다 효율적으로 학습할 수 있습니다.

무작위 초기화

또 다른 접근 방식은 단순 무작위 초기화입니다. 특정 범위 내의 가중치에 무작위로 값을 할당하면 됩니다. 예를 들어 (-0.01)과 (0.01) 사이의 균일 분포에서 가중치를 샘플링할 수 있습니다.

20kv distribution transformer Cast Epoxy Resin Dry-Type Transformer

이는 순진한 방법처럼 보일 수 있지만 어떤 경우에는 효과가 있을 수 있습니다. 그러나 약간의 히트 또는 미스입니다. 모델이 수렴되도록 훈련 중에 학습 속도를 신중하게 조정해야 할 수도 있습니다. Transformer에서 상대적으로 작은 데이터 세트가 있는 경우 무작위 초기화가 좋은 시작점이 될 수 있습니다. 그러나 대규모 모델과 복잡한 작업의 경우 보다 정교한 초기화 방법을 사용하는 것이 더 나은 경우가 많습니다.

사전 훈련된 가중치

요즘 가장 인기 있는 트렌드 중 하나는 사전 훈련된 가중치를 사용하는 것입니다. BERT, GPT 등과 같이 사전 훈련된 Transformer 모델이 많이 있습니다. 이러한 모델은 대규모 데이터 세트에 대해 훈련되었으며 가중치는 언어에 대한 많은 일반 지식을 포착합니다.

새로운 Transformer 기반 모델을 구축하는 경우 사전 훈련된 가중치로 시작한 다음 특정 데이터 세트에 맞게 미세 조정할 수 있습니다. 이렇게 하면 많은 시간과 계산 리소스를 절약할 수 있습니다. 예를 들어, 감정 분석 작업을 수행하는 경우 사전 훈련된 BERT의 가중치를 가져온 다음 자신의 감정 레이블이 지정된 데이터 세트에 따라 모델을 미세 조정할 수 있습니다. 이러한 방식으로 모델은 이미 언어 구조와 의미론을 잘 이해하고 있으며 감정 분류 작업에 빠르게 적응할 수 있습니다.

변압기 공급업체로서 당사는 다양한 고품질 변압기를 제공합니다. 찾고 계시거나10KV 오일 - 침수형 배전 변압기,20KV 삼상 오일 - 침수형 배전 변압기, 또는주조 에폭시 수지 건식 변압기, 우리가 도와드리겠습니다.

당사의 변압기는 최고 수준의 성능 및 신뢰성을 충족하도록 설계되었습니다. 그리고 Transformer 모델에 적절한 중량 초기화가 중요한 것처럼, 최적의 성능을 보장하기 위해 Transformer의 모든 구성 요소를 신중하게 설계하고 테스트했습니다.

Transformer 시장에 있거나 Transformer 모델의 가중치 초기화에 대해 질문이 있는 경우(또는 딥 러닝의 최신 동향에 대해 이야기하고 싶은 경우) 주저하지 말고 문의하세요. 우리는 항상 귀하의 조달 요구 사항을 지원하고 귀하의 프로젝트에 가장 적합한 솔루션을 제공하기 위해 여기 있습니다.

참고자료

Glorot, X., & Bengio, Y. (2010). 심층 피드포워드 신경망 훈련의 어려움을 이해합니다. 제13회 인공지능과 통계에 관한 국제회의 논문집.
He, K., Zhang, X., Ren, S., & Sun, J. (2015). 정류기에 대한 심층 탐구: Imagenet 분류에서 인간 수준의 성능을 능가합니다. 컴퓨터 비전에 관한 IEEE 국제 회의 진행 중.