[2017] Attention is all you need
#Transformer #Attention is all you need
0. Abstract
ํ์ฌ ์ฃผ๋์ ์ธ Sequence transduction model๋ค์ ์ธ์ฝ๋์ ๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ํฌํจํ ๋ณต์กํ RNN ํน์ CNN๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํจ.
์ฌ๊ท(=recurrent)๋ ํฉ์ฑ๊ณฑ(=convolution) ๋ฐฉ์์ ์์ ๋ฐฐ์ ํ๊ณ Attension Mechanism๋ง์ ํ์ฉํ Transformer๋ผ๋ ์๋ก์ด ๊ฐ๋จํ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ์ ์.
2๊ฐ์ง Translation Task๋ฅผ ์ํํ ์คํ ๊ฒฐ๊ณผ, ์ด ๋ชจ๋ธ๋ค์ ํ์ง ๋ฉด์์ ์ฐ์ํจ์ ๋ณด์์ผ๋ฉฐ Transformer๊ฐ ๋ค๋ฅธ ์์ ์๋ ์ ์ผ๋ฐํ๋จ์ ๋ณด์ฌ์ฃผ์์.
1. Introduce
RNN, LSTM๊ณผ GRU๋ ์ธ์ด ๋ชจ๋ธ๋ง, ๊ธฐ๊ณ ๋ฒ์ญ๊ณผ ๊ฐ์ ์์ฐจ ๋ชจ๋ธ๋ง ๋ฐ ๋ณํ ๋ฌธ์ ์์ ์ต๊ณ ์ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ํ๊ณ ํ ์๋ฆฌ์ก๊ณ ์๊ณ ์ดํ์๋ ๋ง์ ์ฐ๊ตฌ๊ฐ ์ํ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๋ฐ์ด๋๊ธฐ ์ํด ๊ณ์๋๊ณ ์์.
์ํ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ ์ํ์ค์ ์ฌ๋ณผ ์์น์ ๋ฐ๋ผ ๊ณ์ฐ์ ๋ถํ ํจ. ์ฐ์ฐ steps์ ์์น์ ๋ฐ๋ผ, ์ด์ hidden state์ธ ์ position ์ ์ ๋ ฅ์ ๊ธฐ๋ฅ์ผ๋ก ํ๋ hidden state ๊ฐ ์์ฑ๋จ.
์ด๋ฐ inherentlyํ sequential ๋ณธ์ง์ ๋ณ๋ ฌ์ฒ๋ฆฌ๋ฅผ ๋ชป ํ๊ฒํ๋ฉฐ, ๊ธด ๋ฌธ์ฅ์์๋ criticalํ ๋ฌธ์ ์ด๊ณ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ์ผ๋ก ์ธํด ์์ ์์ ์ผ๊ด ์ฒ๋ฆฌ๊ฐ ์ ํ๋จ.
factorization tricks๊ณผ conditional computation์ ํตํด ๊ณ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ํ์์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ฑ๋ฅ๋ ๊ฐ์ ๋์์ง๋ง ์ฌ์ ํ ์์ฐจ์ ๊ณ์ฐ์ ๊ทผ๋ณธ์ ์ธ ์ ์ฝ์ ๋จ์ ์์.
Attention Mechanism์ ๋ค์ํ task์์ compelling sequence modeling ๋ฐ transduction model์ ํ์์ ์ธ ๋ถ๋ถ์ด ๋์์ผ๋ฉฐ, ์ ๋ ฅ ๋๋ ์ถ๋ ฅ ์ํ์ค์์์ ๊ฑฐ๋ฆฌ์ ์ ์ฝ์ ๋ฐ์ง ์๊ฒ ํ์์.
๋ณธ ์ฐ๊ตฌ์์ ์ฐ๋ฆฌ๋ ์ํ์ ๋ฐฐ์ ํ๋ ๋์ ์ค๋ก์ง Attention Mechanism์ ์์กดํ์ฌ ์ ์ถ๋ ฅ ๊ฐ์ ์ ์ญ์ ์์กด์ฑ์ ํ์ ํ๋ ๋ชจ๋ธ ๊ตฌ์กฐ์ธ Transformer๋ฅผ ์ ์ํ๊ณ ์ ํจ.
ํด๋น ๋ชจ๋ธ์ ํจ์ฌ ๋ ๋ง์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, 8๊ฐ์ P100 GPU์์ ๋จ 12์๊ฐ ํ๋ จํ ํ ๋ฒ์ญ ํ์ง์์ SOTA๋ฅผ ๋ฌ์ฑํ ์ ์์์.
2. Background
์์ฐจ์ ๊ณ์ฐ์ ์ค์ด๋ ค๋ ๋ชฉํ๋ Extended Neural GPU, ByteNet, ๊ทธ๋ฆฌ๊ณ ConvS2S์์๋ ๋ค๋ฃจ์ด์ก์ผ๋ฉฐ, ์ด ๋ชจ๋ธ๋ค์ ๋ชจ๋ CNN์ ์ฌ์ฉํจ.
input, output ๊ฑฐ๋ฆฌ์์ dependency๋ฅผ ํ์ตํ๊ธฐ ์ด๋ ค์.
Transformer์์๋ ์ด๊ฒ์ Multi-Head Attention์ ์ฌ์ฉํ์ฌ ์์์๊ฐ์ผ๋ก ์ค์ด๋ค์์.
Self-attention, ๋๋๋ก intra-attention์ด๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ด attention mechanism์ ํ๋์ ์ํ์ค ๋ด ๋ค์ํ ์์น๋ฅผ ์๋ก ์ฐ๊ด์์ผ ์ํ์ค์ ํํ์ ๊ณ์ฐํจ.
๋ ํด(=comprehension), ์ถ์์ ์์ฝ(=abstractive summerization), ํ ์คํธ ํจ์ถ(=textual entailment) ๋ฐ task-independent sentnece representation๊ณผ ๊ฐ์ ๋ค์ํ ์์ ์ ์ฑ๊ณต์ ์ผ๋ก ์ฌ์ฉ๋จ.
End-to-End Memory Network๋ sequence-aligned recurrence ๋์ recurrent attention mechanism์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋จ์ ์ธ์ด ์ง๋ฌธ ์๋ต ๋ฐ ์ธ์ด ๋ชจ๋ธ๋ง ์์ ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ ๊ฒ์ผ๋ก ๋ํ๋จ.
Transformer๋ Sequence-aligned RNN์ด๋ CNN์ ์ฌ์ฉํ์ง ์๊ณ , Self-Attention์๋ง ์์กดํ์ฌ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ํํ์ ๊ณ์ฐํ๋ ์ต์ด์ transduction ๋ชจ๋ธ์ ๋๋ค.
3. Model Architecture
๋๋ถ๋ถ์ ๊ฒฝ์๋ ฅ ์๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ์ sequence transduction ๋ชจ๋ธ์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์ธ์ฝ๋์ ์ ๋ ฅ ์ํ์ค ๋ฅผ ์ฐ์์ ํํ์ธ ์ ๊ฐ์ด ๋งคํํ์ฌ ํํํจ.
๋ฅผ ๋ฐํ์ผ๋ก ๋์ฝ๋๋ ์ถ๋ ฅ ์ํ์ค ๋ฅผ ํ๋์ฉ ์์ฑํจ.
๊ฐ๊ฐ์ ๋จ๊ณ์์ ๋ชจ๋ธ์ auto-regressiveํ๋ฉฐ, ๋ค์์ ์์ฑํ ๋ ์ด์ ์ ์์ฑ๋ symbol๋ค์ ์ถ๊ฐ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
Transformer๋ ์ธ์ฝ๋์ ๋์ฝ๋์ ๋ํด ๊ฐ๊ฐ Figure 1์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ฐ์ชฝ์์ ๋ณด์ฌ์ง๋ ๊ฒ์ฒ๋ผ, Self-Attention๊ณผ Point-wise, fully connected layer๋ฅผ ์ฌ์ฉํ์ฌ ๊ตฌ์ฑ๋จ.
3.1 Encoder and Decoder Stacks
Encoder
์ธ์ฝ๋๋ N=6๊ฐ์ ๋์ผํ ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋จ.
๊ฐ ๊ณ์ธต์ 2๊ฐ์ Sub-Layer๋ฅผ ๊ฐ์ง.
์ฒซ ๋ฒ์งธ๋ Multi-Head Self Attention Mechanism
๋ ๋ฒ์งธ๋ ์์น๋ณ Fully connected FFN
๋ Sub-Layer ๊ฐ๊ฐ์ ๋๋ฌ์ธ๋ Resiual connection์ ์ฌ์ฉํ๊ณ , ๊ทธ ๋ค์์ ์ ๊ทํ๋ฅผ ์ ์ฉํจ.
๊ฐ Sub-Layer์ ์ถ๋ ฅ์ ์ธ๋ฐ, ์ฌ๊ธฐ์ ๋ Sub-Layer์์ฒด๊ฐ ๊ตฌํํ๋ ํจ์์.
Residual Connection์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด, ๋ชจ๋ธ์ ๋ชจ๋ ์๋ธ๋ ์ด์ด์ ์๋ฒ ๋ฉ ๋ ์ด์ด๋ ์ ์ฐจ์์ ๊ฐ์ง ์ถ๋ ฅ์ ์์ฑํจ.
Decoder
๋์ฝ๋ ๋ํ N = 6๊ฐ์ ๋์ผํ ๊ณ์ธต์ผ๋ก ๊ตฌ์ฑ๋จ
์ธ์ฝ๋ ๊ณ์ธต์ ๋ ์๋ธ๋ ์ด์ด ์ธ์๋, ์ธ ๋ฒ์งธ ์๋ธ๋ ์ด์ด๋ฅผ ์ถ๊ฐํจ
์ธ์ฝ๋์ ์ถ๋ ฅ์ ๋ํด Multi-Head Attention Mechanism์ ์ํํจ
๊ฐ Sub-Layer ์ฃผ๋ณ์ Residual connection์ ์ฌ์ฉํ๊ณ , ๊ทธ ๋ค์์ ๋ ์ด์ด ์ ๊ทํ๋ฅผ ์ ์ฉํจ.
๋์ฝ๋์ self-attention layer๋ฅผ ์์ ํ์ฌ position์ด ๋ค๋ฅธ ์์น๋ก ์ด๋ํ๋ ๊ฒ์ ๋ฐฉ์งํ๋๋ฐ ์ด๋ฅผ ์ํด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ด Masking์.
์ด๋ค i๋ฒ์งธ position์์ ์์ธก์ ์ํํ ๋, ๋ฏธ๋์ ์ฌ ์์น์ ์ ๊ทผํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๊ณ ํด๋น ์์น์ ๊ทธ ์ด์ ์ ์์น๋ค์ ๋ํด์๋ง ์์กดํ๋๋ก ํจ.
3.2 Attention
Attention Function์ query, key, value ๊ทธ๋ฆฌ๊ณ output ๋ชจ๋๊ฐ ๋ฒกํฐ์ธ ์ถ๋ ฅ์ ๋ํด์ query์ key-value pair๋ฅผ output์ ๋งคํํ๋ ํจ์์.
output์ value๋ค์ ๊ฐ์ค์น ํฉ์ผ๋ก ๊ณ์ฐํ๋๋ฐ ์ด๋, ๊ฐ value์ ํ ๋น๋ ๊ฐ์ค์น๋ ํด๋น key๋ฅผ ๊ฐ์ง query์ ์ฐ๊ด๋ ํจ์(=> ์ข ๋ฅ๊ฐ ๋ง์! dot-prod, badanau, etc...)์ ์ํด ๊ณ์ฐ๋จ.
3.2.1 Scaled Dot Product Attention
Scaled Dot-Product Attention์ ์ ๋ ฅ์ ์ ๋ํ query, key์ ์ ๋ํ value์ ๋ฒกํฐ๋ค๋ก ๊ตฌ์ฑ๋จ.
๋ชจ๋ key๋ก dot-product๋ฅผ ๊ณ์ฐํ๊ณ ๊ฐ๊ฐ์ ๋ก ๋๋ ๋ค์, Softmaxํจ์๋ฅผ ์ ์ฉํ์ฌ value์ ๊ฐ์ค์น๋ฅผ ์ป๊ฒ๋จ.
๊ฐ์ฅ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ attention function์ 'additive attention'๊ณผ 'dot-product attention'์ด๊ณ ์ด์ค Dot-product attention์ ์ค์ผ์ผ๋ง ์ธ์์ธ ๋ฅผ ์ ์ธํ๋ฉด ๋ณธ ๋ ผ๋ฌธ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฐ์.
additive attention์ feed-forward network๋ฅผ ์ด์ฉํ์ฌ compatibility function์ ๊ณ์ฐํจ.
์์ ๋ ๊ฐ์ง๋ ์ด๋ก ์ ์ธ ๋ณต์ก์ฑ์ ์ ์ฌํ์ง๋ง, dot-product attention์ด ํจ์ฌ ๋น ๋ฅด๊ณ ๊ณต๊ฐํจ์จ์ ์.
๊ฐ ์์ผ๋ฉด ๋ ๋ฐฉ์์ ์ฑ๋ฅ์ ๋น์ทํ์ง๋ง, ๊ฐ ํฐ ๊ฒฝ์ฐ additie attention์ด ๋ ์ฑ๋ฅ์ด ์ข์.
๊ฐ ํฌ๋ฉด dot-product์ ๊ฒฝ์ฐ gradient vanishing ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ก ์ค์ผ์ผ๋ง ํจ.
3.2.2 Multi-Head Attention
์ ์ฐจ์ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ key, value, query๋ก ๋จ์ผ ์ดํ ์ ๊ธฐ๋ฅ์ ์ํํ๋ ๋์ ์ query, key,value์ ๊ฐ๊ฐ ์ฐจ์์ผ๋ก ๋ฒ linear projectionํ๋ ๊ฒ(=> ์๋ก ๋ค๋ฅด๊ฒ ํ์ต)์ด ๋ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํจ.
์ด๋ ๊ฒ projection๋ query, key, value์ ๋ํด์ attention function์ ๋ณ๋ ฌ์ ์ผ๋ก ์ํํ์ฌ ๊ฐ์ ์ฐจ์์ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํจ. ์ด ๊ฒฐ๊ณผ๋ค์ ์ฐ๊ฒฐ์ํจ ํ linear projectionํ์ฌ ์ต์ข ์ ์ธ ๊ฒฐ๊ณผ๋ฒกํฐ๋ฅผ ์ป๊ฒ๋จ.
ํ๋ผ๋ฏธํฐ๋ค
๋ณธ ์ฐ๊ตฌ์์ ์ด๊ณ ์ด๋ค. ๊ฐ head๋ง๋ค ์ฐจ์์ ์ค์ด๊ธฐ ๋๋ฌธ์ ์ ์ฒด๊ณ์ฐ๋น์ฉ์ด ๋จ์ผ ์ดํ ์ ๊ณผ ๋น์ทํ๋ค.
3.2.3 Applications of Attention in our Model
Transformer์์๋ Multi-Head Attention์ 3๊ฐ์ง ๋ฐฉ์์ผ๋ก ์ฌ์ฉํจ.
์ธ์ฝ๋-๋์ฝ๋ ๋ ์ด์ด
query๋ ์ด์ ๋์ฝ๋ ๋ ์ด์ด์์ ๋์ด.
key์ value๋ ์ธ์ฝ๋์ output์์ ๋์ด.
๋์ฝ๋์ ๋ชจ๋ ์์น์์ input sequence์ ๋ชจ๋ position์ ๋ค๋ฃฐ ์ ์์.
์ ํ์ ์ธ Seq2Seq์์์ attention ๋ฐฉ์.
์ธ์ฝ๋
self-attention layer๋ฅผ ํฌํจํจ.
query, key, value๋ ๋ชจ๋ ์ธ์ฝ๋์ ์ด์ layer์ output์์ ๋์ด.
์ธ์ฝ๋์ ๊ฐ position์ ์ธ์ฝ๋์ ์ด์ layer์ ๋ชจ๋ position์ ๋ค๋ฃฐ ์ ์์.
๋์ฝ๋
๋์ฝ๋์ ๊ฐ position์ ํด๋น position๊น์ง ๋ชจ๋ position์ ๋ค๋ฃฐ ์ ์์.
๋์ฝ๋์ auto-regressive ์ฑ์ง์ ๋ณด์กดํ๊ธฐ ์ํด leftward์ ์ ๋ณดํ๋ฆ์ ๋ง์์ผํจ (= ๋ฏธ๋ ์์ ์ ๋จ์ด๋ค์ ๋ฏธ๋ฆฌ ์กฐํํจ์ ๋ฐ๋ผ ํ์ฌ๋จ์ด ๊ฒฐ์ ์ ๋ฏธ์น ์ ์๋ ์ํฅ์ ๋ง์).
Scaled-dot product attention์์ ๋ชจ๋ softmax์ input value ์ค illegal connection์ ํด๋นํ๋ ๊ฐ์ ๋ก masking outํด์ ๊ตฌํํจ. (= Softmax๋ฅผ ์ทจํ์ ๋ ํด๋น์์น์ ๊ฐ์ด 0์ด ๋๊ฒํ๊ธฐ ์ํด์)
3.3 Point wise Feed Forward Network
์ธ์ฝ๋ ๋์ฝ๋์ ๊ฐ layer๋ fully connected feed-forward network๋ฅผ ๊ฐ์ง.
๊ฐ position์ ๋ฐ๋ก๋ฐ๋ก, ๋์ผํ๊ฒ ์ ์ฉ๋จ.
ReLu ํ์ฑํ ํจ์๋ฅผ ํฌํจํ ๋ ๊ฐ์ Linear Transformation์ด ํฌํจ๋จ.
์ ํ๋ณํ์ position์ ๋ํด์๋ ๋์ผํ์ง๋ง, ๊ฐ ์ธต๋ง๋ค ๋ค๋ฅธ ํ๋ผ๋ฏธํฐ ๋ฅผ ์ฌ์ฉํจ.
์ ์ถ๋ ฅ ์ฐจ์์ ๋์ผํ๊ฒ .
FFN ๋ด๋ถ hidden layer์ ์ฐจ์์ .
3.4 Embedding and Softmaxs
๋ค๋ฅธ ์ํ์ค ๋ณํ ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฒ, ํ์ต๋ ์๋ฒ ๋ฉ์ ์ฌ์ฉํจ.
์ ๋ ฅ ํ ํฐ๊ณผ ์ถ๋ ฅ ํ ํฐ์ ์ฐจ์์ ๋ฒกํฐ๋ก ๋ณํํ๊ธฐ ์ํจ.
๋์ฝ๋์ ์ถ๋ ฅ์ ์์ธก๋๋ ๋ค์ ํ ํฐ์ ํ๋ฅ ๋ก ๋ณํํ๊ธฐ ์ํด์ ์ผ๋ฐ์ ์ผ๋ก ํ์ต๋ linear transformation๊ณผ softmaxํจ์๋ฅผ ์ฌ์ฉํจ.
๋ ์๋ฒ ๋ฉ ๋ ์ด์ด์ softmax ์ด์ ์ linear transformation์ ๋์ผํ ๊ฐ์ค์น ํ๋ ฌ์ ๊ณต์ ํ๋๋ก ํจ.
์๋ฒ ๋ฉ ๋ ์ด์ด์์๋ ๊ทธ ๊ฐ์ค์น์ ์ ๊ณฑํด์ค.
3.5 Positional Encoding
Transformer๋ ์ด๋ค recurrence, convolution๋ ์ฌ์ฉํ์ง ์๊ธฐ ๋๋ฌธ์, sequence์ ์์๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด position์ ๋ํ ์ ๋ณด๋ฅผ ์ฃผ์ ํด์ค์ผ ํจ.
์ธ์ฝ๋์ ๋์ฝ๋ stack ์๋์ input ์๋ฒ ๋ฉ์ "Positional Encoding"์ ์ถ๊ฐํจ.
Positional Encoding์ input ์๋ฒ ๋ฉ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ฐจ์์ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ ํฉ์น ์ ์์.
Positional encoding์ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์์ง๋ง, Transformer๋ ๋ค๋ฅธ ์ฃผ๊ธฐ๋ฅผ ๊ฐ์ง๋ Sine, Cosine function์ ์ฌ์ฉํจ.
ํ๋ผ๋ฏธํฐ๋ค
: position์ ์๋ฏธํจ
: ์ฐจ์์ ์๋ฏธํจ
positional encoding์ ๊ฐ ์ฐจ์๋ Sine Curve์ ๋์๋จ.
ํ์ฅ์ ์์ ๊น์ง ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋จ.
์์ ํจ์๋ฅผ ์ ํํ ์ด์ ๋ ์ด๋ค ๊ณ ์ ๋ ์คํ์ ์ ๋ํด,๊ฐ ์ ์ ํํจ์๋ก ํํ๋ ๊ฒ์ด๋ผ๋ ๊ฐ์ค๋๋ฌธ. (์๋์ ์ผ๋ก ์์น๋ฅผ ์ฝ๊ฒ ํ์ตํ ๊ฒ์ด๋ค!)
์คํ๊ฒฐ๊ณผ ๋ ๋ฒ์ ์ด ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํ์๊ณ ๊ฒฐ๊ตญ Sine Curve๋ฅผ ์ ํํจ.
๋ชจ๋ธ์ด ํ๋ จ์ค์ ์ ํ ๊ฒ๋ณด๋ค ๋ ๊ธด ์ํ์ค ๊ธธ์ด์ ๋ํด์๋ ์ถ์ ํ ์ ์๊ธฐ ๋๋ฌธ
4. Why Self-Attention
self-attention๊ณผ recurrent, convolution layer๋ฅผ ๋ค์์ ๋ํด ๋น๊ตํจ.
Layer๋น ๊ณ์ฐ ๋ณต์ก๋
sequential parallelize ํ ์ ์๋ ๊ณ์ฐ๋
network์์ long-range dependency ์ฌ์ด์ path ๊ธธ์ด
network์์ ์ํํด์ผํ๋ forward ์ backward์ path ๊ธธ์ด๊ฐ ์ด๋ฐ dependency๋ฅผ ํ์ตํ๋ ๋ฅ๋ ฅ์ ์ํฅ์ ์ฃผ๋ ์ฃผ์ ์์ธ
input๊ณผ output sequence์์ position์ ์กฐํฉ ๊ฐ์ path๊ฐ ์งง์์๋ก, long-range dependecy๋ฅผ ํ์ตํ๊ธฐ๊ฐ ์ฌ์
-> input๊ณผ output position ์ฌ์ด์ ์ต๋ path ๊ธธ์ด๋ฅผ ๋น๊ตํ ๊ฒ
5. Training
5.1 Training Data and Batching
English-German
450๋ง๊ฐ์ sentence pairs๋ก ๊ตฌ์ฑ๋ WMT 2014 English-German ๋ฐ์ดํฐ์ ํ์ฉํจ.
๋ฌธ์ฅ๋ค์ byte-pair ์ธ์ฝ๋ฉ์ผ๋ก ์ธ์ฝ๋ฉ ๋์ด์์.
Source target vocabulary๋ 37000๊ฐ์.
English-French
3600๋ง๊ฐ์ sentence๋ก ๊ตฌ์ฑ๋ WMT 2014 English-French ๋ฐ์ดํฐ์ ํ์ฉํจ.
32000๊ฐ์ word-piece vocabulary๋ก ๊ตฌ์ฑ๋จ.
5.2 Hardware and Schedule
8๊ฐ์ NVIDIA P100 GPU๋ฅผ ์ฌ์ฉํจ.
base model์ 12์๊ฐ ๋์ (100,000 step) ํ์ตํจ.
big model ์ 3.5์ผ ๋์ (300,000 step) ํ์ตํจ.
5.3 Optimizer
Adam optimizer ์ฌ์ฉํจ.
5.4 Regularization
Residual Dropout
ํ์ ๋ ์ด์ด ์ ๋ ฅ์ด ์ถ๊ฐ๋๊ณ ์ ๊ทํ๋๊ธฐ ์ ์, ๊ฐ ํ์ ๊ณ์ธต์ ์ถ๋ ฅ์ ๋๋กญ์์์ ์ ์ฉํจ.
์ธ์ฝ๋์ ๋์ฝ๋ ์คํ ๋ชจ๋์์ ์๋ฒ ๋ฉ๊ณผ ์์น ์ธ์ฝ๋ ์ ํฉ๊ณ์ ๋๋กญ์์์ ์ ์ฉํจ.
Label Smoothing
ํ๋ จํ๋๋์ label smoothing value ์ ์ฌ์ฉํจ.
๋ชจ๋ธ์ด ๋ถํ์คํด์ง๊ธด ํ์ง๋ง ์ ํ๋์ BLUE ์ ์๋ฅผ ํฅ์ํ์์.
Last updated