파이썬 딥러닝 ai 스쿨 기초/lecture15

lecture15 1교시 Transformer 기초

junny1997 2021. 4. 20. 14:42

Transformer

  • Seq2seq보다 성능, 속도 높아 관심 (Seq2seq은 RNN 사용해 순차적처리, 병렬처리 어려워 시간 오래걸림)
  • self attention machanism만을 사용해 문장 인코딩, 번역 수행, 병렬처리 가능

 

 

Attention

  • Q 번역 대상 단어의 hidden state , K 비교할 모든 단어들의 벡터, V 
  • Self attention은 순차없이 자신을 포함한 모든 단어와의 관계를 한번에 연산
  • Multi head attention 여러관점의 여러 attention을 병렬로 사용, 여러시각 주목(모호함 해소)

Positional encoding

  • Self attention을 사용하는 Transformer는 순차적이지 않기 때문에 어순을 파악 못하는 문제 발생
  • 단어 벡터에 위치정보 포함 시킴