Transformer Seq2seq보다 성능, 속도 높아 관심 (Seq2seq은 RNN 사용해 순차적처리, 병렬처리 어려워 시간 오래걸림) self attention machanism만을 사용해 문장 인코딩, 번역 수행, 병렬처리 가능 Attention Q 번역 대상 단어의 hidden state , K 비교할 모든 단어들의 벡터, V Self attention은 순차없이 자신을 포함한 모든 단어와의 관계를 한번에 연산 Multi head attention 여러관점의 여러 attention을 병렬로 사용, 여러시각 주목(모호함 해소) Positional encoding Self attention을 사용하는 Transformer는 순차적이지 않기 때문에 어순을 파악 못하는 문제 발생 단어 벡터에 위치정보 ..