投影片:drive.google.com/file/d/1KeNA...
為了能讓第一次學習Transformer的同學可以更容易了解其內容,本課程對 Transformer 的說明進行了部分簡化
19:10 計算關聯性的模型內部運作如下:先把兩個輸入分別乘上兩個不同的 Matrix (這兩個 Matrix 是透過訓練資料學得) 得到兩個向量 (也就是得到文獻上常常提到的 query q 和 key k),再把這兩個向量做內積得到 Attention Weight
20:40 此處省略了文獻上常常提到的 value v
22:30 根據上述Attention Weight的計算過程,Attention Matrix 不一定是對稱的,自己對自己做 Attention 算出來的 Attention Weight 也不一定是最高的
23:00 因為 Causal Attention 的原因,Attention Matrix 其實是一個 Triangular Matrix
延伸閱讀
• 【機器學習2021】Transformer (上)
• 【機器學習2021】Transformer (下)
Негізгі бет Ғылым және технология 【生成式AI導論 2024】第10講:今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)
Пікірлер: 33