投影片:drive.google.com/file/d/1CTSo...
9:30 在這段課程錄影中,為了更清楚地比較 Alpha Go 的訓練過程與大型語言模型的訓練方式,我對 Alpha Go 的實際推論與訓練過程進行了大幅度的簡化。例如,我並未提及 Value Network 和 MCTS 等概念。如果您希望深入了解 Alpha Go 的訓練與推論過程,建議您閱讀原始論文。
13:30 需要注意的是,本段課程主要講述的是 Alpha Go 中 Policy Network 的訓練方式。事實上,Alpha Go 還包含了 Value Network 的訓練,用於估算棋局的勝率。這引發了一個有趣的思考:是否可以在大型語言模型的 RLHF中引入類似的概念?
19:50 在翻譯術語時,Reward Model 可能譯為「報酬模型」或「獎勵模型」比較合適
34:00 有關人生道路的抉擇不建議詢問大型語言模型
Негізгі бет Ғылым және технология 【生成式AI導論 2024】第8講:大型語言模型修練史 - 第三階段: 參與實戰,打磨技巧 (Reinforcement Learning from Human Feedback, RLHF)
Пікірлер: 51