【機器學習2021】自督導式學習 (Self-supervised Learning) (二) - BERT簡介

Рет қаралды 82,483

Hung-yi Lee

slides: speech.ee.ntu....

Жүктеу

Пікірлер: 44

@客家饒舌執牛耳
3 жыл бұрын
今天仍是防疫day ，大家在家追劇，我在家追芝麻街人物傳
@iam30719
3 жыл бұрын
感謝教授的BERT新版本讓知識更加的全面了
@RayYan-o9g
11 ай бұрын
那BERT就是伊布，遇到不同的石头，可以进化成各种各样的精灵
@Eaway
5 ай бұрын
請問Bert當初在訓練時是每次都同時使用 Mask Input 和 Next Sentence Prediction 兩種方法來訓練, 還是先後訓練出這兩種能力? 還是可以看成model裡有兩個不同的core?
@sidolin6671
2 жыл бұрын
GLUE这些任务被用在那么多文章里，是不是早就被overfit了？
@brucesun3345
2 жыл бұрын
大陆同学翻墙看李老师的课！
@incameet
Жыл бұрын
Professor said CLS is useless, but 2 of downstream tasks mentioned use CLS.
@Yaya-rs2cx
2 жыл бұрын
downstream task為社麼是挑這個呢？是不是可以用在其他task? 還是說這些downstream task 必須跟原本bert學的東西相關？ pretrain如果是supervised learning，或許模型不用這麼大？一樣可以應用在downstream task？
@jinghu5718
2 жыл бұрын
教授，不知道作业是不是也可以share让网路上的学生来练习
@wangtoonaive6451
2 жыл бұрын
这一系列课程和作业在这里 speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.php
@Li-oy2bo
3 жыл бұрын
希望能加上字幕。谢谢。
@zhongzhongclock
3 жыл бұрын
11:11 说等一下我们知道CLS会有什么样的作用，可是后面也只是举了几个例子，其中的模型输入有CLS，依然没有解释CLS是什么鬼。是我看漏了什么吗？
@yls2498
3 жыл бұрын
取[CLS] 的輸出，把它乘上Linear transform，做二元分類問題，輸出 Yes/No 而這個Yes/No 訓練BERT 預測這兩個句子是不是相接的所以[CLS] 這個Token 應該是Classification of the sequence 當然在其他問題也許不一定是分類Yes/No 而已
@quest-X
3 жыл бұрын
感覺CLS就是Class的縮寫罷...
@yishanlan5297
2 жыл бұрын
好奇 21:18 的部分有提到evaluate 一個模型的好壞不只有accuracy rate當成評分依據一般來說會拿哪些指標來看呢？這個引用的圖又是取哪些指標做成圖中的數值？
@chickenfish904
3 жыл бұрын
謝謝教授的解說，想請問教授介紹的這些 Case 或是不同領域的 Task，要怎麼選擇使用的 Dataset 呢? 有沒有可能只要 Dataset 夠大夠完整，就能夠只用一個 Dataset 打天下? 例如之後影片提到的"預測DNA的分類"但卻是使用英文單字的 corpus 來訓練，謝謝您~
@darkbreker2271
2 жыл бұрын
就算有這種dataset你估計也載不下來，像是老師介紹的那個7T大的那個dataset就有可能大到一個dataset可以跨領域，但是如果像你說的這樣要跨更大的領域的dataset估計有了你也載不下來。我估算了一下，一個100GB的線上遊戲 4G網路大概要載8小時上下，光是7T估計就要花快一個月或超過一個月來載了……
@nwxxzchen3105
2 жыл бұрын
BERT 到底学到了什么，能让它胜任 downstream 的 task
@fionachan2856
3 жыл бұрын
bert 之后一定要 linear吗？而且没太懂，bert是既mask又predict next sentence的还是只mask或者只predict next sentence
@bibiworm
3 жыл бұрын
bert does both to get a good understanding of the language so that it is easier to fine-tune pre-trained model for specific downstream tasks.
@zhongzhongclock
3 жыл бұрын
我觉得后面的subtask不一定要用linear，可能用其他的模型配合BERT的pretrain的模型也可能有好的结果，但是现有的经验是用linear的训练起来又快效果又好。另外bert模型的pretrained的参数应该两类(既mask&predict next sentence)都有了，只是后面的subtask需要那一种的模型，就拿来用就好了。感觉这类pre-trained的模型对于实用项目的好处仅仅就是不用从头进行训练了，相当于拿别人训练好的产品，作为自己的半成品，自己再去做一个新的成品。
@ericCHIANG-gm9ee
5 ай бұрын
大陆同学来学习，感谢老师，想找老师读博士
@邱婕雅-r4b
3 жыл бұрын
請問訓練BERT Case 4有需要提供什麼類型的標記資料嗎？
@zoeyhu6878
2 жыл бұрын
amazing lectures!!! Thank you so much!!
@chengdurhythm
Жыл бұрын
Is there a paper of Case 4.
@鄭紹鈺
2 жыл бұрын
咦，只有這一回沒有生成字幕
@wade7349
2 жыл бұрын
Pre-train 為什麼會選擇用填空題呢?因為不需要label所以很容易做嗎?有沒有其他更好的pretrain方法?
@wade7349
2 жыл бұрын
去學了RNN和language model之後才了解為什麼BERT會選擇填空題來pre-train.建議先去了解了RNN和language model再來看BERT會比較好懂
@Jack-dx7qb
2 жыл бұрын
在word2vec中有用到類似「填空」的想法，可以參考：skip-gram/CBOW/RNNLM(RNN as language model) 這部分可以參考台大陳韻濃教授的「深度學習應用」，我是在那看到的
@pengfeixu8492
3 жыл бұрын
请问bert或者说transformer的输入是定长的吗，这样是不是还要对文章和问题等输入做一些处理，比如填充占位符等
@Jack-dx7qb
2 жыл бұрын
short answer：不。填充占位符，是在batch training時，為配合GPU運算架構，所必須的操作，並非是bert模型本身限制。
@ray811030
3 жыл бұрын
case4 兩個初始化的向量是要訓練的參數麼?
@HungyiLeeNTU
3 жыл бұрын
是的
@akin657
3 жыл бұрын
BERT可以用transformer train好的參數拿來用嗎?會有什麼問題嗎?
@Jack-dx7qb
2 жыл бұрын
當然可以吧我覺得但train transformer本身就是supervised learning，而bert這裡強調的是self-supervised learning。拿transformer train好的參數來用，等價就是你train一個autoencoder，然後把encoder拿來和其他down stream任務嫁接，本質上還是看你怎麼應用～
@chengdurhythm
Жыл бұрын
Perfect tutorial!
@periodthree7857
2 жыл бұрын
BART是把BERT弄坏了啦，坏到电视机都调台Simpsons
@nox3073
3 жыл бұрын
悟道2.0了解一下？
@yuhangguo2409
3 жыл бұрын
机器分数超过了人类，说明这个数据集被玩坏了 hh
@happygirlzt
3 жыл бұрын
沙发
@scaomath
3 жыл бұрын
Bandeng
@光潮陳-m1u
6 ай бұрын
完全不懂！可以用実際例句舉証！
@weidmanhong4064
3 жыл бұрын
椅子
@fenngtony4737
3 жыл бұрын
马扎