bert 之后一定要 linear吗?而且没太懂,bert是既mask又predict next sentence的还是只mask或者只predict next sentence
@bibiworm
3 жыл бұрын
bert does both to get a good understanding of the language so that it is easier to fine-tune pre-trained model for specific downstream tasks.
@zhongzhongclock
3 жыл бұрын
我觉得后面的subtask不一定要用linear,可能用其他的模型配合BERT的pretrain的模型也可能有好的结果,但是现有的经验是用linear的训练起来又快效果又好。 另外bert模型的pretrained的参数应该两类(既mask&predict next sentence)都有了,只是后面的subtask需要那一种的模型,就拿来用就好了。感觉这类pre-trained的模型对于实用项目的好处仅仅就是不用从头进行训练了,相当于拿别人训练好的产品,作为自己的半成品,自己再去做一个新的成品。
Пікірлер: 44