北京时间9月13日的午夜,OpenAI发布了o1系列模型,在数学、代码、长程规划等问题上,取得了显著的提升。今天我们主要来聊聊o1背后的一些技术,尤其是后训练阶段的缩放法则,Post-Training Scaling Law,它的出现,可能会引发我们对于算力分配、后训练能力的重新思考。
参考资料:
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
arxiv.org/abs/...
STaR: Bootstrapping Reasoning With Reasoning arxiv.org/abs/...
Self-critiquing models for assisting human evaluators
arxiv.org/pdf/...
Training Verifiers to Solve Math Word Problems arxiv.org/pdf/...
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking arxiv.org/abs/...
#人工智能 #scalinglaws #o1 #cot #llm #openai
成为此频道的会员,即可享受提前一天,观看频道最新发布视频的福利:
/ @bestpartners
Негізгі бет 【人工智能】OpenAI o1模型背后的技术 | 后训练阶段的缩放法则 | 测试时计算 | 慢思考 | 隐式思维链CoT | STaR | Critic模型 | 大语言模型的天花板在哪里
Пікірлер: 19