成本不到222 “AI教母”出手“s1”对决DeepSeek 2025-02-08 国际 606℃ 0 (纽约7日讯)DeepSeek强敌来了!被誉为“AI教母”的知名华裔美籍科学家李飞飞领导的团队,以低于50美元(约222令吉)的云端运算成本,成功训练出名为“s1”的人工智慧推理模型。此模型在数学和编码能力测验中的表现,据称媲美 OpenAI o1和DeepSeek R1等尖端推理模型。 《科创板日报》、《新浪科技》报导,李飞飞团队的s1模型并非从头训练,而是建立在阿里巴巴的Qwen2.5 和 Google DeepMind的Gemini 2.0 Flash Thinking的基础之上。 他们搜集了1000个精心挑选的问题及其解答,并透过记录 Gemini 2.0 Flash的思考过程,建立训练资料集,利用这些资料,微调了Qwen2.5-32B-Instruct模型,创造出s1。 中国某知名大模型公司CEO表示,李飞飞团队的成就实际上是利用从Google模型中撷取的 1000个样本来微调通义千问模型。这种微调的成本固然低廉,但其优异表现仍有赖于既有模型的基础。 仅花26分钟训练出新模型 上海交通大学人工智能学院副教授谢伟迪指出,s1以通义千问模型为基础,因此即使使用有限的样本资料,也能产生新的推理模型。然而,如果更换其他基础模型,新模型的效能并不会提升。因此,真正在背后发挥效能的关键是Qwen模型,而非s1。 阿里云证实,李飞飞团队透过利用阿里开源的Qwen2.5-32B-Instruct模型进行监督微调,在16个英伟达H100 GPU上仅花费26分钟就训练出s1-32B模型,其数学和编码能力与OpenAI o1和DeepSeek R1 等尖端推理模型不相上下。 人工智能 DeepSeek(深度求索) 上一篇 【穆民参与非穆活动指南】G25:低估穆斯林智慧 监管才能维护信仰是侮辱 下一篇 32名国安法扣留犯家属 双溪毛糯监狱前绝食抗议 相关推荐 大S在日本病亡!只因医疗有问题? 病情急速恶化引发关注 她于凌晨1点45分去世!饰演角色深入人心 著名闽剧艺术家“小扁”离世 长期在睡前玩手机的人,用不了多久,这3种痛苦可能会找上你 警惕身体预警信号 大S猝逝与前夫官司未了!具俊晔可能对决汪小菲续讨家人生活费 大S去世四天前的坐车照片曝光 躺在具俊晔怀中表情痛苦 生命最后时刻令人痛心 成都春节接待游客近两千万 文旅消费市场持续火热
(纽约7日讯)DeepSeek强敌来了!被誉为“AI教母”的知名华裔美籍科学家李飞飞领导的团队,以低于50美元(约222令吉)的云端运算成本,成功训练出名为“s1”的人工智慧推理模型。此模型在数学和编码能力测验中的表现,据称媲美 OpenAI o1和DeepSeek R1等尖端推理模型。 《科创板日报》、《新浪科技》报导,李飞飞团队的s1模型并非从头训练,而是建立在阿里巴巴的Qwen2.5 和 Google DeepMind的Gemini 2.0 Flash Thinking的基础之上。 他们搜集了1000个精心挑选的问题及其解答,并透过记录 Gemini 2.0 Flash的思考过程,建立训练资料集,利用这些资料,微调了Qwen2.5-32B-Instruct模型,创造出s1。 中国某知名大模型公司CEO表示,李飞飞团队的成就实际上是利用从Google模型中撷取的 1000个样本来微调通义千问模型。这种微调的成本固然低廉,但其优异表现仍有赖于既有模型的基础。 仅花26分钟训练出新模型 上海交通大学人工智能学院副教授谢伟迪指出,s1以通义千问模型为基础,因此即使使用有限的样本资料,也能产生新的推理模型。然而,如果更换其他基础模型,新模型的效能并不会提升。因此,真正在背后发挥效能的关键是Qwen模型,而非s1。 阿里云证实,李飞飞团队透过利用阿里开源的Qwen2.5-32B-Instruct模型进行监督微调,在16个英伟达H100 GPU上仅花费26分钟就训练出s1-32B模型,其数学和编码能力与OpenAI o1和DeepSeek R1 等尖端推理模型不相上下。 人工智能 DeepSeek(深度求索)