成本不到222　 “AI教母”出手“s1”对决DeepSeek

2025-02-08 国际 606℃ 0

（纽约7日讯）DeepSeek强敌来了！被誉为“AI教母”的知名华裔美籍科学家李飞飞领导的团队，以低于50美元（约222令吉）的云端运算成本，成功训练出名为“s1”的人工智慧推理模型。此模型在数学和编码能力测验中的表现，据称媲美 OpenAI o1和DeepSeek R1等尖端推理模型。《科创板日报》、《新浪科技》报导，李飞飞团队的s1模型并非从头训练，而是建立在阿里巴巴的Qwen2.5 和 Google DeepMind的Gemini 2.0 Flash Thinking的基础之上。他们搜集了1000个精心挑选的问题及其解答，并透过记录 Gemini 2.0 Flash的思考过程，建立训练资料集，利用这些资料，微调了Qwen2.5-32B-Instruct模型，创造出s1。中国某知名大模型公司CEO表示，李飞飞团队的成就实际上是利用从Google模型中撷取的 1000个样本来微调通义千问模型。这种微调的成本固然低廉，但其优异表现仍有赖于既有模型的基础。仅花26分钟训练出新模型上海交通大学人工智能学院副教授谢伟迪指出，s1以通义千问模型为基础，因此即使使用有限的样本资料，也能产生新的推理模型。然而，如果更换其他基础模型，新模型的效能并不会提升。因此，真正在背后发挥效能的关键是Qwen模型，而非s1。阿里云证实，李飞飞团队透过利用阿里开源的Qwen2.5-32B-Instruct模型进行监督微调，在16个英伟达H100 GPU上仅花费26分钟就训练出s1-32B模型，其数学和编码能力与OpenAI o1和DeepSeek R1 等尖端推理模型不相上下。人工智能 DeepSeek（深度求索）

【穆民参与非穆活动指南】G25：低估穆斯林智慧　监管才能维护信仰是侮辱

32名国安法扣留犯家属　双溪毛糯监狱前绝食抗议

成本不到222 “AI教母”出手“s1”对决DeepSeek

相关推荐

大S在日本病亡！只因医疗有问题？ 病情急速恶化引发关注

她于凌晨1点45分去世！饰演角色深入人心 著名闽剧艺术家“小扁”离世

长期在睡前玩手机的人，用不了多久，这3种痛苦可能会找上你 警惕身体预警信号

大S猝逝与前夫官司未了！具俊晔可能对决汪小菲续讨家人生活费

大S去世四天前的坐车照片曝光 躺在具俊晔怀中表情痛苦 生命最后时刻令人痛心

成都春节接待游客近两千万 文旅消费市场持续火热

成本不到222　 “AI教母”出手“s1”对决DeepSeek

大S在日本病亡！只因医疗有问题？病情急速恶化引发关注

她于凌晨1点45分去世！饰演角色深入人心著名闽剧艺术家“小扁”离世

长期在睡前玩手机的人，用不了多久，这3种痛苦可能会找上你警惕身体预警信号

大S去世四天前的坐车照片曝光躺在具俊晔怀中表情痛苦生命最后时刻令人痛心

成都春节接待游客近两千万文旅消费市场持续火热