快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

时间：2025-04-25 11:15:03 栏目：新闻资讯浏览：51

热点栏目

　　（01024）早盘上涨3.47%，现报52.20港元，成交额7.68亿港元。

（图侵删）

　　4月23日，快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

　　快手 Kwaipilot 团队在最新研究成果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

　　通过使用与 DeepSeek 相同的基础模型（Qwen2.5-32B）和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩（AIME24 = 50、LiveCodeBench = 41.6），超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

美总统批准海底采矿外交部：擅自授权开发损害国际社会共同利益

传音控股2024年报透视：2亿部手机背后的利润困局与破局挑战

机构判断年内第二轮政策可能在年中出现，借道A50ETF华宝（159596）布局

新一轮行情已启动！下周机会看这些，42只个股名单曝光

增收不增利、过度依赖大客户，物流设备商中科微至 “开卷”海外市场

515投资者保护日|鹏华“一起投”：当科普遇见老北京文化基因，鹏华推出“银发护卫队”老年反诈视频新范式！

商业头条No.70 | “还发货吗”：沃尔玛与中国供应商的生死博弈

中科院新增三名副秘书长

OPPO回应FindX8 Ultra手机发热严重：信息不实，已报案

传染病防治法修订草案：拟加强医疗机构疾病预防控制能力建设

新加坡金管局：美国关税将对新加坡经济产生需求冲击

现在还能学文科吗？