新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 美总统批准海底采矿外交部:擅自授权开发损害国际社会共同利益
  • 传音控股2024年报透视:2亿部手机背后的利润困局与破局挑战
  • 机构判断年内第二轮政策可能在年中出现,借道A50ETF华宝(159596)布局
  • 新一轮行情已启动!下周机会看这些,42只个股名单曝光
  • 增收不增利、过度依赖大客户,物流设备商中科微至 “开卷”海外市场
  • 515投资者保护日|鹏华“一起投”:当科普遇见老北京文化基因,鹏华推出“银发护卫队”老年反诈视频新范式!
  • 商业头条No.70 | “还发货吗”:沃尔玛与中国供应商的生死博弈
  • 中科院新增三名副秘书长
  • OPPO回应FindX8 Ultra手机发热严重:信息不实,已报案
  • 传染病防治法修订草案:拟加强医疗机构疾病预防控制能力建设
  • 新加坡金管局:美国关税将对新加坡经济产生需求冲击
  • 现在还能学文科吗?
  • 交通枢纽、产业升级,上海松江新城有这些发展密码
  • 中国驻美国大使馆发言人就美方希就关税问题与中方对话答记者问
  • Momenta累计合作量产车型超130款
  • 关键词: