清华DSAC系列算法深度剖析:以50%显著优势超越OpenAI与DeepMind
2025-01-17 19:08:23
•
来源:
导读 强化学习技术进展:强化学习技术近年来快速发展,尤其在AlphaGo击败围棋世界冠军后展现出巨大潜力。然而,将其应用于真实世界的机器人仍面...
强化学习技术进展:
强化学习技术近年来快速发展,尤其在AlphaGo击败围棋世界冠军后展现出巨大潜力。然而,将其应用于真实世界的机器人仍面临挑战。清华大学深度强化学习实验室通过模拟人类对自然世界的感知模式,开发出DSAC及DSAC-T系列算法,在复杂环境中动态调整动作概率分布,性能大幅提升,领先OpenAI的PPO和DeepMind的DDPG算法50%以上。
算法与软件创新:
团队在NIPS2024中发布了DACER算法,结合扩散模型与在线强化学习,刷新了性能记录。此外,提出的RAD优化器确保训练稳定性,性能优于主流优化器。这些算法将集成入团队开源的GOPS软件中,该软件以强化学习为核心,兼容多种机器人和工业仿真环境,已应用于自动驾驶、物流机器人等领域。未来,随着GOPS的升级,有望推动具身智能时代的发展。
版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。
关键词: