
运动规划实战进阶:深度强化学习篇
文章平均质量分 97
🔥附全套Python代码🔥主要包含经典强化学习理论(环境与回报、贝尔曼最优等)和深度强化学习模型(DQN、PG、TD3等)🔥订阅后私信博主或在文章底部/博客主页添加博主微信进入技术交流群
优惠券已抵扣
余额抵扣
还需支付
¥239.90
¥399.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
Mr.Winter`
同济大学控制科学与工程硕士,机器人算法工程师,主攻机器人运动规划方向,业余丰富各种技术栈。CSDN原力计划作者、官方内容合伙人;2023新星计划Pytorch赛道导师
展开
-
通用人工智能之路:什么是强化学习?如何结合深度学习?
【专栏订阅必读】ChatGPT强大魔力的关键因素之一是应用了强化学习模型,本文系统梳理强化学习中环境、智能体、奖赏、动作、状态等关键概念,并给出深度强化学习框架。原创 2023-07-03 08:46:57 · 7930 阅读 · 29 评论 -
环境搭建 | Gym安装与环境搭建教程(附基本指令表)
强化学习是在潜在的不确定复杂环境中,训练一个最优决策指导一系列行动实现目标最优化的机器学习方法。自从AlphaGo的横空出世之后,确定了强化学习在人工智能领域的重要地位,越来越多的人加入到强化学习的研究和学习中。OpenAI Gym是一个研究和比较强化学习相关算法的开源工具包,包含了许多经典的仿真环境(各种游戏),兼容常见的数值运算库,使用户无需过多了解游戏的内部实现,通过简单地调用就可以用来测试和仿真。OpenAI GymGym开源库:测试仿真环境,这些环境有一个公共的接口且允许用户设计通用的算法。原创 2023-04-20 09:33:37 · 28015 阅读 · 41 评论 -
经典强化学习 | 详解K摇臂赌博机模型和ϵ-贪心算法
本文详解单步强化学习的理论模型K摇臂赌博机,引出强化学习中仅利用和仅探索的思想。最后介绍ϵ-贪心算法和softmax算法并给出Python实现,以及各个算法间的对比原创 2023-06-29 09:54:19 · 3728 阅读 · 0 评论 -
经典强化学习 | 策略评估与贝尔曼期望方程详细推导
策略评估是给定一个策略计算策略评估函数的过程,用于衡量策略的好坏。本文从一个例子引出回报与奖赏的概念,并由浅入深推导贝尔曼期望方程,最后给出了收敛性证明,为强化学习的策略评估提供理论保证原创 2023-07-06 08:16:15 · 3573 阅读 · 0 评论 -
经典强化学习 | 策略改进定理与贝尔曼最优方程详细推导
贝尔曼期望方程用于策略评估,那么我们如何借助贝尔曼方程改进策略呢?本节从理论层面推导贝尔曼最优方程和策略改进定理,介绍策略迭代和价值迭代两种算法流程原创 2023-08-03 19:11:01 · 1455 阅读 · 0 评论 -
经典强化学习 | 详细推导蒙特卡洛强化学习原理
在现实的强化学习任务中,转移概率、奖赏函数甚至环境中存在哪些状态往往很难得知,因此引入免模型学习。蒙特卡洛强化学习是免模型学习中的一种,本文介绍蒙特卡洛强化学习中的策略评估原理,以及同轨和离轨策略改进原理,给出详细的公式推导原创 2023-12-04 10:17:43 · 3985 阅读 · 0 评论 -
经典强化学习 | 详解时序差分强化学习(SARSA、Q-Learning算法)
本文介绍另一种免模型学习技术——时序差分强化学习,结合策略评估原理以及常见的SARSA和Q-Learning算法,给出详细的公式推导加深理解原创 2023-12-11 12:21:34 · 3411 阅读 · 0 评论 -
深度强化学习 | 详解基于价值的强化学习DQN算法(附Pytorch实现)
深度Q网络DQN的核心原理是通过经验回放池和目标网络技术拟合高维状态空间,是Q-Learning算法的深度学习版本,本文分析DQN的基本算法,并给出训练实例和实际案例原创 2023-12-26 10:13:22 · 3794 阅读 · 0 评论 -
深度强化学习 | 详解过估计现象与Double DQN算法(附Pytorch实现)
无论Q-Learning还是DQN都存在过估计(overestimation)现象,过估计会导致智能体倾向于选择被高估的动作,可能陷入局部最优策略,降低学习效率和最终性能。本文通过一个案例和公式推导详细阐述了过估计现象产生的原因,并介绍了缓解过估计现象的DQN改进版本DDQN算法,提供了Pytorch实现以及在CartPole-v1任务的训练表现加深理解原创 2025-03-03 11:33:00 · 3610 阅读 · 9 评论 -
深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理
软性演员-评论家(Soft Actor-Critic, SAC)算法是基于最大熵原理的离线策略方法,具有高效的采样效率和泛化能力。本文从最大熵贝尔曼方程的引入动机出发,介绍SAC算法的三个核心参数化步骤与算法流程原创 2025-05-14 14:04:07 · 1665 阅读 · 10 评论 -
深度强化学习 | 基于SAC算法的移动机器人路径跟踪(附Pytorch实现)
软性演员-评论家(Soft Actor-Critic, SAC)算法是基于最大熵原理的离线策略方法,本节将基于深度强化学习中的SAC算法实现移动机器人的路径跟踪,介绍网络设计、动作空间设计和奖励函数设计,并提供Pytorch实现加深理解原创 2025-05-19 10:38:14 · 2202 阅读 · 8 评论 -
深度强化学习 | 基于DQN实现Flappy Bird游戏与分析
在Flappy Bird中,玩家需要通过控制小鸟安全穿过随机长度的水管来得分。本文基于深度Q网络DQN来实现Flappy Bird游戏的自主探索与学习原创 2023-01-28 08:00:00 · 5154 阅读 · 0 评论 -
经典强化学习 | 基于Q-Learning的机器人走迷宫
在机器人走迷宫中,机器人需要避开所有障碍从起点到达终点。本文基于Q-Learning来实现机器人走迷宫游戏的自主探索与学习原创 2023-12-19 09:46:34 · 6262 阅读 · 0 评论