强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
PPO论文解读
这篇论文介绍了一种新的策略优化算法——近端策略优化(PPO),旨在提高强化学习中策略优化的效率和稳定性。这篇论文提出了PPO算法,用于解决强化学习中的策略优化问题。具体来说,这篇论文提出了近端策略优化(PPO)算法,通过交替采样数据和优化代理目标函数,实现了策略优化的稳定性和可靠性。PPO简化了实现过程,适用于更广泛的架构,并在样本复杂度和整体性能上优于其他在线策略梯度方法。这篇论文为强化学习领域提供了一种高效且易于实现的策略优化算法,具有重要的理论和实践意义。这篇论文提出了近端策略优化(Proximal原创 2025-02-12 02:27:27 · 774 阅读 · 0 评论 -
你知道ppo的两个主要版本:PPO-Penalty 和 PPO-Clip的区别和优劣吗? 请列举你所知道的其他ppo变体或改良版本
PPO 的基础版本(PPO-Penalty 和 PPO-Clip)各有优劣,PPO-Clip 因其简单高效更常用。而基于 PPO 的变体则针对不同场景和问题进行了优化,比如稀疏奖励(PPO-ICM)、高维动作空间(PPO-CMA)或样本效率(PPO-SIL)。PPO-Clip 以其简单性和有效性而著称,而PPO-Penalty则试图更直接地控制策略更新的大小。除了 PPO-Penalty 和 PPO-Clip,还有许多基于 PPO 的改良版本,它们在不同任务中表现更优。旧策略的相对熵(KL散度)。原创 2025-02-12 02:17:26 · 982 阅读 · 0 评论 -
ppo openai官方文档-近端策略优化
之所以收录 Heess 2017,是因为它对 PPO 代理在复杂环境中学习到的行为进行了大规模实证分析(尽管它使用的是 PPO-penalty 而不是 PPO-clip)。虽然这种裁剪对于确保合理的策略更新大有裨益,但最终的新策略仍然可能与旧策略相差太大,不同的 PPO 实现使用了许多技巧来避免这种情况。在我们的实现中,我们使用了一种特别简单的方法:提前停止。可以使用 加载 PyTorch 保存的模型,从而生成一个具有 文档字符串中描述的属性的actor-critic 对象 ( )。原创 2025-02-12 02:17:43 · 613 阅读 · 0 评论 -
deepseek v1 到v3
deepseek v1 到v3原创 2025-02-18 15:30:08 · 113 阅读 · 0 评论 -
一种可解释的人工智能体,整合了强化学习(RL)和主动推理的关键要素
在过去的十年中,自由能量原理(FEP)和主动推理(AIF)在将学习和认知的概念模型与感知和行动的数学模型相结合方面取得了许多成功。这一努力是由多学科对自组织复杂适应性系统(包括主体性元素)的兴趣推动的。许多执行主动推理的强化学习(RL)模型已经被提出,并使用深度神经网络在标准RL任务上进行训练。最近的研究集中在通过引入最新的机器学习技术来提高这些智能体在复杂环境中的表现。在这篇论文中,我们采取了一种替代方法。原创 2025-02-19 09:40:41 · 1098 阅读 · 0 评论 -
详细解释稀疏奖励中的逆向奖励传播
逆向奖励传播通过逆向推理和伪奖励分配,为稀疏奖励环境下的强化学习提供了高效的探索机制。尽管存在设计复杂性等挑战,其在机器人控制、游戏AI等领域的应用已显示出显著优势。未来研究可进一步优化伪奖励生成机制,提升算法的普适性和鲁棒性。GPT-4oPoe在强化学习中,稀疏奖励问题是指智能体在大部分时间无法获得有意义的奖励信号,使得有效学习变得困难。这种问题在许多实际任务中常见,例如机器人导航(只有到达目标时才有奖励)或游戏中的复杂目标(只有完成目标时才得分)。原创 2025-02-20 03:05:37 · 1328 阅读 · 0 评论 -
请找到life2vec的相关方法,并比较word2vec方法,在嵌入方法上,嵌入token等等有什么区别和联系
life2vec的创新性:将NLP中的嵌入和Transformer技术扩展至结构化生活数据,引入时间编码和事件级上下文建模,为社会科学研究提供新工具。word2vec的局限性:缺乏对时间、位置等元数据的显式建模,难以直接应用于时序事件预测。技术趋势:未来嵌入方法可能进一步融合多模态信息(如文本+时序+空间),并增强可解释性以支持伦理审查。原创 2025-02-20 04:27:21 · 655 阅读 · 0 评论 -
为什么 LLMs 在 OCR 任务中表现不佳
考虑"rn"和"m"这样的序列,对于快速浏览的人类读者或处理图像块的 LLM 来说,这两者看起来几乎一模一样。更令人震惊的是,我们在最新的 SOTA 模型上运行了相同的测试,包括 OpenAI 的 o1、Anthropic 的 3.5 Sonnet(新版本)和 Google 的 Gemini 2.0 flash,它们都犯了。毕竟,这些基础模型每个月都在突破各项基准测试的记录,开源模型的性能也已经追平了最好的专有模型。你的任务是仔细分析提供的开源文档,并将其所有内容提取为详细的 Markdown 格式。原创 2025-02-20 02:38:44 · 931 阅读 · 0 评论 -
深度强化学习中加速收敛的办法是什么,原理是什么
加速深度强化学习收敛的核心思想是减少无效探索、提升样本效率和优化学习结构。具体方法包括改进探索策略、设计更好的奖励信号、利用先验知识、优化算法结构以及引入辅助任务或分层策略。这些方法从不同角度提升了强化学习算法的性能和效率,使其在复杂环境中更快地找到最优解。原创 2025-02-20 02:51:51 · 923 阅读 · 0 评论 -
大模型中的 Reward Model:ORM、PRM、PPO、DPO
PPO 和 DPO 的最大区别是 PPO 是强化学习的两阶段范式,先生成,再判别,再根据判别结果优化,但 DPO 其实是离线生产了一批正样本数据集,还是监督学习范式,所以 PPO 又被称为 On-policy,而。显然,PRM 的上限更高(ORM 甚至可能存在结果正确但过程不正确的情况),但同时要求 Reward Model 能够正确的判别每一步的结果,显然对 Reward Model 的要求更高。可以在大模型输出的多个结果中选择更好的一个,更重要的是,判别结果可以某种损失的形式回传,优化大模型。原创 2025-02-21 05:31:14 · 408 阅读 · 0 评论 -
【手撕NSA】DeepSeek新作-原生稀疏注意力-超长文(附代码)
花了半天时间按照原论文公式手撕了核心算法NSA,将本文对应的notebook分享到git,希望能帮助大家理解:NSA精度优于MHA相当,那么NSA大概率是DeepSeek-V4 base的一个核心设计NSA速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍。NSA原生稀疏性对于pretrained是必要的,我认为**NSA。原创 2025-02-20 09:36:53 · 866 阅读 · 0 评论 -
DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO
在强化学习里,我们把每一周看作一个时间步。我的当前状态(State)可能包括:我当前的学习水平、疲劳程度、对下一次考试范围的掌握度;我上一场考试的得分;甚至我当前的心情(如果要更真实的话……)。然后,我做出的动作(Action)可以是:“去参加某辅导班”、“自主复习”、“放空休息”等等。当。原创 2025-02-22 22:19:02 · 1110 阅读 · 0 评论 -
请详述rlhf和ppo、dpo的异同和优劣
DPO(Direct Preference Optimization)是一种优化方法,旨在直接优化模型以符合人类偏好,而无需依赖复杂的强化学习框架。它通过最小化损失函数来学习直接偏好数据,从而优化模型的表现。原创 2025-02-22 22:30:47 · 794 阅读 · 0 评论 -
请解释q learning时序差分(TD)更新规则,具体是怎么更新的?用到了哪些技术,用到了贝尔曼方程吗?请详细推导
Q-Learning 的 TD 更新规则可以总结如下:对于每个从环境获得的样本 (s, a, r, s'),更新公式为:该公式直接利用了 Bellman 最优性方程,并通过时序差分方法(TD)来逐步逼近最优的价值函数。通过不断的采样、不断更新,理论上在合适的条件下,Q-Learning 可收敛到最优策略对应的价值函数。原创 2025-02-24 15:52:28 · 993 阅读 · 0 评论 -
一文说清楚什么是预训练(Pre-Training)、微调(Fine-Tuning)
原创 AI取经路AI取经路2025年02月19日 20:09山西-正文-预训练和微调是现代AI模型的核心技术,通过两者的结合,机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力,而微调则确保了模型能够根据特定任务进行细化和优化。1. 什么是预训练?1.1 预训练的关键点1.2 通俗类比2. 什么是微调?2.1 微调中的关键点2.2 通俗类比3. 预训练与微调的区别4. 总结-- 领取学习资料大礼包,见文末。原创 2025-02-24 11:56:42 · 979 阅读 · 0 评论 -
请详述dqn中的bellman方程的详细推导以及td时间差分的详细推导
Bellman方程:描述了值函数的递归关系,是强化学习中的基础。TD学习:通过时序差分来更新值函数,结合了蒙特卡洛和动态规划的优点。DQN:使用深度神经网络来近似Q函数,通过最小化TD误差来学习最优策略。希望这个详细的推导能帮助你更好地理解DQN中的Bellman方程和TD学习。如果你有任何问题,欢迎继续提问!好的,我将详细推导DQN(Deep Q-Network)中的Bellman方程和TD(时间差分,Temporal Difference)学习的过程。原创 2025-02-24 16:00:27 · 907 阅读 · 0 评论 -
机器学习中的6种优化方法
原创 数据侠2025年02月25日 13:25河北机器学习中的6种优化方法所有机器学习模型都涉及优化。作为一名从业者,我们会优化最合适的超参数或特征子集。决策树算法优化分割。神经网络优化权重。最有可能的是,我们使用计算算法进行优化。有许多方法可以进行数值优化,SciPy有许多函数可供使用,我们也可以尝试自己实现优化算法。在这个速成课程中,您将发现如何在七天内开始并自信地运行算法,以便用Python优化一个函数。原创 2025-02-25 13:48:41 · 712 阅读 · 0 评论 -
DeepSeek 背后的数学:GRPO
是一种专为提升大语言模型推理能力设计的强化学习(RL)算法。与传统方法不同,GRPO 不依赖外部评估器(critic)来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程,还大幅提高了效率,特别适用于需要复杂问题求解和长推理链的任务。1.为查询生成一组回答2.基于准确性、格式等标准计算每个回答的奖励3.在组内比较回答,计算每个回答的相对优势(Ai)4.更新策略,优先保留优势较高的回答,同时通过剪枝确保更新稳定5.原创 2025-02-28 01:19:18 · 563 阅读 · 0 评论 -
DouZero中的深度蒙特卡罗方法
深度蒙特卡罗(DMC)在DouZero系统中通过深度神经网络、动作编码和并行训练实现了高效的斗地主AI训练。其具体实现包括设计LSTM+MLP的Q网络、使用ε-贪心策略生成数据、通过MSE损失更新网络,以及将动作编码为4×15矩阵以处理复杂动作空间。在斗地主中的应用体现为通过自我对弈优化策略,适应不完全信息和多智能体协作/竞争场景。DMC之所以有效,是因为它提供了无偏估计、适应稀疏奖励、利用动作特征,并通过并行化克服了高方差问题。原创 2025-02-27 15:03:40 · 606 阅读 · 0 评论 -
面试官:Adam和AdamW有什么区别?
AdamW目前是大语言模型训练的默认优化器,而大部分资料对Adam跟AdamW区别的介绍都不是很明确,在此梳理一下Adam与AdamW的计算流程,明确一下二者的区别。TLDR:AdamW将优化过程中使用的针对网络权重的衰减项(或者叫正则项)从loss中单独拿了出来,不参与Adam中一二阶动量的计算。一阶矩估计:计算梯度的一阶指数滑动平均二阶矩估计:计算梯度的二阶指数滑动平均偏差校正:对一阶和二阶矩进行偏差校正参数更新:结合动量和自适应学习率进行更新。原创 2025-02-28 00:57:18 · 481 阅读 · 0 评论 -
请详细解释sgd、adam、adamw优化器的异同与优劣,并距离他们的应用领域有什么不同
优化器收敛速度泛化性能超参敏感度适合任务典型应用SGD慢高高图像分类、大规模训练ResNet、DenseNet、ConvNext等Adam快中等低NLP、强化学习、GAN、快速实验BERT早期版本、GANAdamW快较高中NLP/CV领域的大型Transformer模型。原创 2025-02-28 10:18:24 · 419 阅读 · 0 评论 -
请解释均方误差mse和均方根误差的区别和优劣? 以及具体典型应用场景距离
GPT-4oPoe这是一个非常好的问题!从理论上来说,MSE 是凸函数,而RMSE 并不是严格意义上的凸函数。以下将通过凸函数的定义和公式推导来详细解释。1. 凸函数的定义在数学中,一个函数 f(x)f(x)f(x) 是凸函数,当且仅当对于任意两个点 x1x_1x1 和 x2x_2x2 以及任意 λ∈[0,1]\lambda \in [0, 1]λ∈[0,1],满足以下条件:这意味着,函数图像在任何两个点之间的连线都不会高于函数本身的图像。如果目标函数是凸函数,那么局部最小值一定是全局最小值。原创 2025-02-27 13:47:09 · 590 阅读 · 0 评论 -
面试官问:为什么深度学习需要tensor 而不是numpy array?
至于为什么叫它“张量”,其实也与领域的文化和认同感有关。就像很多流行的术语一样,“张量”这个名称增加了一些“学术感”,使其在深度学习领域中更具权威性和辨识度。相比之下,numpy 并没有这样的自动化功能,完全依赖于手动计算。优化损失函数的核心PyTorch 中的 Tensor 和 numpy 的最大区别就是,这对于深度学习尤其重要,因为它使得我们能够轻松地进行复杂的梯度计算,而不需要。Tensor 的本质区别在于它支持计算图,而 numpy 只提供。计算图是 Tensor 强大的优势。原创 2025-02-28 00:41:40 · 159 阅读 · 0 评论 -
详细说说VIT架构和Transformer架构的异同
ViT是将Transformer架构应用于视觉领域的一种创新尝试,它通过自注意力机制对图像进行建模。然而,由于两者在输入数据结构、架构设计及应用场景上的不同,导致它们各自在各自领域内有着不同的优势和劣势。Transformer更适合处理序列数据,而ViT则为视觉任务提供了一种新的思路和方法。ViT(Vision Transformer)和Transformer架构在计算机视觉和自然语言处理领域都有广泛的应用。它们虽然共享一些核心组件,但在设计和应用上存在显著差异。通过上述步骤,ViT将。原创 2024-12-11 09:56:09 · 1218 阅读 · 0 评论 -
详解transformer中的kv cache,和rwkv的cache有什么异同
Transformer中的KV Cache和RWKV的Cache在机制和应用上有显著的异同。原创 2024-11-22 11:44:28 · 978 阅读 · 0 评论 -
详解BFLOAT16精度,和fp32和fp16的优缺点和异同
BFLOAT16通过增加指数位数来扩大数值范围,同时牺牲尾数精度以节省存储空间和提高计算效率。它在处理大规模神经网络时表现出色,但在需要高精度的小范围计算任务中可能不如FP32和FP16合适。选择合适的浮点数格式需要根据具体任务的需求、硬件支持以及对精度和资源消耗的权衡来决定。BFLOAT16和FP32各有其优缺点。BFLOAT16通过牺牲一些精度来保持与FP32相同的数值范围,同时减少内存占用和提高计算效率。这使得BFLOAT16特别适合于深度学习等需要大量计算资源的应用场景。原创 2024-12-11 15:19:10 · 1275 阅读 · 0 评论 -
Megatron训练框架和deepspeed训练框架的异同和优劣[大模型面试]
AnswerMegatron和DeepSpeed是两个用于大规模深度学习模型训练的框架,它们各有特点,但也存在一些共同之处。原创 2024-07-17 16:17:33 · 3073 阅读 · 0 评论 -
micro f1 和macro f1的异同
权重分配不同:micro f1对所有样本赋予相同权重,macro f1对每个类别赋予相同权重。应用场景不同:micro f1适用于类别数量差异不大的情况,macro f1更适用于不平衡数据集。数值大小不同:macro f1通常比micro f1大,因为它不受大类别的主导影响。此外,还有一种weighted f1,它根据每个类别的样本数量进行加权平均。在类别分布极度不平衡时,可以考虑使用weighted f1。原创 2024-05-27 17:26:56 · 1617 阅读 · 0 评论 -
LoRa微调和prefix微调还有adapter微调最大的区别和异同是什么,最好详细说明,最后能以表格显示
特性LoRa微调Prefix微调Adapter微调核心机制引入低秩矩阵添加可学习前缀向量插入适配器模块参数调整方式更新低秩矩阵优化前缀向量冻结大部分参数,仅调整适配器计算效率高效,减少更新参数高效,不修改模型结构高效,减少训练成本保留预训练知识部分保留完全保留大部分保留应用灵活性较高非常高较高推理性能影响较小较小可能增加延迟这些方法各有优势和局限,选择合适的方法通常取决于具体任务需求、计算资源及性能要求。原创 2024-11-20 16:30:07 · 435 阅读 · 0 评论 -
Mixtral 8x7B的原理解读:Mixtral of Experts
原创 NatureAI2024年01月16日 22:29北京。原创 2024-07-06 19:23:07 · 1036 阅读 · 0 评论 -
flash attention原理
在深度学习中,注意力机制(Attention Mechanism)广泛用于自然语言处理(NLP)、图像处理等领域。注意力机制的核心思想是根据输入序列中的每个元素的重要性来动态调整它们的权重,从而更好地捕捉序列中的依赖关系。自注意力(Self-Attention)是其中的一种常见形式,它用于计算输入序列中每个元素对其他元素的影响。Flash Attention 是通过引入分块计算、内存访问优化和并行计算等技术来提高注意力机制效率的一种方法。原创 2024-06-06 23:19:14 · 1621 阅读 · 0 评论 -
图解大模型RLHF系列:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在时刻,环境的状态为,达到这一状态所获得的奖励为智能体观测到与,采取相应动作智能体采取后,环境状态变为,得到相应的奖励找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。原创 2024-05-21 23:18:48 · 940 阅读 · 0 评论 -
图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
智能体(Agent)与环境(Environment)状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在时刻,环境的状态为,达到这一状态所获得的奖励为智能体观测到与,采取相应动作智能体采取后,环境状态变为,得到相应的奖励找到一个策略,这个策略根据当前观测到的环境状态和奖励反馈,来选择最佳的动作。原创 2024-04-25 22:14:20 · 4058 阅读 · 3 评论 -
Mixtral 8x7B 模型详解 包括原理、图表和代码
原创 数智笔记北京自 2023 年底以来,Mixtral 8x7B[1] 在大型语言模型领域变得非常流行。它之所以受欢迎,是因为它在参数数量(小于 8x7B)和计算量(小于 2x7B)方面优于 Llama2 70B模型,甚至在某些方面超过了 GPT-3.5。本文主要关注代码,并包含插图来解释 Mixtral 模型的原理。原创 2024-06-26 18:21:13 · 1264 阅读 · 0 评论 -
Attention优化|2w字原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3
本文通过原理分析和图解的方式,通俗易懂地FlashAttention系列算法。FlashAttention V1/V2在LLM领域的应用已经非常广泛,相关的论文也反复读了几遍。FA1和FA2论文非常经典,都推荐读一下(不过FA2论文中公式错误不少本文大约1.8w字,包括以下内容:0x07 分布式训推使用FlashAttention0x09 FlashAttention中MQA/GQA以及Causal Mask处理。原创 2024-05-25 23:40:52 · 4194 阅读 · 1 评论 -
ViT 原理解析 (Transformers for Image Recognition at Scale)
这里增加了 class token,class token的维度是[1,768],然后将其与第1步得到的tokens进行拼接,即Cat([1, 768], [196, 768]) -> [197, 768]。从公式可以看出,其实一个词语的位置编码是由不同频率的余弦函数函数组成的,从低位到高位,余弦函数对应的频率由 1 降低到了 110000 ,按照论文中的说法,也就是,波长从 2𝜋 增加到了 10000⋅2𝜋。下面来看下ViT是如何做的。等文本数据不同,图像中包含更多的信息,并且是以像素值的形式呈现。原创 2024-08-20 21:11:16 · 1105 阅读 · 0 评论 -
《深入浅出多模态》中:多模态模型原理总结
CLIP采用双塔结构,其核心思想是通过海量的弱监督文本对,通过对比学习,将图片和文本通过各自的预训练模型获得编码向量,通过映射到统一空间计算特征相似度,通过对角线上的标签引导编码器对齐,加速模型收敛。CLIP是一种弱对齐,可应用于图文相似度计算和文本分类等任务。思想:图文特征对齐、指令微调、多任务结构:图像编码器Image Encoder+-大语言模型LLM+对齐模块Loss设计:参考对比学习探索不同的图文特征对齐方式,同时增加指令微调能力。原创 2024-11-22 13:50:36 · 831 阅读 · 0 评论 -
transformer的基本原理和计算步骤
Transformers通过并行化处理和强大的注意力机制,实现了高效的序列到序列建模,解决了RNN的长距离依赖问题,是现代NLP模型的基础。原创 2024-11-14 22:04:50 · 357 阅读 · 0 评论 -
详解Byte Pair Encoding (BPE)原理
综上所述,预定的BPE词汇表大小是通过综合考虑数据集规模、模型需求、合并次数、稀有词处理能力以及具体应用场景来确定的。这种灵活性使得BPE能够在不同任务中表现出色,同时保持有效性和效率。相关事件事件名称事件时间事件概述Byte Pair Encoding (BPE) 的提出和应用首次提出于1994,2015后广泛应用于NLP领域。技术发展BPE是一种用于自然语言处理的子词嵌入技术,通过合并文本中最频繁的字符对来创建新的子词单元,以减少词汇表大小并提高文本处理效率。原创 2024-12-13 21:30:08 · 809 阅读 · 0 评论 -
[面试]softmax及数学原理
zn]\mathbf{z} = [z_1, z_2, \ldots, z_n]z=[z1,z2,…,zn]\mathbf{z} = [z_1, z_2, \ldots, z_n]z=[z1,z2,…Softmax函数的数学原理在于将任意实数向量转换为概率分布,使得每个元素的值介于0和1之间,且总和为1。Softmax在神经网络中是一个关键函数,尤其用于多类分类问题的输出层。这些特性使Softmax成为处理多分类问题和注意力机制的理想选择。出是连续的,适合用于概率预测。是可微的,适合用于反向传播。原创 2024-11-15 09:55:16 · 438 阅读 · 0 评论