3Ｄ视觉工坊-CSDN博客

转载 CVPR 2025 最佳论文候选 FoundationStereo | 英伟达开源双目深度估计大模型

Bowen Wen(温伯文)是英伟达研究院的高级科学家。他的研究领域包括机器人感知和计算机视觉。近期他专注于大型三维视觉感知和学习基础模型，以促进机器人技术或具身智能的发展。他主导的项目曾在计算机视觉和机器人两大领域的顶会(CVPR 2025, RSS 2022)都获得过最佳论文奖提名。在攻读博士期间，他曾在Google[X]、Meta Reality Labs、Amazon Lab 126和商汤科技担任研究实习生。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。如果您有相关工作需要分享，欢迎联系我们。

2025-05-17 00:02:00 6

转载 2025年，热点3D视觉技术一览！

即可免费领取计算机视觉精品视频与慕尼黑工业大学、巴塞罗那自治大学沉淀多年的计算机视觉课件资料，包括相机标定、立体匹配、三维重建、SLAM、三维点云、缺陷检测、深度估计、四旋翼无人机等。包括3D视觉传感器、3D视觉系统集成设备、缺陷检测设备、SLAM产品、自动驾驶。「计算机视觉工坊」公众号，主要专注3D视觉、计算机视觉算法、SLAM、三维点云处理、三维重建、自动驾驶、图像处理等领域技术干货分享。「3D视觉工坊」公众号，由多位985硕博士共同运营，主要专注3D视觉，包括工业3D视觉、自动驾驶、SLAM算法。

2025-05-16 09:01:32 10

转载盘点！港大今年开源了哪些SLAM算法？

实时估算曝光时间，适应剧烈光照变化；图片来源:《FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry》, IEEE T-RO，2024.图片来源:《FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry》, IEEE T-RO，2024.图片来源:《FAST-LIVO2: Fast, Direct LiDAR-Inertial-Visual Odometry》, IEEE T-RO，2024.

2025-05-15 07:08:06 447

转载深入解析PID控制算法：从理论到实践的完整指南

spike 的英文含义是尖刺，这里指的是当系统运行过程中，突然改变 setpoint 时， PID 的微分部分会因 setpoint 的突然切换而生成一个极大的导数，导致算法输出值 output 将产生一次急剧变化，这就是 spike。PID 是目前最常见的应用于闭环反馈控制系统的算法，三个部分可以只用一个（P，I，D），也可以只用两个（PI，PD），也可以三个一起用（PID），非常灵活。如果提到 ouput，指的是 PID 算法输出，相当于上节中的系统输入 input(t)，即加热功率。

2025-05-15 07:08:06 18

转载是什么魔法？高反射物体三维重建达微米级！

通过对相机拍摄的变形的条纹进行解调，就可以恢复镜面的三维形貌。因此，即使是肉眼无法察觉的微小缺陷，如划痕、凸起、裂纹、凹陷和气泡，都可以被准确检测和定位。而在实际应用层面，将通过实际项目的操作，手把手教授学员复现相位测量偏折术的一整套流程，并指导如何将这些技能应用于个人项目中。这样的课程将为学习者提供全面的学术指导，从理论到实践，让他们能够掌握相位测量偏折术的原理，并在学术界和实际应用中展现出所学的深度和广度。本课程答疑主要在本课程对应的鹅圈子中答疑，学员学习过程中，有任何问题，可以随时在鹅圈子中提问。

2025-05-13 07:03:27 212

转载 TRO‘25 开源 | 无需中间模块！最新端到端的机器人导航方案NeuPAN！任意复杂场景下都能用！

研究方向为机器人自主导航规划。研究聚焦于自主导航系统在复杂场景下的运动控制。担任TRO, RA-L, IROS, ICRA等学术期刊及会议审稿人。扫码观看直播，或前往B站搜索3D视觉工坊观看直播。NeuPAN-planner在实物机器人上的部署。如果您有相关工作需要分享，欢迎文末联系我们。NeuPAN-planner在复杂场景下的表现。NeuPAN-planner的架构与优势。：本次分享我们邀请到了香港大学博士。本次分享我们邀请到了香港大学博士。当前机器人导航方案的挑战。3D视觉工坊哔哩哔哩。

2025-05-13 07:03:27 20

原创 windows下安装python软件

Python安装完毕后，不但可以在Windows命令行(cmd) 使用交互模式，还可以使用安装程序自带的交互式开发工具IDLE。至此，Python最新版安装程序就安装完毕了。使用Windows终端(cmd)或者IDLE开发工具，都可以启动。以上，由此可验证Python已经成功安装在windows电脑上。点击左下角搜索栏Type here to search,输入。, 选择命令行提示符，并点击“IDLE交互式开发模式。

2025-05-11 16:12:40 70

转载 ICRA 2025开源 | 大语言模型LLM助力，Hier-SLAM推动高效三维语义理解新突破

尤其重要的是，Hier-SLAM 首次展现了在超过 500 类语义场景中仍能高效运行的能力，充分体现了其强大的扩展性。本文提出了 Hier-SLAM，这是一种基于语义的三维高斯溅射 SLAM 方法，具备全新的层级类别表示方式，能够实现精准的全局三维语义建图、良好的扩展性，以及三维世界中显式的语义标签预测。为构建任意类别的语义树结构，本工作同时考虑语义信息的功能属性与几何属性，借助大语言模型（LLMs）自动构建结构合理的语义树，有效压缩信息表示，减少内存开销与训练时间，同时保持语义结构的物理意义。

2025-05-11 00:04:59 109

转载 CVPR 2025 | 自动驾驶论文总结

题目：GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving。题目：GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving。

2025-05-11 00:04:59 118

转载如何一直follow前沿的顶会动态？

多模态融合 SLAM 的门槛较高，在需要视觉 SLAM 与激光 SLAM 的基础之外，还会遇到不同模态测量的融合，不同传感器的时间同步，多传感器的外参标定，多传感器异常检测等问题，使得各位同学做这块的时候遇到诸多障碍。具身智能、大模型、扩散模型、相机标定、结构光、3DGS等三维重建、三维点云、缺陷检测、机械臂抓取、激光/视觉/多模态SLAM、自动驾驶、深度估计、模型部署、Transformer、3D目标检测、深度学习、视觉竞赛、硬件选型、视觉产品落地经验分享、学术&求职交流。

2025-05-10 00:01:38 40

转载盘一下！ICLR 2025现场那些有趣的poster及paper（具身智能方向）

(regret)，具体操作包括：（1）在任务状态空间中系统性地屏蔽感知输入（2）测量不同屏蔽时长(duration)和时机(timing)对任务成功率的影响（3）建立感知价值与任务状态、策略架构的关联模型。（MoSAT）实现关节间的消息传递，并引入拓扑位置编码（TopoPE）来高效表示动态演化的形态结构，从而支持轻量级模型（仅1.4M参数）下的复杂任务处理。首先，它通过文本提示（如“高踢腿”或“坐下”）直接控制动作风格，结合目标位置实现精确的任务描述，突破了传统控制器对预定义动作的依赖。

2025-05-10 00:01:38 54

转载 SLAM中的数学：轻松理解李群与李代数（中）

它的李括号定义稍微复杂一些，但本质上反映了两个元素的“差异”或者说“不可交换性”。比如，两次旋转操作的顺序通常是不能交换的，李括号就刻画了这种性质。其实它就是我们上一讲提到的旋转向量 (Rotation Vector)，它的方向是旋转轴，它的模长是旋转的角度。粗略地说，李代数描述了李群在单位元附近的“正切空间”(Tangent Space)，也就是它局部的“导数”信息。李代数不仅仅是一个向量空间，它还定义了一种特殊的二元运算，叫做李括号 (Lie Bracket)，它的李括号可以由向量的叉乘定义。

2025-05-10 00:01:38 43

转载 CVPR‘25开源 | ETH重磅One2Any：任意物体的 6D 位姿估计

在多个基准数据集上的实验表明，我们的模型可以很好地推广到新的对象，实现了最先进的准确性和鲁棒性，甚至可以与需要多视图或CAD输入的方法相媲美，而计算量却很小。受标准化物体坐标空间（Normalized Object Coordinate Space, NOCS）的启发（该空间使用规范物体姿态定义类别级物体的2D-3D对应关系），我们通过定义参考物体坐标系（Reference Object Coordinate, ROC）放宽了规范坐标系要求，该坐标系在参考相机坐标系中呈现归一化的物体坐标。

2025-05-10 00:01:38 67

转载 CVPR‘25开源 | ETH重磅One2Any：任意物体的 6D 位姿估计

在多个基准数据集上的实验表明，我们的模型可以很好地推广到新的对象，实现了最先进的准确性和鲁棒性，甚至可以与需要多视图或CAD输入的方法相媲美，而计算量却很小。受标准化物体坐标空间（Normalized Object Coordinate Space, NOCS）的启发（该空间使用规范物体姿态定义类别级物体的2D-3D对应关系），我们通过定义参考物体坐标系（Reference Object Coordinate, ROC）放宽了规范坐标系要求，该坐标系在参考相机坐标系中呈现归一化的物体坐标。

2025-05-10 00:01:38 76

转载 CVPR‘25开源 | ETH重磅One2Any：任意物体的 6D 位姿估计

在多个基准数据集上的实验表明，我们的模型可以很好地推广到新的对象，实现了最先进的准确性和鲁棒性，甚至可以与需要多视图或CAD输入的方法相媲美，而计算量却很小。受标准化物体坐标空间（Normalized Object Coordinate Space, NOCS）的启发（该空间使用规范物体姿态定义类别级物体的2D-3D对应关系），我们通过定义参考物体坐标系（Reference Object Coordinate, ROC）放宽了规范坐标系要求，该坐标系在参考相机坐标系中呈现归一化的物体坐标。

2025-05-10 00:01:38 66

转载 CVPR‘25开源 | ETH重磅One2Any：任意物体的 6D 位姿估计

在多个基准数据集上的实验表明，我们的模型可以很好地推广到新的对象，实现了最先进的准确性和鲁棒性，甚至可以与需要多视图或CAD输入的方法相媲美，而计算量却很小。受标准化物体坐标空间（Normalized Object Coordinate Space, NOCS）的启发（该空间使用规范物体姿态定义类别级物体的2D-3D对应关系），我们通过定义参考物体坐标系（Reference Object Coordinate, ROC）放宽了规范坐标系要求，该坐标系在参考相机坐标系中呈现归一化的物体坐标。

2025-05-10 00:01:38 14

转载南京大学三维视觉实验室招生！涉及三维重建、数字人建模、可微渲染、三维生成、具身智能、三维基础模型等

南京大学智能科学与技术学院准聘副教授，南京大学紫金学者，国家级青年人才。主要研究方向为三维视觉与空间智能，聚焦空间智能技术在自动驾驶、机器人等场景的应用，近年来在CVPR/T-PAMI等会议期刊发表一作与通讯论文20余篇，谷歌学术引用2700余次。，南京大学智能科学与技术学院助理教授，姑苏青年教授，博导。实验室聚焦三维计算机视觉方向研究，包括三维重建、数字人建模、可微渲染、三维生成、具身智能、三维基础模型等课题。，已主动推荐同学至苹果、腾讯、微软、阿里、蔚来、地平线、华为及领域内创业公司实习与工作。

2025-05-09 07:02:30 509