具身智能：原理、算法与系统第6章视觉感知与场景理解

最新推荐文章于 2026-06-22 20:56:42 发布

原创最新推荐文章于 2026-06-22 20:56:42 发布 · 63 阅读

0 GEO检测

标签

#人工智能 #具身智能 #机器学习

收录于

具身智能机器人及其算法专栏收录该内容

56 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

第6章视觉感知与场景理解

6.1 视觉表示学习基础

6.1.1 从CNN到ViT：视觉骨干网络演进

6.1.2 自监督视觉表示：对比学习、掩码建模

6.2.3 实例分割：Mask R-CNN, SOLO

6.2.4 全景分割与统一架构

6.3 开放词汇与基础模型

6.3.1 CLIP：对比语言-图像预训练

6.3.2 开放词汇检测：Grounding DINO

6.4.2 点云处理：PointNet, PointNet++, Point Transformer

6.4.3 神经辐射场(NeRF)与3D高斯泼溅

6.4.4 显式vs隐式3D表示

6.5 动态视觉与视频理解

6.5.1 视频动作识别：I3D, SlowFast

6.5.2 目标跟踪：单目标、多目标、视觉目标跟踪

6.5.3 视频预测与物理直觉

6.5.4 视觉里程计与SLAM

第6章视觉感知与场景理解

6.1 视觉表示学习基础

6.1.1 从CNN到ViT：视觉骨干网络演进

卷积神经网络（C

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VectorShift

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

具身智能与视觉：机器人如何“看懂”世界？

热门推荐

不踩坑，不知道坑有多深；不总结，踩过的坑白踩。

08-10

6万+

具身智能与视觉：机器人如何“看懂”世界？ 人工智能，计算机视觉，大模型，AI，在科技飞速发展的当下，具身智能成为了人工智能领域中一颗璀璨的新星，吸引着无数科研人员与科技爱好者的目光。具身智能，简单来说，就是让智能体（如机器人）基于自身的物理身体与所处环境进行交互，从而实现感知、理解、决策与行动的智能化过程。而在这一过程中，视觉扮演着举足轻重的角色，宛如为机器人打开了一扇通往世界的窗户，使其能够获取大量关键信息，进而做出合理的行为决策。那么，机器人究竟是如何借助视觉来 “看懂” 世界的呢？

参与评论您还未登录，请先登录后发表或查看评论

具身智能：原理、算法与系统

VectorShift的博客

02-23

1721

本专栏系统介绍具身智能的理论、算法与实践，构建从感知到行为的完整知识体系。内容分为四部分：基础理论阐述具身认知的历史与框架；感知技术涵盖视觉、触觉等多模态感知；认知与推理探讨世界模型、因果推理等前沿方法；行为生成实现决策到执行的闭环。专栏结合大型语言模型与机器人学最新进展，为研究者和工程师提供系统性指南，推动物理智能与认知架构的融合发展。

具身智能：原理、算法与系统系列文章

VectorShift的博客

02-21

696

具身智能：原理、算法与系统》是一部系统阐述具身智能理论与技术前沿的30章深度专栏。从认知科学的具身性转向出发，贯通神经科学、机器人学与人工智能的交叉脉络，构建"感知-认知-行为"三位一体的理论框架。内容涵盖视觉-触觉-听觉多模态感知、世界模型与因果推理、神经符号AI、运动控制与操作技能、人形机器人系统架构等核心技术，并深入探讨持续学习、安全对齐、集体智能等前沿议题。

终极指南：事件相机在具身智能中的高动态视觉感知技术

gitblog_00024的博客

11-24

743

**具身智能**技术正在引领机器人感知能力的革命性突破，其中**事件相机**作为新一代视觉传感器，为机器人在复杂环境中的高动态感知提供了革命性的解决方案。在Embodied-AI-Guide项目中，**事件相机应用**已成为具身智能领域的关键技术方向。 ## 🔥 什么是事件相机？ **事件相机**（Event-based Camera）是一种模仿生物视网膜工作原理的新型视觉传感器。与传统相机

智谱 GLM-5.2 开源登顶、科创板向 AI 大模型开门、沪指收复 4100 点

weixin_45526015的博客

06-17

2754

**今天你必须知道的 3 件事：** > ① 智谱 GLM-5.2 正式上线开源，Code Arena 全球可用模型排名第一 > ② 科创板上市标准扩围至 AI 大模型行业，未盈利 AI 公司上市通道打开 > ③ A 股沪指收复 4100 点，科创 50 暴涨 4.69%，半导体全面爆发

监控“失明”了怎么办？国标GB28181视频平台EasyGBS平台AI视频质量诊断让运维效率提升10倍

EasyGBS的博客

06-17

1443

监控系统“看得见”是底线，“看得清”是要求，“一直看得清”才是目标。

蓝牙+WiFi 融合产品调研：智能体脂秤

朝气蓬勃

06-17

1757

本文系统介绍了智能体脂秤的产品概况、硬件架构设计、软件架构设计、关键技术挑战及解决方案。产品方面，概述了主流型号、目标用户和市场定位；硬件设计重点分析了芯片选型、BOM成本及PCB布局；软件架构详述了FreeRTOS系统选型及分层协议设计；技术挑战部分提出了Wi-Fi/BLE共存、阻抗测量精度等解决方案；最后展望了市场前景和2025年趋势。全文为体脂秤开发提供了全面的技术指导，特别适合IoT硬件开发者参考。

从 Canvas 到 Vibe Coding：HTML5 游戏开发入门与 AI 飞机大战实战

meilindehuzi_a的博客

06-16

1716

本文围绕 HTML5 中的 Canvas 技术展开，从网页游戏的发展背景出发，系统介绍了 Canvas 画布的基本概念、绘图上下文获取方式以及常用绘图 API 的使用方法。通过矩形绘制、边框绘制和画布清除等案例，帮助读者理解 Canvas 的坐标体系与绘图原理。随后结合动画示例，深入讲解了浏览器动画实现机制、游戏循环思想以及 `requestAnimationFrame` 的工作原理，并分析其相较于 `setInterval` 的性能优势。

美团海报生成 AIGC 技术创新与实践

美团技术团队

06-18

1065

美团智能创作团队围绕海报生成 AIGC 构建了完整技术体系，打造「生成-编辑-评判」技术闭环，目前已在美团外卖、品牌 IP 等场景落地，已全部开源。

2026 国产 AI 工控机替代方案：飞腾 / 龙芯平台的信创选型实战指南

paiqingongkong的博客

06-17

1217

随着关键信息基础设施供应链安全审查的全面深化，国产化工控机已从 "政策强制替代" 转向 "技术价值驱动" 的新阶段。数据表明，2026 年中国工业控制计算机市场规模预计达到 896 亿元，同比增长 37.2%，其中国产化市场份额将提升至 68.5%，较 2025 年同期增长 11.3 个百分点。在电力电网、轨道交通、能源化工等核心领域，飞腾和龙芯平台的信创工控机已实现批量落地，成为替代进口方案的首选。本文将从技术路线、性能指标、场景适配三个维度，为企业提供 2026 年国产 AI 工控机的完整选型指南。

AI时代的大盒子与小道理

lanhushe的博客

06-17

215

我的数据在我的服务器，你的App只能调用我的插件，用户进来就别想出去。用户最怕的就是“AI垄断”，你啥都记着，啥都分析着，最后比你还懂你自己。菜单越来越复杂，功能越来越多，最后你发现，你只是想看个电视，结果得先过五关斩六将。AI不一样，它是“活”的。做手机的、做汽车的、做办公软件的，他们悄悄把AI塞进每个角落，但从来不让你专门点进一个“AI功能”。以前，大家聚会聊的是“谁家的AI日活又涨了”“谁的模型又刷榜了”。做一个有自己的UI、有独立入口、用户天天来的“大盒子”，数据才好统计，广告才好卖，会员才好续。

拆解AI投简历插件：塔塔网申的技术逻辑和实测数据

csdndeyeye的博客

06-16

1738

校招海投阶段，网申表单填写耗时巨大。本文以塔塔网申这款AI投简历插件为例，拆解其技术逻辑：通过结构化录入+页面DOM扫描实现自动填充，实测单家耗时48秒，效率提升约96%。该插件覆盖10万+企业招聘系统，支持多模板切换、三种填充模式及投递追踪，新用户提供100次免费填充。数据存于阿里云，AES-256加密，支持本地离线。作为AI找工作方向的求职助手，适合海投场景使用。

Rethinking Cross-Layer Information Routing in Diffusion Transformers

liguandong

06-21

324

论文：本文是我的精读笔记，梳理它的诊断、方法与实验，并谈谈个人看法。

每日 AI 研究简报 · 2026-06-22

最新发布

:: Dotnet Fantasy ::

06-22

191

本周 AI 领域迎来历史性转折——Claude Fable 5 短暂登顶后被叫停，智谱 GLM-5.2 开源破局逼近闭源前沿，全球大模型竞争进入"能力天花板"与"监管天花板"双轨博弈新阶段。

酒店技术创新报告：AI 趋势与战术（2026 年 Q2）

2509_93962717的博客

06-22

323

酒店 AI 已从“提供建议”进化到“自主执行”。核心变化是：AI 不再只是辅助决策，而是直接完成端到端任务（如调价、回复问询、处理会计流程），人类只介入例外和风险判断。

乐迪信息：船舶AI偏航算法如何降低港口航道碰撞风险？

LeDi_XinXi的博客

06-17

218

AI偏航算法助力港口航道安全管理。该技术通过整合AIS、气象和电子海图数据，利用机器学习实时监测船舶轨迹，动态调整报警阈值。其核心包含数据处理、偏航识别和风险预警三大模块，能提前预测偏航趋势，显著降低误报率并提供决策支持。试点项目显示该技术使偏航事件减少30%，误报警降低50%，但面临数据延迟和场景适配等挑战。未来结合VTS系统可进一步优化预警策略，为港口安全提供创新技术方案。

模特图片ai批量生成，作图鸟与多平台体验对比

北鹤M的代码手账

06-17

191

作图鸟9.5分，AI模特图片生图与商品精修功能高度适配电商场景，并支持免费排队生成，易用性与成片质量极佳。即梦7.5分，视觉模板丰富且前端体验佳，适合插画和跨场景创作，不太适合对批量电商模特ai有强烈标准化需求的团队。堆友7分，平台功能多样，模板涵盖广泛内容风格，更多适合设计师多领域使用，会员机制需注意。快乐小马6.5分，视频生成能力突出，前端操作流畅，适合短视频素材制作而非图片类AI模特内容。整体来看，针对不同需求选择合适的模特图片ai平台尤为重要。

知识库到底够不够？为什么企业需要认知体系

weixin_39757409的博客

06-18

479

知识库只能回答简单问题，企业需构建认知体系，实现业务理解与智能决策。

Cua 核心能力与效果全景展示

行走の飞鱼博客

06-16

866

摘要：本文通过技术架构分析、多场景测试与质量评估，系统考察了AI内容生成工具Cua的实际表现。研究发现，其模块化架构和自适应机制在技术文档生成（如自动生成带边缘情况处理的Python HTTP客户端代码）和数据分析场景中表现优异，信息密度与指令遵循度突出；但在高度抽象的文学创作领域存在局限性。案例显示Cua能有效提升开发文档编写效率，但需注意其专业领域适用边界。研究建议技术团队可优先在标准化内容生产场景部署Cua，同时结合人工审核处理创意性需求。关键词：AI内容生成、Cua、技术文档自动化、质量评估、适用

深度学习自编码器基础与欠完备自编码器 —— 复制的艺术（八十二）

hello.reader

06-21

270

自编码器不需要标签（用数据自身作监督信号，目标是重构 x），产出有用表示 h，能利用无标注的海量数据。非线性自编码器能找弯曲的流形（曲面），是 PCA 的强大推广，能捕捉更复杂的数据结构。上图展示自编码器的两个组件：编码器 f（x→h）和解码器 g（h→r），目标是 r 近似 x。上图展示欠完备自编码器的沙漏结构：编码维度（瓶颈，如 2 维）小于输入维度（如 8 维）。也有更具生物学意义的**再循环（recirculation）**算法（比较原始输入与重构输入的激活），但很少用于实际。

具身智能：原理、算法与系统 第6章 视觉感知与场景理解

第6章 视觉感知与场景理解

6.1 视觉表示学习基础

6.1.1 从CNN到ViT：视觉骨干网络演进

具身智能：原理、算法与系统第6章视觉感知与场景理解

第6章视觉感知与场景理解