在机器人视觉领域,手眼标定(Hand-Eye Calibration)是实现精准操作的核心技术之一。无论是工业机器人抓取零件、医疗机器人辅助手术,还是无人机作业,都需要让机器人精确掌握“眼睛”(如相机)与手(末端执行器)之间的空间关系。

本文大凡光学将结合本司全场景化工程实践与技术沉淀,系统阐述手眼标定的基本原理、两种典型系统架构眼在手(Eye-in-Hand)与眼在外(Eye-to-Hand),并深入对比两种经典求解方法——解析解法与数值优化法,分析各自的适用场景与选择策略。
一、手眼标定的意义
假设一下,机器人需要通过摄像头识别桌面上的一颗螺丝,然后用机械臂精准抓取它。若相机坐标系与机器人末端坐标系之间的变换关系未知,视觉定位的偏差将直接导致操作失败。

手眼标定的目标正是求解二者之间的刚性变换矩阵X(包含旋转R与平移t),使得机器人能够将视觉信息准确映射为末端执行器的运动指令。
类型 | 安装方式 | 特点 |
眼在手 | 相机固定于机器人末端,随机械臂运动 | 近距离、高精度局部观测,视角灵活 |
眼在外 | 相机独立固定于工作区域外 | 全局视野,标定后长期稳定 |
无论何种系统,核心数学模型均归结为求解矩阵方程:A X=X B
A:机器人本体(末端)的运动变换
B:相机观测到的目标物运动变换
X:待求的手眼矩阵
二、两种手眼系统架构详解
根据相机安装位置与工作模式的不同,手眼标定系统分为眼在手(Eye-in-Hand)与眼在外(Eye-to-Hand)两大主流架构,二者分别适配不同的作业场景与精度需求。
1.眼在手(Eye-in-Hand)系统
相机直接安装在机器人末端执行器上,与机械臂同步运动。相机视野随机械臂移动而动态变化。

典型应用场景:工业精密装配、抓取,医疗机器人(如手术导航内窥镜)、无人机自主抓取。
技术优势:可对操作对象进行近距离高精度观测、灵活调整视角以适应不同工序。
工程挑战:相机随机械臂高频运动,易受振动、光照变化干扰,频繁运动可能导致标定参数漂移。
2.眼在外(Eye-to-Hand)系统
相机固定安装在机器人工作区域外,独立于机械臂运动。相机的全局视角覆盖整个工作空间,机械臂运动被动呈现在视野中。

典型应用场景:工厂流水线质量监控(如汽车焊接检测)、AGV(自动导引车)导航、仓储机器人货架管理。
技术优势:全局视野,适合大范围或轨迹监控、标定后长期有效,无需频繁更新。
工程约束:对远距离测量精度有一定损失,存在视野遮挡风险。
3.两种系统的对比
对比维度 | 眼在手 | 眼在外 |
安装位置 | 机器人末端 | 固定外部 |
视角范围 | 局部、近距离 | 全局、广角 |
标定频率 | 高(随机械臂运动频繁变化) | 低(一次标定长期有效) |
适用场景 | 精密操作、动态目标 | 大范围监控、静态环境 |
标定复杂度 | 较高(需处理动态视角) | 较低(视角固定) |
手眼标定的核心是对AX=XB方程的精准求解,行业主流形成解析解法与数值优化法两大技术路线,二者形成互补的工程化应用体系。
1.解析解法
解析解法通过数学推导对矩阵方程进行旋转与平移分量解耦,构造线性方程组直接完成闭式求解,经典代表为Tsai-Lenz、Park-Martin算法。
核心求解流程:采集多组机器人运动与相机观测数据→解耦旋转与平移分量→通过SVD分解或四元数法求解旋转矩阵→代入求解平移向量→输出手眼矩阵。
性能特点:计算速度快,毫秒级完成求解,无需初始值,流程简单易落地;但对数据噪声敏感,要求至少两组非平行旋转轴的运动数据,适配无噪声的实验室快速标定。
2.数值优化法
数值优化法将标定问题转化为非线性最小二乘优化问题,通过迭代最小化重投影累积误差,实现全局最优解求解,是工业现场的主流方案。
核心求解流程:通过解析解法获取初始值→将手眼矩阵参数化为李代数→构建最小化误差目标函数→通过高斯-牛顿或LM算法迭代优化→映射回李群输出优化后的手眼矩阵。
性能特点:抗噪声干扰能力强,数据量越大精度越高,标定结果稳定性强;但依赖可靠初始值,需多次迭代计算,实时性较弱,适配复杂工业环境的高精度标定。

两种方法并非对立,而是互补——解析解为数值优化提供可靠的初始值,后者在此基础上进一步提升精度与鲁棒性。
对比维度 | 解析解法 | 数值优化方法 |
数学本质 | 线性方程组的直接解 | 非线性优化的迭代逼近 |
数据需求 | 至少 2 组非共轴运动 | 数据越多,精度越高 |
抗噪能力 | 对噪声敏感 | 鲁棒性强,可处理噪声 |
计算效率 | 毫秒级,实时性强 | 秒级,需多次迭代 |
初始值依赖 | 无需初始值 | 需初始值(常用解析解提供) |
适用场景 | 实验室标定、快速验证 | 工业现场、复杂噪声环境 |
手眼标定的最终落地效果,不仅取决于求解方法的选择,更依赖标准化的工程实施流程与场景化的选型策略,是保障标定精度与长期稳定性的核心环节。
1.核心实施规范
标定板选型:优先选用高平面度棋盘格/圆点标定板,板面平面度优于0.1mm/m²,特征尺寸公差±0.01mm,确保观测特征稳定可溯源。
数据采集:采集数据需覆盖作业全空间,旋转角度30°~90°,平移量覆盖作业行程1/3以上,有效数据不少于15组,严格规避共轴运动。
精度验证:工业级应用重投影误差≤0.5像素,抓取重复定位误差≤0.1mm;高精度医疗、航空航天场景重投影误差≤0.2像素。
2.场景化选型策略
眼在手精密场景:实验室无干扰环境优先用解析解法快速标定;工厂现场有振动、光照干扰的工况,采用“解析解粗标定+数值优化精调”的组合方案。
眼在外全局场景:优先采用数值优化法完成一次性高精度标定,保障结果长期稳定,减少重复校准,适配批量连续作业。
动态移动机器人场景:优先采用解析解法,利用其高实时性实现标定参数快速更新,适配动态环境下的位姿变化需求。
3.行业升级方向
尽管传统手眼标定方法仍是当前工业主流,但多种新技术正在融入与构建:
深度学习辅助标定:用神经网络直接预测X,减少对运动数据量的依赖。
多传感器融合:联合相机、IMU、力传感器提升鲁棒性。
在线标定:实时更新手眼矩阵,适应环境动态变化。
手眼标定是机器人感知与执行之间的“精度桥梁”。眼在手如同“手持显微镜”,专为精密局部操作设计;眼在外则似“天空之眼”,掌控全局视野。解析解法以“快”见长,数值优化以“稳”取胜,二者结合可在复杂工程环境中实现高精度、高可靠性的手眼标定。
未来,随着AI技术的渗透,手眼标定将更加智能化、精准化,为工业4.0和智能医疗开辟更广阔的可能性。