得益于人工智能,机器学习和计算机视觉等融合技术的进步,机器人每天都能看到,分析和做出更像人类的决策。开发此类视觉分析逻辑涉及实现解决方案,这些解决方案可以确定对象的方向,处理移动的对象并执行导航。而解决方案的基础是始于两项重要任务:
一、预处理通过传感器从现实世界收集的数据,以使各个子系统将其变为更可用的状态
二、执行特征检测以从数据中提取视觉特征,例如角,边等。
这些系统到位后,可以继续使用更高级别的机器人视觉功能,即:对象检测和分类以及对象跟踪和导航。
检测物体和方向
由于视点的变化,不同尺寸的图像和动态照明条件,物体检测和分类在传统上一直具有挑战性。可以提供帮助的一种解决方案是,使用经过训练以检测和分类对象的神经网络。
一种流行的方法是使用卷积神经网络(cnn),其中图像的一小部分以称为“滑动窗口”的过程被馈送到网络中。另一个任务是确定对象的方向,这对于对象交互和导航都很重要。这里的主要挑战是确定对象或机器人本身在3d世界空间中的方向。一种流行的方法是应用单应性算法(例如线性最小二乘法求解器,随机采样和共识(ransac))以及最小二乘方中值来计算2d图像帧之间的点。一旦检测到对象,就可以为它们分配元数据,例如id,边界框等,这些元数据可以在对象检测和导航期间使用。
可以检测和识别物体和人
识别出周围环境的物体和方面后,机器人需要对其进行跟踪。由于对象可以移动,并且机器人的视口会随着导航而变化,因此开发人员将需要一种机制来随时间推移以及跨摄像机和其他传感器捕获的帧跟踪这些元素。由于此机制必须足够快才能运行每个帧,因此多年来,已经设计了许多算法,这些算法以不同的方式解决该问题。
例如,质心跟踪会计算跨帧的已标识对象周围的边界框的中心点,然后在假定对象每帧仅移动一定距离的假设下计算该点变化时该点之间的距离。另一种方法是使用卡尔曼滤波器,该滤波器使用一段时间内的统计数据来预测对象的位置。
替代地,均值漂移算法是一种基本上找到帧的子区域内图像的某些方面(例如,颜色直方图)的均值的方法。然后,通过寻求最大化特征的相似性,在下一帧中寻找相同的描述。这使它能够解决诸如比例,方向等变化,并最终跟踪对象的位置。
由于这些技术仅需要跟踪原始特征的子集,因此它们通常可以高效且成功地处理诸如方向或遮挡等变化,从而使它们对于机器人视觉处理非常有效。
但是对象并不是唯一需要跟踪的东西。机器人本身应该能够成功地导航其环境,这就是同步定位和地图(slam)出现的地方。slam试图估算机器人的位置并得出环境图。可以使用许多算法(例如卡尔曼滤波器)来实现。slam通常通过融合来自多个传感器的数据来实现,并且当涉及视觉数据时,该过程通常称为视觉惯性同时定位和映射(vislam)。
应用来自多个传感器的多个过滤器以收集跟踪信息。当然,slam只能达到机器人可以感知的水平,因此开发人员应选择高质量的相机和传感器,并找到确保其不受数据捕获影响的方法。从安全角度考虑,开发人员还应设计故障保险柜,以防万一无法获取数据(例如,摄像机被遮盖)。
下一代利用计算机视觉和机器学习技术的机器人,具有“查看”周围环境,“分析”动态场景或变化的条件以及“做出决定”的能力,因此更加先进。这将要求开发人员精通用于对象检测和分类以及对象跟踪和导航的高级机器人视觉功能和工具。