东芝公司开发了世界上最准确、高度通用的视觉问答(VQA)人工智能,不仅能够识别人和物体,还能识别图像中的颜色、形状、外观和背景细节。人工智能克服了长期以来难以回答的关于人和物体的定位和外观的问题,并具有学习处理各种问答所需的信息的能力。它可以应用于广泛的用途,无需任何定制。
在使用包含大量图像和数据文本的公共数据集的实验中,VQAAI在没有任何预学习的情况下正确回答了66.25%的问题,在预学习的情况下正确回答了74.57%。例如,人工智能可以通过询问诸如“那个人在黑垫子上吗?”之类的问题来找到站在指定位置的工人。这需要识别个体、位置、形状和颜色。将其应用于生产现场的安全监控系统有望帮助提高安全性并减少现场主管的工作量。它还可以用于识别广播内容和监控视频片段中的特定场景。
东芝于9月14日在神经网络国际会议ICANN2021上展示了该技术。
预计未来几年生产基地的人力短缺将日益加剧,这一趋势在其他发达国家也变得明显。的出现使这种情况变得更糟,这使得确保工人安全和减少现场管理工作量比以往任何时候都更加重要。一种解决方案是人工智能,它越来越多地被引入生产现场。全球人工智能市场,包括软件、硬件和服务,预计到2021年将同比增长16.4%,达到3275亿美元,预计到2024年将达到5543亿美元。
当前的图像识别AI支持安全检查级别,它可以检测预先学习的单个对象,例如人、头饰和工作服。这使其能够分析摄像头图像以确定是否有人戴着安全帽,或检测掉落或掉落的物体,从而有助于确保工作场所安全并减少现场管理工作量。
然而,要达到这一点,需要创建一个确定功能,为AI应如何识别检查项目提供基础。例如,在检查头饰时,它必须学习如何检测和确定一个人是否戴着帽子——而且必须对检测到的每件物品都这样做。在工作场所,必须具有允许立即更改检查项目的灵活性,但由于设置和调整确定功能需要时间,因此在当前的AI中很难做到这一点。
东芝的新AI以世界上最高的回答问题的准确度满足了灵活性的需求,并且还能够快速更改或添加问题。它不仅能够识别人物和物体,还能识别图像背景,再加上可供使用的广泛数据库,确保它能够快速处理图像的特征和预先学习的问题,从而得出正确的答案。在学习了涵盖人和物体存在的大量图像、问题和答案以及它们的位置和状态等信息后,人工智能能够从大约3,000个答案模式中为问题提供适当的答案。AI高度灵活,可以通过添加检查项目进行更新,或通过简单的“图像和问题”进行更改以处理不同的情况
VQA的AI是一项尖端技术,目前正在全球范围内进行研究。传统方法主要依赖于图像中人和物体的特征,但东芝的新方法也提取背景特征和空间区域,包括要找到这些人和物体的楼层和通道(图2)。此功能使新的AI能够得出准确的答案。
例如,人工智能可以回答诸如路径上是否有物体或人是否站在指定区域,以及是否有物体等问题(图3和4)。通过将此人工智能应用于生产现场的安全监控,有望提高工作场所的安全性,减少主管的工作量,并有助于改善工作方式。
在使用全球标准公共数据集进行的性能评估中,东芝在没有预学习的情况下达到了66.25%和有预学习的准确率74.57%,这是有史以来的最高水平,而使用当前方法的结果分别为65.88%和74.00%(图5)。
新AI的多功能性使其适用于从广播内容、特定环境或磁盘驱动器录像机和安全录像中的特定场景中搜索特定场景,以及类似情况下的过去险情。
东芝将继续系统开发和准确性改进,以在2023财年将AI技术引入安全监控系统。