开启左侧

[新科技] 照片里谁最重要?Google 要让人工智能也能看懂

[复制链接]
分享到:
发表于 2016-6-29 02:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?注册

x
一个场景里,有的人能够找出眼前哪些事情是需要注意的,有些人可能就会被不那么重要的事情所分神。而让人工智能识别一张图片里哪一部分才是传递信息的关键部分,当然比人脑判断更难。
一场篮球比赛的转播里,画面容纳了几十个人甚至是上百人,让机器来“看”的话怎么找到最重要的人?


这周在拉斯维加斯举办的计算机视觉与认知模式大会(CVPR)上,Google 展示了和几所大学合作的研究成果:教人工智能判断一个场景中的关键信息。

上图列出了一场球赛中的三种常见场景:三分球、篮板球和投篮失败。
这项研究的目的是在同时有许多人的视频中,让计算机识别出最应该注意的球员,是 Google 和斯坦福大学合作的。
研究者利用递归神经网络设计了一个计算机视觉系统,给每一帧画面标注出“注意力模型(attention mask)”,图中红框中的对象都是在场上的球员,而关键的那一位则用蓝色方框和五角星标注出来,以此在动态的视频中跟踪关键人物。
在经过训练之后,这个系统不仅能够识别出当前画面中最重要的那个人,也可以识别出即将成为关键的部分,画面与画面之间的动作变化则将前后的关键部分连接起来。
而在 Google 与爱丁堡大学合作的另一项研究里,研究者们则用行走的动物来训练图像识别系统。

比如在荒野中活动的老虎,如果能够识别出画面中是一只老虎而不是别的什么动物,其实只是人工智能的第一步。这一次,图像识别系统的任务是学会找出每一帧画面里,老虎的四条腿都是怎么迈的,接下来它要如何迈步。
与以往的研究最大的不同之处在于,以往的研究是将画面中活动的物体当做一个整体,现在这项研究则将老虎的四条腿分别追踪,以此来预测接下来每条腿的运动轨迹。
图片来源 CVPR


Google 与加州大学洛杉矶分校、牛津大学以及约翰霍普金斯大学合作的研究则是是训练图像识别系统理解照片中不同部分的互动关系,生成更精准的描述,或者说,是更有意义的描述。
这些研究的内容如果让人来做,其实都相当自然,在看比赛的时候你会关注球员而不是观众,看到两个人对着电脑你能对他们正在做什么有一个简单判断,但这些对机器来说,都需要分别从头学起。
现在人类帮助机器学着“划重点”,还是希望有朝一日他们能够学会自己来。
题图来自 Siam Mandalay


内容采编自好奇心日报, 不代表北美生活网观点, 除新闻外如有著作权争议, 请联系本站编辑,将立即处理。

谢谢欣赏,开放注册,欢迎加入北美生活网。

转载请保留当前帖子的链接:http://www.beimeilife.com/thread-17908-1-1.html 谢谢!

使用高级回帖 (可批量传图、插入视频等)快速回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则   Ctrl + Enter 快速发布  

发帖时请遵守我国法律,网站会将有关你发帖内容、时间以及发帖IP地址等记录保留,只要接到合法请求,即会将信息提供给有关政府机构。
快速回复 返回顶部 返回列表