Facebook 家用摄像头“Portal”:向好莱坞学习
编者按:Facebook的Portal系列从好莱坞最好的摄影师那里学了很多拍摄技巧,虽然Portal最终可能没那么火,但其背后的AI技术和与艺术结合的方式,必将引领一股潮流。本文译自Fastcompany原标题为" Facebook’s Portal learned its video skills from some of Hollywood’s best cameramen"的文章,希望对您有所启发。

Facebook的Portal系列家用摄像头虽然隐私问题饱受诟病,但不可否认,它有一个功能确实炫酷:它能够实现画面的智能拍摄,并在视频通话时跟踪房间内的动作。与智能手机视频通话相比,这是一个巨大的进步。在智能手机视频通话中,摄像头的位置完全由两端的人来决定,所以画面经常会不停地抖动、有时不得不看着对方的鼻孔或者大脑门儿,有时画面里还会突然就找不到人了。而Portal更像是一个独立的人像摄影师,精心地构图,流畅的切换场景,可以对镜头前的人们进行追踪,使画面看起来相当自然。
Portal运用了很多先进的计算机视觉AI技术来才创造出这种体验,其中很多都是在最近几年开发出来的。很多以往的经验和专业知识都被用于训练运行Portal摄像头的人工智能,其神经网络层中嵌入了大量的电影行业知识。例如,它知道什么是“牛仔镜头”(从大腿中部向上的镜头,不仅能看到拍摄对象的脸,还能看到他在枪套里装的东西),它知道何时以及如何关注镜头前的人们,并且忽略他们周围的环境。我与Facebook的三位工程师进行了交谈,这三个人都密切参与了Portal的开发,这是Facebook作为一个社交网络公司首次涉足硬件领域。
不仅仅是面部识别
Portal的关键创新是一种轻量级的计算机视觉模型,它不仅能识别人脸,还能识别人体行为。
在消费者技术中,头部和面部检测司空见惯。例如,消费级相机使用计算机视觉来检测人脸或头部以实现自动对焦,但是这些简单的系统并不能收集到很多关于人的身体姿势的信息。
Portal系列的工程师埃里克·黄(Eric Hwang)说:“如果我们只知道你在哪里,而不知道你的身体方向,比方说,如果你躺在沙发上,我们几乎不可能找到一个好的镜头或者特写位置。”工程师们需要一种计算机视觉模型,能够可靠地识别人的头部、身体和四肢,能够将在厨房做饭的人和另一群围坐在桌前的人加以区分,以不同的方式构图并进行跟踪拍摄。
Facebook的人工智能研究团队已经在2017年4月开发出了一种名为Mask R-CNN(简称“区域卷积神经网络”)的计算机视觉模型,可以识别人体运动的二维图像。但该模型是为在桌面视觉处理器(GPU)上运行而设计的,而Facebook希望能在设备内的一个较小的移动芯片上运行Portal的计算机视觉模型。有想法认为,这种方式必须不断地调用运行该模型的云服务器,肯定会造成视频通话中的延时状况。

在Portal系列两年关键的开发周期中,大幅度缩小R-CNN模型成为工程师们必须克服的最大挑战。来自Facebook的人工智能团队也参与进来,最终找到了一个解决方案。整个过程经过了不断地精简、优化和权衡。最终的成果是一个叫做Mask R-CNN2Go的新模型。它只有几兆字节大小,小到足以在高通的骁龙神经处理引擎上运行。Facebook的工程师说,为了优化R-CNN2Go的处理器,他们将与高通进行密切的合作。
在实践中,Portal的微型计算机视觉模型不断地分析摄像机每秒拍摄的30帧中的镜头,以寻找任何可能成为视频拍摄对象的内容。它输出头部、身体和四肢的点数据,然后报告视频镜头的构图。这个模型最主要的工作之一是知道什么时候该忽略无关紧要的对象,例如挂在墙上的相框里的一张人脸。它必须知道如何忽略一个突然离开房间的人,或者把注意力集中在前方说话的人身上,而忽略那个从后面路过的人。
所有这些细节都会让你的照片看起来更加自然直观。“所以当你在视频电话中四处走动时,对方会觉得你就在他们身边,”工程师埃里克·黄(Eric Hwang)说。
Portal摄像头背后的计算机视觉模型经过了数百万个开放源代码图像的训练,以教会它识别各种人和姿势。Facebook还提供了一些自己的培训数据,因为开放源代码材料中没有足够的家庭(视频通话经常发生的地方)场景图像。
请好莱坞大师来帮忙
但即使是Facebook工程师教会Portal根据2D姿势数据进行缩放、平移和跟踪相关主题,它仍然不太正确。在谈到早期原型时,他们表示,这款相机可以以一种合乎逻辑的方式拍摄周围的人,但它的动作仍然感觉“又僵硬又机械”。工程师们知道他们必须在科学中加入一些艺术,于是打电话给好莱坞。

版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/42989.html
