伴随着影像分辨率的提高,4K、6K、8K成为了今天制作和放映的常态。与此同时,那些老的影片,想要匹配到新的放映分辨率标准,也变得更加困难。
但还好,AI技术的发展,让一切变得皆有可能。VideoGorillas研究人员使用人工智能技术,将大量的老片子重制到了4K分辨率。
一种名为Bigfoot super resolution的新型生产辅助AI技术,通过使用神经网络计算出低分辨率影片中缺失的像素,成功将电影从480p转换成了4K。
经典的影片,重置成高分辨后重新上映,这样的技术能够让观众在一个全新的视觉体验中,重温旧时的感动。
在传统的影片重置流程中,大量的工作都需要人力完成,这即花钱又费时。VideoGorillas公司开发的人工智能增强解决方案,能够用更低的成本实现超出预期的分辨率视觉感受。
一种新的解决方案: Bigfoot Frame Compare
总部位于洛杉矶的 VideoGorillas,是一家结合了机器学习、神经网络、视觉分析、对象识别和实时流媒体技术的先进媒体技术开发商,这家公司与与好莱坞各大电影制片厂合作紧密。
VideoGorillas在2018年9月宣布,其研发的Bigfoot Frame Compare系统,将重新定义电影、电视和后期制作公司管理资产、整理、重新布置和保存项目的方式。
Bigfoot通过在一系列图像中找到类似“兴趣点”的共同点,来自动执行手工劳动密集型的处理(将原始胶片帧与最终编辑的作品相匹配)和比较处理(将不同胶片剪切之间的独特或共同帧进行比较)。
2018年11月,VideoGorillas宣布Netflix公司将于2018年11月2日在影院和网上发布电影《风的另一面》,这是由著名导演奥逊·威尔斯执导的最后一部未完成的电影。
这部影片,使用了VideoGorillas公司的人工智能(AI)驱动的Bigfoot Frame Compare 框架对比技术。
每秒分析1200万帧
《风的另一面》对电影制作人和 VideoGorillas来说都是了一个挑战,因为它是一项混合了电影修复和全新介质发行的工作。这部拥有40年历史的影片,有100多个小时的素材。
制片人Filip Jan Rymsza说:“在完成《风的另一面》的时候,我们面临着一个非常重大的挑战。”
“我们收集了不同来源的3.5小时的参考剪辑,我们必须把它与100小时的胶片扫描相匹配,包括16毫米、35毫米的底片和35毫米的正片。
传统工作流程,助理剪辑需要对应参考完成剪辑,但有些画面会从16mm放大到35mm,或者放大并重新定位,或者折边,或者从彩色底片上用黑白打印出来,这使得人的肉眼很难做好匹配。
如果没有VideoGorilla的人工智能技术完成这些精确的匹配,我们的剪辑团队可能需要几个月的时间才能完成,而VideoGorilla在两周内完成了这项艰巨的任务。
通过扫描《风的另一面》的胶片片段,我们得到了900多万帧。由于Bigfoot 最初是基于cpu的软件,VideoGorillas又开发了一个实验性的gpu版本,这让洛杉矶办公室的一台机器,能够完成通常需要200-300台服务器的工作。
在摄取了视频两天之后,GPU只花了三天时间来分析这段视频,在峰值加载时, Bigfoot每秒要分析1200万帧。
Bigfoot super resolution(分辨率提升系统)
现在,VideoGorillas有了另一项技术,它融合了基于NVIDIA CUDA-X和Studio Stack的人工智能技术。通过集成gpu加速的深度学习和计算机视觉,允许制作公司在重置影片时,获得更高的视觉保真度。
这种技术通过使用神经网络来预测缺失的像素,从而将电影从480p转换为4K,这些像素质量高得令人难以置信,让原始内容几乎与4K电影一样出现。
“Bigfoot Super Resolution采用英伟达RTX技术,专注于解决提供目前传统方法,无法实现的视频质量和操作效率提升。
“我们非常高兴能将这个解决方案推向市场,并希望帮助我们的电影和电视合作伙伴,在他们的内容库中,找到重换生机的影片”。
如何在重置影片的同时,保留艺术创作意图?
有趣的是,AI在影片重置工作中,除了提高生成效率和减少时间成本以外,居然还能够发挥出创造性的作用。
VideoGorillas的研究团队为每个项目训练了一个独特的递归神经网络(RNN),由NVIDIA gpu加速。机器会学习同一时代、同一类型、同一制作方法创作的作品的特点。然后保持了那个时代/流派的外观和感觉,从而保留了艺术意图。
“我们正在为基于人工智能技术的,电影和电视影像,创造一个新的视觉感受。我们训练AI去除各种干扰视觉的画面元素,同时了解正在重置影片的时代、流派和媒介。利用这些AI技术,我们可以提高影片质量,保持影片的原汁原味的视觉外观和感受。
generative adversarial networ(GAN)系统用于去除低分辨率区域中不需要的噪声和伪影,同时用新的图像合成和升级来替代它们。
这些AI都是使用Pytorch在CUDA和cuDNN中训练,由于每部影片有数百万张图像,处理量非常大,所以VideoGorilla集成了DALI (NVIDIA Data Loading Library))来加快训练时间。
Nvidia RTX驱动的人工智能技术
想要实现这种由AI完成的视觉新水平,只能通过NVIDIA RTX。该RTX的混合精度和分布式工作流的性能比CPU提高了200倍。VideoGorillas用RTX2080和Nvidia Quadro为更大规模的项目培训超分辨率AI。
Nvidia框架能够使 VideoGorilla将super-re超分辨率应用于HDR,高比特深度视频,以及高达8K分辨率,并实现更快的光流性能。
纯粹使用CPU来计算,4K和8K视频的超分辨率真的不可行,速度太慢了。VideoGorillas首席技术官亚历克斯·朱可夫说:“Nvidia GPU确实是实现高分辨率、高图像质量的唯一选择。”
在Prem解决方案中,他们还可以使用Nvidia Kubernetes将工作负载扩展到云端,在本地数据中心以及Amazon Web服务和Google云平台中运行。从而实现更加强大的运算能力。
AI技术看似遥远,实际上已经在影视行业,已经得到了越来越多的应用。
就拿所谓的AI分辨率增强来说,类似的技术在很多后期软件中,也得到了应用,比如达芬奇16神经网络引擎实现的Super Scale素材分辨率上变换,也实现的类似的效果。
所以,伴随着这些科技公司,对于AI在影视领域的应用探索,在以前看来很多不可能实现的事情,现在都变得明朗起来。
与此同时,技术的进步也在为艺术的创作,带来许多的新的可能性。