您现在的位置: 亚博 > 亚博热点>

亚博:计算机视觉开始一门新兴人工智能

作者:Art   日期:2019-03-13
亚博:计算机视觉开始一门新兴人工智能
亚博报导:本文作者魏秀参,本文首发于作者的知乎专栏《欲穷千里目》, AI研习社获其授权发布。

计算机视觉 (Computer Vision, CV) 是一门研讨怎么使机器 看 的科学。1963年来自MIT的Larry Roberts宣布的该范畴第一篇博士论文 Machine Perception of Three-Dimensional Solids (),标志着CV作为一门新式亚博人工智能方向研讨的开端。

在开展了50多年后的今日,咱们就来聊聊最近让计算机视觉具有「惹是生非」才能的几个风趣测验:1)超分辨率重建;2)图画上色;3)看图说话;4)人像康复;5)图画主动生成。能够看出,这五个测验层层递进,难度和兴趣程度也逐渐提高。(注:本文在此只谈视觉问题,不提过分详细的技能细节,若咱们对某部分感兴趣,往后再来独自写文章评论 :)

计算机视觉开端一门新式亚博人工智能

超分辨率重建 (Image Super-Resolution)

上一年夏天,一款名为 waifu 2x ()的岛国使用在动画和计算机图形学中着实火了一把。waifu 2x凭借深度「卷积神经网络」(Convolutional Neural Network, CNN) 能够将图画的分辨率提高2倍,一起还能对图画降噪。简略来说,就是让计算机「惹是生非」的填充一些原图中并没有的像素,然后让漫画看起来更明晰传神。咱们无妨看看下图,真想幼年时分看的就是如此高清的龙珠()啊!

不过需求指出的是,图画超分辨率的研讨始于2009年左右,只是得力于「深度学习」的开展,waifu 2x能够做出更好的作用。在详细练习CNN时,输入图画为原分辨率, 而对应的超分辨率图画则作为方针,以此构成练习的 图画对 (image pair),通过模型练习便可得到超分辨率重建模型。waifu 2x的深度网络原型根据香港中文大学汤晓欧教授团队的作业[1]。风趣的是,[1]中指出能够用传统办法给予深度模型以定性的解说。如下图,低分辨率图画通过CNN的卷积 (convolution) 和池化 (pooling) 操作后能够得到笼统后的特征图 (feature map)。根据低分辨率特征图,相同能够使用卷积和池化完成从低分辨率到高分辨率特征图的非线性映射 (non-linear mapping)。终究的进程则是使用高分辨率特征图重建高分辨率图画。实际上,所述三个进程与传统超分辨率重建办法的三个进程是共同的。

图画上色 (Image Colorization)

望文生义,图画上色是将本来「没有」色彩的是非图画进行五颜六色填充。图画上色相同凭借卷积神经网络,输入为是非和对应五颜六色图画的image pair,可是只是通过比照是非像素和RGB像从来断定填充的色彩,作用欠佳。由于色彩填充的成果要契合咱们的认知习气,比方,把一条汪星人的毛涂成鲜绿色就会让人觉得很奇怪。所以近期,早稻田大学宣布在2016年计算机图形学世界尖端会议SIGGRAPH上的一项作业[2]就在本来深度模型的根底上,加入了「分类网络」来预先断定图画中物体的类别,以此为 根据 再做以色彩填充。下图分别是模型结构图和色彩康复demo,其康复作用仍是较为传神的。别的,此类作业还可用所以非电影的色彩康复,操作时只需简略的将视频中每一帧拿出来作colorization即可。

看图说话 (Image Caption)

常说 图文并茂 ,文字是除图画外另一种描绘世界的办法。 近期,一项名为 image caption 的研讨逐渐升温起来,其主要使命是通过计算机视觉和机器学习的办法完成对一张图画主动地生成人类自然言语的描绘,即 看图说话 。值得一提的是,在本年的CV世界顶会CVPR上,image caption被列为了一个独自的session,其热度可见一斑。一般来讲在image caption中,CNN用来获取图画特征,接着将图画特征作为言语模型LSTM(RNN的一种)的输入,全体作为一个「end-to-end」的结构进行联合练习,终究输出对图画的言语描绘(见下图)。

现在image caption范畴的最好成果[3]来自澳大利亚University of Adelaide的Chunhua Shen教授()团队。与之前image caption作业比较,他们的改善与方才说到的色彩康复几乎有异曲同工之妙,相同是考虑使用图画中物体的类别作为较精准的 根据 来更好的生成自然言语描绘,即下图中的赤色框框圈起的部分。Image caption的急速开展不只加快了CV和NLP在AI大范畴内的融合,一起也为增强实际使用奠定了愈加坚实的技能根底。别的,咱们更乐于看到往后日趋老练的image caption技能嵌入到穿戴式设备上,那一天瞎子便能够直接的 看到光亮 。

人像康复 (Sketch Inversion)

就在六月初,荷兰科学家在arXiv上发布了他们的最新研讨成果[4] 通过深度网络对人脸概括图进行「康复」。如下图所示, 在模型练习阶段,首要对实在的人脸图画使用传统的线下边缘化办法取得对应人脸的概括图,并以原图和概括图组成的 图画对 作为深度网络的输入,进行相似超分辨率重建的模型练习。在猜测阶段,输入为人脸概括(左二sketch),通过卷积神经网络的层层笼统和后续的 恢复 能够逐渐把相片般的人脸图画康复出来(右一),与最左面的人脸实在图画比照,满足以假乱真。在模型流程图下还别的展现了一些人像康复的成果,左边一列为实在人像,中心列为画家手艺描绘的人脸概括图,并以此作为网络输入进行人像康复,终究得到右侧一列的康复成果 目测往后刑侦差人再也不必苦练美术了。

结语

现在借着「深度学习」的春风,计算机视觉中绝大多数使命的performance都被 刷 上了新高,甚至连 人像康复 , 图画生成 相似「惹是生非」的 奇谈 都能以较高质量地完成,着实让人们激动不已。不过尽管如此,事实上间隔所谓的推翻人类的AI 奇点 还适当悠远,而且能够预见,现阶段甚至适当长的一段时间内,计算机视觉或亚博人工智能还不或许做到真实意义上的「惹是生非」,即 自我创始 或称为 自我意识 。

但是,也十分幸亏咱们能够目击而且亲身经历这次计算机视觉甚至是整个亚博人工智能的革新浪潮,信任往后必定还会有更多「惹是生非」般的奇观发作。此时,咱们站在浪潮之巅,因而咱们兴奋不已、彻夜难眠。

References:

[1] Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang. Image Super-Resolution Using Deep Convolutional Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, Preprint, 2015.()

[2] Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa. Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification, In Proc. of SIGGRAPH 2016, to appear.()

[3] Qi Wu, Chunhua Shen, Lingqiao Liu, Anthony Dick, Anton van den Hengel. What value do explicit high level concepts have in vision to language problems, In Proc. of CVPR 2016, to appear.()

[4] Yağmur G l t rk, Umut G l , Rob van Lier, Marcel A. J. van Gerven. Convolutional Sketch Inversion, arXiv:1606.03073.()

[5] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. Generative Adversarial Nets, In Proc. of NIPS 2014.()

[6] Jianwen Xie, Song-Chun Zhu, Ying Nian Wu. Synthesizing Dynamic Textures and Sounds by Spatial-Temporal Generative ConvNet, arXiv:1606.00972.()


亚博人工智能发明商业价值的年代现已到来 但企业有必要战胜以下应战

35次阅览 2019-03-12

应该从哪些方面加强亚博人工智能人才的合理培育、规划、开展?

526次阅览 2019-03-12
上一篇:亚博:《智者有言》第18期:人工智能、5G、新能源……张进华解读两会科技热词 下一篇:亚博:构建人工智能未来法治体系