#本文仅代表作者观点,不代表IPRdaily立场,未经作者许可,禁止转载#
来源:IPRdaily中文网(iprdaily.cn)
作者:北京专猎前沿技术有限公司
原标题:是谁在赋予机器自然视觉的能力?——计算机视觉领域专利格局及重要科研成果综述
从上世纪60年代算起,计算机视觉的历史也不过半个多世纪,跟整个人类历史相比,眨眼之瞬而已。然而,即使在这半个多世纪的时间里,计算机视觉已经从最开始简单地处理数字图像发展到现在可以在多种情景下准确地进行人脸识别,目标跟踪等。随着算法的更迭、算力的提升、数据的爆发以及未来5G带来的高速网络,计算机视觉的发展和应用更有着充满想象的巨大空间。
何为计算机视觉
从2016年AlphaGo以4:1战胜世界围棋冠军李世石到2017年人工智能被正式写入国家“十三五”规划纲要,再到2021年“十四五”规划将人工智能列为前沿科技领域的“最高优先级”,人工智能已在风口迎风飞翔多年,成为当下最热门的科学技术。作为人工智能的三大核心技术之一(另外两项为自然语言处理和语音识别),计算机视觉更是迎来了蓬勃发展。
日常生活中,我们经常使用的人脸解锁、刷脸支付、人脸身份验证、智能美颜、拍摄背景虚化等,其背后都是计算机视觉技术在支撑。除此之外,公共安防、无人驾驶、医疗诊断、文化旅行、教育、农业等领域,都有计算机视觉的身影,可以说计算机视觉在商业化应用上已百花齐放,渗透到生活的方方面面。根据Tractica预测,到2025年,全球计算机视觉市场规模(包括软件、硬件和服务收入)将从2016年的11亿美元增长到262亿美元。
图 1 2016-2025年计算机视觉市场规模_Tractica预测数据
数据来源:Tractica
何为计算机视觉?计算机视觉是以图像(视频)为输入,以对环境的表达(representation)和理解为目标,研究图像信息组织、物体和场景识别、进而对事件给予解释的学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)两大部分。物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。从本质上讲,计算机视觉就是研究视觉感知问题,“赋予机器自然视觉能力”。
透过专利看计算机视觉的发展史
图 2 全球计算机视觉领域专利申请趋势
图 3 全球计算机视觉领域专利申请主要受理局分布
注:由于发明专利申请的公开相对于申请日而言有滞后期,一般为18个月,因而2019、2020年的专利申请尚有部分未公开,与实际情况相比,其数据有一定程度的偏低。
同其他科学技术一样,计算机视觉的发展也是由最初的萌芽期一路走到了如今的井喷发展期(图2)。
技术萌芽期
20世纪60年代,尤其是1965年以后,是计算机视觉的技术萌芽期。1966年,人工智能学家Minsky在给学生布置的作业中,要求学生通过编写一个程序让计算机告诉我们它通过摄像头看到了什么,这被认为是计算机视觉最早的任务描述[1]。从此,计算机视觉的研究序幕拉开,并将迎来属于它自己的跌宕起伏波澜壮阔的历史篇章。
1965年-1968年,全球计算机视觉相关专利申请总数在2000篇以下,并以每年百篇左右的数量递增着。这一时期的研究集中在美欧两地(图3),美国的IBM一枝独秀,是最主要的研究企业;其次为德国的西门子(图4)。
图 4 1965-1968年全球计算机视觉领域专利申请Top15
慢速增长期
20世纪60年代末至90年代,随着现代电子计算机的出现以及对计算机视觉研究的深入,人们开始尝试不同的算法。计算机视觉研究进入了相对慢速但“百家争鸣”般的增长期,全球专利申请数量以年均10%左右的速度增长。
虽然在七十年代中期美国的MIT人工智能实验室正式开设计算机视觉课程,在1982年英国的David Marr发表了《视觉》一书,标志着计算机视觉成为一门独立学科,但是计算机视觉的研究已经西风东渐,日本成为全球最主要、最大的研究地。从1970到1990年左右,全球50%以上的专利申请都出自日本,而同时期美国的专利申请数量占全球专利申请总数的10%不到,而且无论是专利申请数量还是专利申请增长速度,日本都远超欧美(图3)。即使1990年以后,美国的研究开始发力,历年专利申请数量呈线性增加,欧洲和韩国地区的专利申请数量也在逐年递增,但是日本的专利申请数量依然占有绝对优势。这一时期,在全球计算机视觉领域专利申请排名前15的企业中,除美国的IBM(第7)和荷兰的皇家飞利浦(第14)外,其余全是日本企业(图5),佳能、东芝、日立、富士通、日本电气等响当当的企业高居榜单前5。
另外,现代CNN网络中卷积层+池化层的最初范例及灵验来源,世界上第一个神经网络——Neocognitron[2],也是由日本计算科学家Kunihiko Fukushima在1980年提出的。可以说,这是属于日本的高光时刻。
图 5 1969-1999全球计算机视觉领域专利申请top15
平稳过渡期
21世纪前10年,得益于计算机算力的飞跃式提升,以及互联网和社交媒体的发展,全球数据达到ZB级别,计算机视觉的算法研究从“百家争鸣”逐渐聚焦到机器学习。计算机视觉领域专利申请经过世纪初的猛增后,进入一个平稳过渡期,历年的专利申请数量基本没有增加,徘徊在35000件左右。虽然这一时期全球计算机视觉领域专利申请排名前15中,日本企业依然占有11席(图6),但日本专利申请的历年数量呈下降趋势,计算机视觉的研发由集中在日本渐渐地转向以美欧日韩为主的多地发展(图3)。荷兰的皇家飞利浦在医疗健康领域的重点突破,美国的微软在中国设立微软亚洲研究院专门研究计算机视觉,以及韩国的三星经过20世纪90年代的研究积累,使得他们跻身进2000-2009年全球计算机视觉领域专利申请排名前10(图6)。
图 6 2000-2009年全球计算机视觉领域专利申请Top15
同一时期,大洋彼岸的中国,虽然专利申请数量在逐年增加,但其专利申请基本来自诸如索尼、皇家飞利浦、三星、微软等海外巨头在中国的布局,中国计算机视觉领域专利申请前15中,还没有中国企业的名字(图7)。中国企业的计算机视觉研究还处于萌芽状态。
图 7 2000-2009年中国计算机视觉领域专利申请top15
这段时间,具有标志性的事件为:
2006年,Geoffrey Hinton教授提出了深度学习的概念,并通过逐层训练的方法解决了深度神经网络难以训练的问题[2]。
2009年,李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,发布了ImageNet数据集,这是为了检测计算机视觉能否识别自然万物,回归机器学习,克服过拟合问题,经过三年多筹划组建完成的一个大的数据集。ImageNet是计算机视觉发展的重要推动者,和深度学习热潮的关键推动者,将目标检测算法推向了新的高度[3]。
快速增长期
2010-2015年,计算机的算力遵循着“摩尔定律”稳步提升,互联网及社交媒体的进一步普及带来爆发式增长的大数据,深度学习算法开始流行,成为计算机视觉领域最主要的算法。计算机视觉也进入了一个快速发展期,全球专利申请数量以年均17%左右的速度增长。其中,美国专利申请数量的年均增长率约为23%,美国正式取代日本,成为计算机视觉领域专利申请量最大的国家。在2010-2015年全球计算机视觉领域专利申请前10名中,美国企业占5席,分别为微软(第2),谷歌(第5),高通(第6),IBM(第7)和Intel(第9)。中国专利申请数量更是以年均33%左右的速度增长,中国企业的计算机视觉研究也从小芽长成了一棵小苗。2010-2015年全球计算机视觉领域专利申请前15名榜单中,也首次出现了中国企业的身影:联想,第15(图8)。此外,韩国的三星依靠其庞大的家电和手机产品整合计算机视觉技术,高居榜首位置;日本的索尼、佳能、富士通、日本电气、理光等5家企业也榜上有名。
图 8 2010-2015年全球计算机视觉领域专利申请Top15
这一时期,具有里程碑式的标志事件为[3]:
2012年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络(CNN)”,也即现在众所周知的AlexNet,将图像识别错误率降低了10%,赢得了当年的 ILSVRC竞赛(是机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平)这是史上第一次有模型在 ImageNet 数据集表现如此出色。自那时起,CNN成了家喻户晓的名字。
2014年,蒙特利尔大学提出生成对抗网络(GAN):拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据,而另一个网络则试图将假数据区分出来。
井喷发展期
2016年及以后,计算机视觉技术逐渐赋能各行业,应用场景纷纷落地。广阔的商业化应用为计算机视觉的发展注入强劲动力,至此,计算机视觉领域的研究进入井喷状态,如春风拂地万物在不经意间复苏一般,全球的研发格局也在悄然地发生变化。
2016-2018年间,全球计算机视觉领域专利申请年均增长率超过20%(2019及2020年的因专利申请到公开的时间迟滞原因,在此未统计),中美日韩欧成为主要的研发阵地。其中,中国专利申请的年均增长率超过40%,贡献了全球最主要的专利申请增长,同时,中国也超越美国,成为新一届的专利申请最大的国家。2016-2020年全球计算机视觉领域专利申请前15名中,美国企业5家、日本企业3家、韩国企业1家,而中国企业有6家,开始占据明显地位。这6家中国企业分别是腾讯(第2),OPPO(第5),平安科技(第11),华为(第12),阿里巴巴(第14)和商汤科技(第15)。腾讯和OPPO更是超过微软、佳能、索尼等老牌企业,跻身进前5(图9)。
作为国内的传统互联网巨头,一直以推动科技创新为愿景的腾讯充分集成利用自身的数据资源、人才资源和软硬件技术基础,打造出风靡全国的人工智能系统和平台。旗下的腾讯优图实验室从2012年开始专注计算机视觉技术研发,其在2017年研发出的“优图祖母模型”以及“目标关联算法”在多个比赛中排名第一甚至刷新世界纪录;在2020年输出超过50篇优秀论文,入选多个行业顶级学术会议,内容涵盖目标跟踪、行人重识别、视频识别等多个热门及前沿领域。
以拍照手机出名的OPPO已在图像处理上深耕多年,2012年OPPO首次在手机自拍上实现了美颜拍摄功能,开创了“手机自拍美颜”时代;2018年,OPPO研究院在深圳成立,计算机视觉是其重要的研究方向之一;2020年的全球计算机视觉顶级会议CVPR (Conference on Computer Vision and Pattern Recognition) 上,OPPO共获两项第一,两项第三。
图 9 2016-2020年全球计算机视觉领域专利申请Top15
总体来说,这一时期的美国引领着主流技术发展方向;日本的高光时刻已经一去不复返,韩国靠着三星撑起半边天,而中国的计算机视觉研究从小苗开始生长出更多的枝丫。
最新的计算机视觉研发格局
分析2020年公开的计算机视觉领域的专利申请情况,得以管中窥豹,了解最新的计算机视觉研发格局。
国际格局
图 10 2020年公开的全球计算机视觉领域专利申请Top15
2020年公开的全球计算机视觉领域专利申请中,中美日韩的企业占据着专利申请数量的前15(图10),其中美国企业5家,日本企业2家,韩国企业2家,中国企业6家。得益于国内新基建的建设以及丰富的计算机视觉应用场景,中国在企业数量和专利申请数量上大有后来追上之势。
前10名的申请人中:
韩国的三星因其广泛的产品线使得计算机视觉拥有广阔的落地场景,其专利申请数量稳列第一位。美国的IBM、微软、谷歌、苹果分别位于第3、4、5和第9位。IBM一直注重人工智能方面的基础性研究,从20世纪60年代开始就已经是计算机视觉领域专利申请前15榜单中的常客;微软和谷歌是目前人工智能技术的领军企业,他们掌握和引领着主流技术方向,目前全球的人工智能开发方案中有相当大的比例是基于微软、谷歌等发布的基础框架型构架而进行的;苹果在2010年以后收购了十几家人工智能公司,将人工智能服务于自身的系列产品,提高现有产品体验。日本的索尼与佳能分别位于第6和第7位。他们是传统的光学产品大厂,计算机图像处理方面有深厚的研发底蕴,其研发实力在上世纪七八十年代已经显现。
中国的企业除前面提到的腾讯、OPPO分别位列第2和第8外,成立于2014年的商汤科技以迅雷之势超过美国的Intel、日本的富士通和国内的华为、平安科技,进入前10名,在一众国内外声名显赫的科技巨头企业中格外显眼。而商汤科技的成绩不止于此:2018年,商汤科技被中国科技部指定为首个“智能视觉”国家新一代人工智能开放创新平台;2019年的ICCV (the International Conference on Computer Vision) 上,商汤科技及其联合实验室以入选57篇论文的成绩备受瞩目;2020年的CVPR上,商汤科技的入选论文数超过微软、Facebook等科技巨头,并拿下了CVPR2020 ActivityNet 时空动作定位赛道、动作分类赛道,以及 CVPR 2020 NTIRE 竞赛等3项世界冠军。自成立以来,商汤科技已在各种重要赛事中,斩获了60多个世界第一。
国内格局
图10中上榜的6家中国企业,在一定程度上体现出了我国计算机视觉的研究格局:这6家企业中,有拥有数据资源、人才资源和软硬件技术基础优势的互联网巨头BAT(百度,阿里巴巴,腾讯),有拥有庞大智能应用终端承载计算机视觉技术的OPPO、华为(根据国际知名市场分析机构Counterpoint的数据显示:2021年1月OPPO、华为为国内前二智能手机品牌,分别占据国内智能手机份额的21%和20%),以及有专注于计算机视觉基础研究与应用的商汤科技。这些企业,代表了国内计算机视觉的最新、最强的研究实力。
另一方面,企业的海外专利申请是为其业务拓展保驾护航,海外布局策略和其业务拓展策略是一致的。2020年公开的专利申请中,中国企业在中国大陆之外的专利申请量排名前5名分别为腾讯、华为、阿里巴巴、OPPO、商汤科技(图11)。腾讯和阿里巴巴在中国大陆之外的布局策略比较一致,中国香港为其主要布局地,其次为专利五局中的美日韩欧。华为在中国大陆之外布局策略主要在专利五局中的美日韩欧,美欧为主场。OPPO与商汤科技在中国大陆之外布局策略类似,除了美日韩欧外,在中国香港、中国台湾等地也有较多的布局,但相较起来,商汤科技在中国大陆之外布局更加均衡,在一些未来新兴市场,比如新加坡、印度,商汤科技也提前进行了布局,拥有较多的专利申请。
图 11 2020年公开的中国企业在中国大陆之外计算机视觉领域专利申请排名Top10
基础算法研究格局
计算机视觉的发展有四大要素:算法、算力、数据和场景。万丈高楼平地起,地基是基础。而基础算法就是计算机视觉这座高楼的地基。IPC分类号中,G06N对应的分类号包括了目前主流的计算机视觉算法——深度学习所涉及的主要技术,即:G06N3/02(采用神经网络模型),G06N3/04(体系结构,例如,互连拓扑),G06N3/08(学习方法),G06N20/00(机器学习)。2020年公开的全球计算机视觉领域专利申请中,筛选出G06N下的专利申请,得到全球专利申请数量排名前10的企业(图12):除IBM、三星、谷歌、微软、Intel5家老牌企业外,其余5家均为中国企业,腾讯(第2)、百度网讯(第5)、平安科技(第7)、商汤科技(第8)、支付宝(第9)赫然在列,彰显了中国计算机视觉算法研究的实力。与其他业务方向广泛的企业不同,成立只有6年历史的商汤科技专注于计算机视觉领域的基础研究和市场应用,在计算机视觉算法研究方面持续取得不菲成绩,其于2014年发表的DeepID系列人脸识别算法,在诞生之初就超过了Facebook同期发表的Deepface算法, 将人脸识别准确度提高到98.52%,在全球首次超过人眼识别率,突破工业化应用的红线。其最新的DeepID-3算法已达到了99.53%的人脸识别准确率。在国际计算机视觉领域研究的激烈竞争中,商汤科技可以与谷歌、微软等国际大企业比肩,为中国企业竖起一面旗帜。
图 12 2020年公开的全球深度学习算法专利申请排名Top10
总结
从上世纪60年代算起,计算机视觉的历史也不过半个多世纪,跟整个人类历史相比,眨眼之瞬而已。然而,即使在这半个多世纪的时间里,计算机视觉已经从最开始简单地处理数字图像发展到现在可以在多种情景下准确地进行人脸识别,目标跟踪等。
这个过程中,随着时间的推移,IBM,西门子,东芝,索尼,佳能,微软,谷歌,腾讯,OPPO, 商汤科技等企业的身影依次出现在我们眼前,是他们让机器“睁开眼睛看见世界”,逐渐地赋予机器自然视觉的能力。
2017年,国务院印发的《新一代人工智能发展规划》中明确指出新一代人工智能发展分三步走的战略目标,到2030年使中国人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。随着算法的更迭、算力的提升、数据的爆发以及未来5G带来的高速网络,计算机视觉的发展和应用更是有充满想象的巨大空间。我们期待在赋予机器自然视觉能力的这条路上有更多中国企业的身影。
注1:除图1外,以上各图的数据均来自智慧芽。
注2:本文关注的是计算机视觉领域企业的研究情况,各图的排名中未考虑高校。
参考资料
[1] 十分钟读完人工智能的三生三世
https://baijiahao.baidu.com/s?id=1601076075337670392&wfr=spider&for=pc
[2] 计算机视觉发展史 https://zhuanlan.zhihu.com/p/142927311
[3] 计算机视觉简述
https://blog.csdn.net/lanmengyiyu/article/details/109648345
来源:IPRdaily中文网(iprdaily.cn)
作者:北京专猎前沿技术有限公司
编辑:IPRdaily王颖 校对:IPRdaily纵横君
注:原文链接:是谁在赋予机器自然视觉的能力?——计算机视觉领域专利格局及重要科研成果综述(点击标题查看原文)
如有想看文章主题内容,欢迎留言评论~
「关于IPRdaily」
IPRdaily是具有全球影响力的知识产权媒体,致力于连接全球知识产权与科技创新人才。汇聚了来自于中国、美国、欧洲、俄罗斯、以色列、澳大利亚、新加坡、日本、韩国等15个国家和地区的高科技公司及成长型科技企业的管理者及科技研发或知识产权负责人,还有来自政府、律师及代理事务所、研发或服务机构的全球近100万用户(国内70余万+海外近30万),2019年全年全网页面浏览量已经突破过亿次传播。
(英文官网:iprdaily.com 中文官网:iprdaily.cn)
本文来自IPRdaily中文网(iprdaily.cn)并经IPRdaily.cn中文网编辑。转载此文章须经权利人同意,并附上出处与作者信息。文章不代表IPRdaily.cn立场,如若转载,请注明出处:“http://www.iprdaily.cn/
文章不错,犒劳下辛苦的作者吧