#文章仅代表作者观点,文章不代表IPRdaily立场#
发布:IPRdaily中文网(IPRdaily.cn)
作者:吴飞 上海微电子装备(集团)股份有限公司 创新业务主管
供稿:企业国际化智库
原标题:十万专利,弹指一挥!论专利智能分析和可视化方法之道
在科技高速发展的当代,无论是企业新产品开发或是科技人员研究创新,所面临的主要问题并不是信息太少,而是信息太多。以笔者所在单位开发半导体领域高端光刻机为例:纳米级工件台技术约1500件专利(专利数量指去除同族后的数量),浸没式光刻约2000件,极紫外EUV曝光约2000件。至今,整个行业累计专利数量约十万件,而且每年以4000-5000件的速度递增。面对如此浩如烟海的专利,企业传统的做法是让知识产权和研发工程人员们人工地去阅读和理解大量的专利,其实这是一种十分低效率和高成本的方式。
本文笔者基于科睿唯安公司旗下的德温特创新平台(Derwent Innovation),并结合多年技术研发和知识产权工作的心得分享一些方法,将从战略和战术两个层面,论述专利智能分析和可视化方法之道,以供各领域专家和业内同行批评指正。
01、
方法一:快速定位高引用专利
在巨大数量的专利面前,传统人力阅读耗时耗力,因此我们需要学会借助同行的洞察力和思维痕迹为我所用。基于德温特创新平台,可以很迅速地查询并获得相关领域专利数据和关键字段信息:包括专利的引用频次数量,并结合专利申请时间或优先权日期,可绘制如图1所示专利引用频次的时间分布。通过合理地对整体分布的曲线拟合,拟合曲线如图1红色曲线所示,可将在红色曲线上方的专利视为核心和高价值专利。这样就将原本数量级上千的专利范围缩小到仅20-30件核心专利,通常这些专利是早期有较高影响力的专利,并兼顾中期优秀的改进专利,将它们作为一个核心技术的专利群,可供知识产权和技术人员精读、理解和分析。
图1 某技术领域专利被引用频次的时间分布
(作者原创)
对于技术发明的普遍规则就是这样,早期的技术发明通常是系统级的核心技术概念和方案,发明等级也是最高的,但这一时期的系统及性能并不完善,专利数量也较少,如图2所示,发明等级和专利数量的进化关系趋势图。但正是这些早期的技术方案奠定了该技术领域的雏形和概貌,所以它们最有研究价值,并为后人广泛引用和借鉴。
图2 发明等级和专利数量的进化关系趋势图
02
方法二:生成高同族专利引用网络进化图
在专利价值的评价体系中(参考文献1)采用内部评估因素:同族专利数量和申请地域(如PCT及四国专利US、JP、EP和CN)。同时兼顾外部评价因素:引用的专利文献及被引用的专利文献,结合德温特创新平台(Derwent Innovation),以上数据可轻松获得。
作者采用Wolfram Mathematica平台(参考文献2)独立开发了专利分析和可视化软件平台。基于某技术领域或某企业的专利数据库,分析其高价值专利引用网络进化的全过程,如图3所示,其中上方彩虹色颜色条代表时间的指示条,由最早专利和最晚专利的申请时间构成时间维度。
图3 某企业高价值专利的引用网络进化动画
(作者原创)
图4 某企业高价值专利的引用网络进化图
(作者原创)
如图4某企业高价值专利的引用网络进化图所示,网络图中,节点直径代表其内部评价因数(同族专利数量或申请地域权重),节点颜色代表专利申请时间或优先权日期,节点间的连线伴有箭头指向代表专利间的引用关系。当鼠标移至某节点上方时会自动显示提示信息:如同族公开号、申请时间、同族数量、该专利文本的5组高频词组等信息,辅助分析者理解专利内容。
通过对该企业专利实施在时间和空间的分布的可视化,十分便于理解该企业的专利形成过程和对应研发创新战略的布局,同时也有助于本企业决策当前所应采取的知识产权战略部署和实施规划。
就企业级的专利分析工作需求而言,本领域人士应当都十分清楚行业领先者是谁。专利分析工作也一样,其实并不需要去分析许多的企业和机构,能够把本领域、本行业的领先的一、两家企业研究清楚,研究透彻,其实就足够好了。
03
方法三:活用德温特专利地图
科睿唯安旗下的德温特创新平台(Derwent Innovation),其分析版(Derwent Innovation Analyst)用户可使用Derwent Innovation的全部功能,包括专利地图和文本聚类以及60,000条记录的专利检索结果。专利地图就是一种非常有趣的工具。专利地图的实质是将专利的高频词汇通过词向量(Word Vector)方法投影到二维平面上生成一种可视化效果图。
举例而言,半导体设备领域荷兰ASML公司及德国Carl Ziess 公司同日本Nikon公司近20年来知识产权的诉讼官司不断,打了又和,和了再打。通过如图5专利地图的分析可十分清晰地看清双方专利的布局,以及“你中有我,我中有你”的交错地带。对于诉讼和争议点,外行可能看不懂、看不透,但业内专业人士结合专利地图一观便知,双方的“用武之地”和“用兵之道”。
图5 ASML VS Nikon的专利地图和布局
数据来源:Derwent Innovation
以上双方都是国际型的大公司,在行业内都具有举足轻重的地位,可谓棋逢对手、厮杀难解。而对大部分国内企业而言,恐怕还没有经历过国际知识产权纠纷的磨难。通过对国际大公司处理和处置同类案件过程的全方位观察,及具体细节的分析,其实能够为国内企业储备大量实战经验、方法和资源。
在我们看来,以上业内著名的知识产权的案件,正如同是在看一部正在直播的、惊心动魄的武侠热剧。当我们在津津有味地点评他国企业专利战火之余,也不免担忧自家企业知识产权的未来和命运。或者说,我们虽是在隔岸观火,但也绝不敢幸灾乐祸。
04
方法四:四重分组词云大法
以上属于战略层面的专利分析方法,然而数以百计的专利仍然不能脱离人的阅读和理解,但效率仍可大幅提高。如下作者从战术层面论述对单件专利的分析和处理。就专利本身而言,它仍是一个文本,借助于先进的自然语言处理方法和日趋成熟的人工智能算法,仍可以将一篇专利进一步地浓缩和提炼,进而提高人阅读专利的效率和精度。
词云(Word Cloud)是当下十分热门可视化技术之一,但具体应用仍有些区别和讲究。如图6左上角小图所示,生成了基于一个单词的词云(one-gram),该单词在专利文本中出现的频率,体现为该单词字体的大小。但其实一个个单词的信息量或者说信息熵是很低的,举例如单词plane(平面),什么平面?这个平面进一步是什么含义?它同阅读者脑海中的原有认知并没有什么直接关联。
通常在英语或汉语中,2-4个单词或汉字组成的词组具有更多的信息量和阅读价值。如图6右上角小图所示同一篇专利文本生成的多词(n-gram)词云比较而言,它则携带了更多能被人理解和接受的有效技术信息。举例在多词词云中,首先展示的是focal plane(焦面,光学术语)。那么焦面这个词组相比之前的平面的单词,它对技术和专利专家就更具备直接地可读性了,词义表达也精准多了。
图6 某美国专利的四重专利词云图
(作者原创)
再进一步分析,对某技术领域通常都会有些惯用熟知的专业词汇,这类语言可称为专业词汇或专业领域的惯用语言(Common Language), 如图6左下角小图所示,类似于focal plane,imaging lens的词组都是本领域技术人员非常熟悉的词汇,是描述该领域技术的基本语言,可能并不能完全或立刻反映该专利的技术特征和创新点。
因此还可以将这类的惯用语再进一步分离,就是有了如图6右下角小图所示的特殊唯一词的词云。当技术人员看到类似exposure time 或 stage moved relative image-recording 的时候,那么他就非常容易地能够猜想到这篇专利极可能涉及的发明点或创新点了。
当然在构建层次丰富的词云是需要基于特殊的专利和技术词汇数据库,作者在本企业经过长期积累和完善,生成包括:基于专利撰写的中英文词库、本领域技术的数据库、本领域权利要求及法律的数据库、本领域技术名称的中英文对照及缩略语词库,并通过区别配置和优化部署词库,为本领域每篇核心专利都配套定制的一张词云页,知识产权或技术人员通常只要花10秒钟,扫一眼词云页,即可判断是否有必要精读某篇专利。又或是,在精读前就已预先把握了重点词汇明白这篇专利具体需要精读那些细节。这样极大程度地提高人对每篇专利阅读地效率和精度。
05
方法五:实时洞察技术概念词汇
知道一个技术名称和掌握一项技术毕竟是两码事,但是这并不妨碍专利和技术报新和法律预警的功能。本人在企业的实践过程中,认为可以这样操作。定期将本领域高频和新鲜的技术词汇加以提炼,并采用机器学习算法对不同技术领域进行分类,中英文之前采用机器翻译算法将英文专业词汇翻译成中文词汇,随后将这些分类整理后的专利技术词汇推送给不同的相关领域专家和技术人员,以准确传达行业的技术趋势和动态变化。
此外,更重要的是企业内长期的人才培养和训练,我司已在企业内部构建并部署上线了本领域中英文专业词汇及缩略语数据库,技术人员可通过终端实时查询最新的专业词汇,并可理解该词汇语义和技术概念以及这些词的来源(最新专利和文献),该数据库由专人定期维护并同步更新。
如图7所示,为一幅2018年狗年小狗外形轮廓的词云图,左上角彩色词组代表不同的专业领域的词汇,不同的颜色对应词云图中不同领域的技术词汇。
图7 某行业专利数据库高频词组词云图
(作者原创)
总结
“十万专利、弹指一挥”,在今天看来或许有些夸大,但也绝非是儿戏妄言。伴随计算机硬件性能提升和人工智能技术的迅猛发展,或许也就是在几年后,采用计算机和人工智能算法自动地解读十万件专利、分析十万件专利、应对十万件专利,也仅需弹指一挥鼠标或键盘。
又或许,到那时VR(虚拟现实)、AR(增强现实)和MR(混合现实)技术也足够好了,就连鼠标和键盘都早已淘汰,凌空弹指一挥……足矣。
致谢
致谢科睿唯安全球知识产权首席科学家Bob Stembridge来华对作者的指点并提供帮助;以及感谢科睿唯安的诸位同仁:王琦博士、王丽娟经理所提供的帮助和支持。
附:【参考文献】
[1] H. Ernst, N. Omland, The Patent Asset Index – A New Approach to Benchmark Patent Portfolios, World Patent Information (33) , 2011, pp.34–41.
[2] 吴 飞, Mathematica演示项目笔记,清华大学出版社,2010.
【作者简介】
吴飞,任职于上海微电子装备(集团)股份有限公司,创新业务主管,发表专著1部,获授权发明专利24篇。
发布:IPRdaily中文网(IPRdaily.cn)
作者:吴飞 上海微电子装备(集团)股份有限公司 创新业务主管
供稿:企业国际化智库
编辑:IPRdaily赵珍 校对:IPRdaily纵横君
推荐阅读
“投稿”请投邮箱“iprdaily@163.com”
「关于IPRdaily」
IPRdaily成立于2014年,是全球影响力的知识产权媒体+产业服务平台,致力于连接全球知识产权人,用户汇聚了中国、美国、德国、俄罗斯、以色列、澳大利亚、新加坡、日本、韩国等15个国家和地区的高科技公司、成长型科技企业IP高管、研发人员、法务、政府机构、律所、事务所、科研院校等全球近50多万产业用户(国内25万+海外30万);同时拥有近百万条高质量的技术资源+专利资源,通过媒体构建全球知识产权资产信息第一入口。2016年获启赋资本领投和天使汇跟投的Pre-A轮融资。
(英文官网:iprdaily.com 中文官网:iprdaily.cn)
本文来自企业国际化智库并经IPRdaily.cn中文网编辑。转载此文章须经权利人同意,并附上出处与作者信息。文章不代表IPRdaily.cn立场,如若转载,请注明出处:“http://www.iprdaily.cn/”
文章不错,犒劳下辛苦的作者吧