#本文仅代表作者观点,不代表IPRdaily立场,未经作者许可,禁止转载#
“本文结合审查指南给出的审查示例以及实践中遇到的实际案例,对所谓‘具有确切技术含义的数据’的认定进行初步探讨。”
来源:IPRdaily中文网(iprdaily.cn)
作者:周衡威 中国贸促会专利商标事务所
一、引言
人工智能技术的迅速发展带来了相关领域的专利申请数量显著增长。对于涉及人工智能或机器学习算法的发明专利申请,客体问题往往是通往专利授权的第一道门槛。客体问题涉及对申请方案是否构成技术方案的判断。针对此问题,2024年1月20日起生效的修订版《专利审查指南》新增了用于判断此类专利申请的方案是否构成技术方案的方法。然而,这些判断方法仍存在一些细节有待在实践中逐步厘清,如何认定具有确切技术含义的数据便是其中之一。
二、关于客体问题的相关规定
专利法第二条第二款规定“发明,是指对产品、方法或者其改进所提出的新的技术方案”。
审查指南进一步明确“技术方案”是指对要解决的技术问题所采取的利用了自然规律的技术手段的集合。当一项权利要求记载了对要解决的技术问题采用了利用自然规律的技术手段,并且由此获得符合自然规律的技术效果,则该权利要求限定的解决方案属于技术方案。相反地,未采用利用自然规律的技术手段解决技术问题以获得符合自然规律的技术效果的方案,不属于技术方案。
针对包含算法特征的发明专利申请的审查,审查指南特别规定了判断该申请所请求保护的方案是否构成技术方案的三种判断方法,其中第一种判断方法为:“如果权利要求中涉及算法的各个步骤体现出与所要解决的技术问题密切相关,如算法处理的数据是技术领域中具有确切技术含义的数据,算法的执行能直接体现出利用自然规律解决某一技术问题的过程,并且获得了技术效果,则通常该权利要求限定的解决方案属于专利法第二条第二款所述的技术方案。”
在现行实践中,我们观察到前述标准被简化为判断权利要求的方案是否限定了具有确切技术含义的数据。如果方案中限定了这样的数据,则审查员通常就会接受该方案为技术方案。然而,对于哪些数据属于具有确切技术含义的数据,审查指南尚未给出明确的定义。在此,笔者结合审查指南给出的审查示例以及实践中遇到的实际案例,对所谓“具有确切技术含义的数据”的认定进行初步探讨。
三、关于具有确切技术含义的数据的认定
(1)用于表征算法或模型自身或其处理对象的抽象数据不是具有确切技术含义的数据
具有确切技术含义的数据这个概念的提出,首先就是为了排除表征人工智能或机器学习算法本身的参数(例如,拓扑结构参数),从而防止特定申请人对规则或算法的无边界垄断。除此之外,算法的输入、输出或中间结果,如果只具有算法层面上的抽象含义(例如,标签值、特征值、分类或预测结果),也不被认定为具有确切技术含义的数据。针对此类数据,审查指南给出了以下示例和分析:
【审查示例1】一种建立数学模型的方法,其特征在于,包括以下步骤:
根据第一分类任务的训练样本中的特征值和至少一个第二分类任务的训练样本中的特征值,对初始特征提取模型进行训练,得到目标特征提取模型,其中,所述第二分类任务是与所述第一分类任务相关的其他分类任务;
根据所述目标特征提取模型,分别对所述第一分类任务的每个训练样本中的特征值进行处理,得到所述每个训练样本对应的提取特征值;
将所述每个训练样本对应的提取特征值和标签值组成提取训练样本,对初始分类模型进行训练,得到目标分类模型;
将所述目标分类模型和所述目标特征提取模型组成所述第一分类任务的数学模型。
对于该方案,审查指南指出“训练样本的特征值、提取特征值、标签值、目标分类模型以及目标特征提取模型都是抽象的通用数据……该方案是一种抽象的模型建立方法,其处理对象……不涉及与具体技术领域的结合”。可见,用于表征算法或模型自身或其处理对象的抽象数据不被接受为具有确切技术含义的数据,仅限定了此类数据的处理的方案也不被接受为技术方案,因此不属于专利法保护的客体。
(2)与具体技术领域结合的数据一般被视为具有确切技术含义的数据
如果算法的处理对象(例如,算法的输入、输出或中间结果)不只具有算法层面上的抽象含义,而是与具体技术领域结合,则这样的数据一般被视为具有确切技术含义的数据,相应的方案也被认可为技术方案。针对此类数据,审查指南给出了以下示例和分析:
【审查示例2】一种卷积神经网络CNN模型的训练方法,其特征在于,所述方法包括:
获取待训练CNN模型的初始模型参数,所述初始模型参数包括各级卷积层的初始卷积核、所述各级卷积层的初始偏置矩阵、全连接层的初始权重矩阵和所述全连接层的初始偏置向量;
获取多个训练图像;
在所述各级卷积层上,使用所述各级卷积层上的初始卷积核和初始偏置矩阵,对每个训练图像分别进行卷积操作和最大池化操作,得到每个训练图像在所述各级卷积层上的第一特征图像;
对每个训练图像在至少一级卷积层上的第一特征图像进行水平池化操作,得到每个训练图像在各级卷积层上的第二特征图像;
根据每个训练图像在各级卷积层上的第二特征图像确定每个训练图像的特征向量;
根据所述初始权重矩阵和初始偏置向量对每个特征向量进行处理,得到每个训练图像的类别概率向量;
根据所述每个训练图像的类别概率向量及每个训练图像的初始类别,计算类别误差;
基于所述类别误差,对所述待训练CNN模型的模型参数进行调整;
基于调整后的模型参数和所述多个训练图像,继续进行模型参数调整的过程,直至迭代次数达到预设次数;
将迭代次数达到预设次数时所得到的模型参数作为训练好的CNN模型的模型参数。
对于该方案,审查指南指出“(该方案)明确了模型训练方法的各步骤中处理的数据均为图像数据以及各步骤如何处理图像数据,体现出神经网络训练算法与图像信息处理密切相关。该解决方案所解决的是如何克服CNN模型仅能识别具有固定尺寸的图像的技术问题,采用了在不同卷积层上对图像进行不同处理并训练的手段,利用的是遵循自然规律的技术手段,获得了训练好的CNN模型能够识别任意尺寸待识别图像的技术效果。因此,该发明专利申请的解决方案属于专利法第二条第二款规定的技术方案,属于专利保护客体”。
由此可见,图像数据是被审查指南明确认可的一类具有确切技术含义的数据。除此之外,我们观察到一些数据在内容或用途上体现了具体技术领域,也同样被接受为具有确切技术含义的数据。例如,从数据内容上看,已知可被接受的具有确切技术含义的数据包括图像数据、语音数据、传感器数据、文本数据等。自然地,具有更为细分领域的内容的数据(例如,人脸数据、信道测量数据等)也是可接受的。从数据用途上看,采用“用于人脸识别的数据”或“用于化合物预测的数据”之类表述也可以被认为限定了数据与具体技术领域结合,从而限定了具有确切技术含义的数据。可见,对于数据与具体技术领域的结合方式,现行审查实践似乎给予了申请人相对大的空间,而未拘泥于本领域固有或已知的有限数据形式。
审查示例2在权利要求中详细描述了模型的输入、中间结果和输出等多个阶段所处理的与图像相关的数据,并且还提供了对技术效果的详尽论证。然而,在现行实践中,为了克服客体问题,申请人通常只需要限定算法或模型的输入数据属于具有确切技术含义的数据,而不必对算法的中间结果、最终输出或技术效果中的每一方面都进行限定或分析。
例如,在以下实际案例(经简化)的审查中,原始方案所限定的元特征及其值、推理数据集、元模型、分数均属于表征模型本身或其处理对象的抽象数据,由此引发了客体问题。在答复审查意见时,申请人仅通过限定作为输入的推理数据集为图像集合,就克服了客体问题。
【实际案例1】一种方法,包括:
对于多个元特征中的每个元特征,从推理数据集包含的多个数据单元导出相应的元特征值,其中所述推理数据集包括图像集合,每个元特征值表征作为整体的所述推理数据集;
对于多个可训练的算法中的每个算法:
对于能够预测该算法的性能的多个元模型中的每个元模型,利用所述多个元特征值中的相应的元特征值作为输入来调用所述元模型,从而计算所述元模型的分数;以及
基于所述分数选择所述多个可训练的算法中的一种或多种算法以进行训练。
(3)具有确切技术含义的数据应在实质上与具体技术领域结合
某些数据即使在形式上表现为某一技术领域的常见数据表示形式,但实质上仍然是抽象的数据内容,则也可能不被接受为具有确切技术含义的数据。下面给出的审查指南中的审查示例3以及实际案例2(经简化),可以体现出这种差别。
【审查示例3】一种基于关系注意力的知识图谱推理方法,所述方法包括:
获取知识图谱中节点的初始嵌入表示,将所述初始嵌入表示转换到高维空间,得到高维嵌入表示,所述节点为知识图谱中的实体,所述知识图谱是对知识进行实体识别和关系抽取构建的,所述知识是问答系统、语义搜索中相关联的知识,所述实体是利用命名实体识别工具从自然语言文本中获取的文本数据,所述初始嵌入表示是所述文本数据通过词嵌入模型得到的向量;
获取所述知识图谱中目标节点的邻居节点集合,根据所述目标节点与所述邻居节点集合中邻居节点的关系类型,构建邻居子图;
根据所述目标节点的高维嵌入表示和所述邻居子图中邻居节点的高维嵌入表示,得到所述目标节点嵌入邻居子图中信息的邻居嵌入表示;
将所述目标节点的高维嵌入表示与所述邻居嵌入表示进行聚合,得到目标节点的聚合嵌入表示;根据每个所述邻居子图的第一注意力分值,对所述聚合嵌入表示进行融合,得到所述目标节点的融合嵌入表示;
根据所述融合嵌入表示,计算所述目标节点对应三元组的得分,根据得分进行三元组推理。
对于该方案,审查指南指出“该方法各步骤中处理的数据是自然语言中的文本数据或者语义信息等技术数据”。也就是说,从自然语言中抽取的文本数据和语义信息被认为属于具有确切技术含义的数据。
【实际案例2】一种方法,包括:
接收输入图(graph),其中所述输入图包括多个顶点和多个边缘,每个顶点与顶点属性相关联;
为每个顶点生成顶点到属性的映射,所述映射将所述顶点映射到顶点属性签名;
生成多个边缘单词,每个边缘单词对应于一个或多个边缘,每个边缘起始于具有特定顶点属性签名的第一顶点,并且终止于具有特定顶点属性签名的第二顶点,并且每个边缘单词被表示为第一顶点的特定顶点属性签名与第二顶点的特定顶点属性签名的级联;
生成多个句子,每个句子包括沿着所述输入图中的路径直接连接的边缘单词;
使用所述多个句子和所述多个边缘单词,使用文档向量化模型来生成表示所述输入图的机器学习向量。
在该方案的审查中,尽管输入图被结构化为多个单词和多个句子,但是这些数据并未被认可为具有确切技术含义的数据。这是因为,在上述具体方案中,单词和句子实际包含的内容并非是自然语言数据,而是输入图的顶点属性签名。作为一种数据结构,图本身可以包含任意技术领域的数据。顶点属性签名也属于抽象数据。因此,图和顶点属性签名并不与具体技术领域相结合。即使单词和句子是自然语言领域的常见数据表示形式,仅套用这种形式来容纳抽象数据也可能不足以使该数据成为具有确切技术含义的数据。
四、总结与启示
虽然审查指南未给出具有确切技术含义的数据的定义,但基于现行实践的总结,我们可以认为该数据首先排除了用于表征算法或模型自身或其处理对象的抽象数据。进一步地,具有确切技术含义的实际体现为与具体技术领域相结合。这种结合至少可以通过数据内容或数据用途来在权利要求中限定。无论采用何种限定方式,数据与具体技术领域的结合应当是实质性的而非形式的契合。
有鉴于此,在撰写包含人工智能或机器学习算法特征的发明专利申请时,不能仅对用于表征算法或模型自身或其处理对象的抽象数据进行描述,而是应当有意识地描述算法在一个或多个具体技术领域的实际应用。在描述技术领域时,至少应当体现出算法或模型的输入数据与该领域的实质结合。通过这种方式,可以为克服潜在的客体问题做好铺垫。
(原标题:浅谈客体审查实践中对于具有确切技术含义的数据的认定)
来源:IPRdaily中文网(iprdaily.cn)
作者:周衡威 中国贸促会专利商标事务所
编辑:IPRdaily辛夷 校对:IPRdaily纵横君
注:原文链接:浅谈客体审查实践中对于具有确切技术含义的数据的认定(点击标题查看原文)
「关于IPRdaily」
IPRdaily是全球领先的知识产权综合信息服务提供商,致力于连接全球知识产权与科技创新人才。汇聚了来自于中国、美国、欧洲、俄罗斯、以色列、澳大利亚、新加坡、日本、韩国等15个国家和地区的高科技公司及成长型科技企业的管理者及科技研发或知识产权负责人,还有来自政府、律师及代理事务所、研发或服务机构的全球近100万用户(国内70余万+海外近30万),2019年全年全网页面浏览量已经突破过亿次传播。
(英文官网:iprdaily.com 中文官网:iprdaily.cn)
本文来自IPRdaily中文网(iprdaily.cn)并经IPRdaily.cn中文网编辑。转载此文章须经权利人同意,并附上出处与作者信息。文章不代表IPRdaily.cn立场,如若转载,请注明出处:“http://www.iprdaily.cn
文章不错,犒劳下辛苦的作者吧