研究方向:自然语言处理
联系方式:: chen_zelong@126.com
研究方向:自然语言处理
联系方式:: chen_zelong@126.com
摘要:
当下,对于专利相似性的研究非常重要。当用户申请新专利时,他们需要在专利数据库中进行相似专利检索,以进行专利查新,并且防止专利侵权,还可以从相似专利中获得灵感。因此这就对专利相似性评估提出了一定的要求。
专利主权项是专利文本的核心内容,全面阐述了本专利所保护的技术范围,专利相似的判定一般以权利主权项为标准。本论文对专利主权项文本进行深入研究,基于专利文本的SAO(Subject-Action-Object, 主谓宾)句式特点,提出了一种基于句法表征的专利文本相似度算法。本论文基于这样一种假设:相似专利之间会出现相似关键词和相似句子。通过文本挖掘技术,挖掘出专利文本中的关键词来表征文本的含义。首先,通过关键词语义信息和句子结构特征计算专利文本之间的句子相似度,然后通过专利文本之间的句子相似度计算专利文本相似度。
本文的主要工作如下:
首先,利用文本挖掘技术提取专利文本中的关键词,对于分词效果不佳的关键词,总结其构词规律,利用基于规则的命名实体识别技术进行提取。
然后,考虑到专利文本包含大量SAO或SA(Subject-Action, 主谓)或AO(Action-Object, 动宾)结构,将文本切割成具有上述结构的“子句”集合,结合“子句”中关键词的语义信息和关键词的位置信息利用稳定匹配算法计算专利文本之间各个“子句”相似度。
最后,由于文本中的“子句”具有序列性,文本中的前后“子句”存在联系,所以将专利文本“子句”集合视为时间序列集合,利用DTW(Dynamic Time Warping,动态时间归整)算法通过比较“子句”序列之间的相似性计算专利文本相似性。
最终,通过实验验证了本算法的有效性。实验结果表明本文提出的这种针对专利文本句式结构所制定的专利文本相似度算法相对于传统算法效果更好。
成果: