[发明专利]源代码文件克隆邻接表合并检测方法在审
申请号: | 201710140323.4 | 申请日: | 2017-03-10 |
公开(公告)号: | CN107066262A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 罗峋;饶飞 | 申请(专利权)人: | 苏州棱镜七彩信息科技有限公司 |
主分类号: | G06F9/44 | 分类号: | G06F9/44;G06F11/36 |
代理公司: | 苏州唯亚智冠知识产权代理有限公司32289 | 代理人: | 陈晓瑜 |
地址: | 215000 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种源代码文件克隆邻接表合并检测方法,对工程项目文件以文件为单位,对代码每行以固定行数进行扫描为粒度,用MD5构造指纹Chunk并建立指纹库。指纹库保存在MySQL数据库中,以指纹所在的开源项目id和Chunk的Hash值作为索引进行检测算法,能实现克隆0到3类检测。即提出基于分布式索引的源代码文件克隆邻接表合并检测方案及算法。该检测算法的检测实现能在时间复杂度为O(nm),空间复杂度为O(nm)内检测出克隆的代码文件,实现海量检测。 | ||
搜索关键词: | 源代码 文件 克隆 邻接 合并 检测 方法 | ||
【主权项】:
源代码文件克隆邻接表合并检测方法,其特征在于包括以下步骤:步骤一,构造开源项目指纹库,并进行指纹库索引建立和存储;步骤二,针对邻接表合并检测;步骤三,相似度计算;单个源文件中所有规范化后的Token,从第一个开始,每固定个数被转换为一个Chunk,这样,每个代码文件转换后会生成很多Chunk,然后将每个Chunk都存储到HBase中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州棱镜七彩信息科技有限公司,未经苏州棱镜七彩信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710140323.4/,转载请声明来源钻瓜专利网。