IBM Watson:在结构文件之间搜索相似模式

IBM Watson: search similar patterns between structural files

我需要开发一个应用程序来使用认知系统(例如 Watson)检测源代码中的抄袭印记。 目前我正在使用 Jplag (https://github.com/jplag/jplag) 分析源代码并获取标记化文件。

这里是我的问题,我看到 Watson 是一个高度使用的非结构化文件分析系统。相反,标记化文件是高度结构化的,无法使用 IBM Watson 提供的大多数服务进行分析。 例如,Watson Discovery 可以在电子邮件或出版物中提供有关感受或主题的信息,并找到构成语料库的文件之间的链接。不幸的是,Watson 无法为此读取标记化文件(或者我不知道如何读取)。

我找到了 Watson Analytics,它应该提供数字文件和结构化文件之间的关联。但是我还没到试用期所以没法测试

我想知道我是否可以使用 Watson Analytics 来达到我的目的。我应该坚持这样还是我错过了一些建议?

您是否尝试过 Watson Content Analytics?支持分词,希望能帮助大家发现源代码文件中的抄袭问题。

我不是 100% 确定,这就是您要查找的内容,但这里有更多相关信息:https://www.ibm.com/support/knowledgecenter/en/SS5RWK_3.5.0/com.ibm.discovery.es.ta.doc/iiysputai.htm

但是,Watson Analytics 可能不适合您的项目。