我怎样才能获得关于文档的最重要信息以及我在 MarkLogic / Query Console 中搜索的单词周围的一些行?
How can I just get the most important information about a document and some lines around the word I searched for in MarkLogic / Query Console?
我是 MarkLogic 的新手,已经将一些 PDF 作为 .xml 文件加载并转换到我的数据库中。
我的 10 个 PDF 每个大约有 500 页长。如果我像这样在查询控制台中搜索一个词,
cts.search("Infrastructurefunctions")
我会查看每个包含单词 Infrastructurefunctions
的文档及其整个正文/内容(约 500 页)。而且您看不到新文档从哪里开始。
我的目标是获得与您在 Google:
上获得的结果相同的结果
- 只有文档的名称
- 我搜索的词突出显示了周围的一些词以获得上下文
谢谢你帮助我:)
函数 cts.search
(以及所有其他 cts 函数)是一个低级工具。有更多的抽象库可以更好地为您工作。对于 XQuery,我们有 search:search
函数和相关函数。 JavaScript 你有 JSearch
。我强烈建议您研究一下:
- 搜索API:http://docs.marklogic.com/guide/search-dev/search-api
- JSearch:http://docs.marklogic.com/guide/search-dev/javascript
HTH!
是的,有些图书馆可以为您做这件事,但我始终认为 fun/important 自己学习如何做这件事是必要的。这为您提供了更大的灵活性。
因此,从您的结果来看:cts:walk
第二个示例是您可能正在考虑的示例。
我是 MarkLogic 的新手,已经将一些 PDF 作为 .xml 文件加载并转换到我的数据库中。
我的 10 个 PDF 每个大约有 500 页长。如果我像这样在查询控制台中搜索一个词,
cts.search("Infrastructurefunctions")
我会查看每个包含单词 Infrastructurefunctions
的文档及其整个正文/内容(约 500 页)。而且您看不到新文档从哪里开始。
我的目标是获得与您在 Google:
上获得的结果相同的结果- 只有文档的名称
- 我搜索的词突出显示了周围的一些词以获得上下文
谢谢你帮助我:)
函数 cts.search
(以及所有其他 cts 函数)是一个低级工具。有更多的抽象库可以更好地为您工作。对于 XQuery,我们有 search:search
函数和相关函数。 JavaScript 你有 JSearch
。我强烈建议您研究一下:
- 搜索API:http://docs.marklogic.com/guide/search-dev/search-api
- JSearch:http://docs.marklogic.com/guide/search-dev/javascript
HTH!
是的,有些图书馆可以为您做这件事,但我始终认为 fun/important 自己学习如何做这件事是必要的。这为您提供了更大的灵活性。
因此,从您的结果来看:cts:walk
第二个示例是您可能正在考虑的示例。