我怎样才能获得关于文档的最重要信息以及我在 MarkLogic / Query Console 中搜索的单词周围的一些行?

How can I just get the most important information about a document and some lines around the word I searched for in MarkLogic / Query Console?

我是 MarkLogic 的新手,已经将一些 PDF 作为 .xml 文件加载并转换到我的数据库中。

我的 10 个 PDF 每个大约有 500 页长。如果我像这样在查询控制台中搜索一个词,

cts.search("Infrastructurefunctions")

我会查看每个包含单词 Infrastructurefunctions 的文档及其整个正文/内容(约 500 页)。而且您看不到新文档从哪里开始。

我的目标是获得与您在 Google:

上获得的结果相同的结果

谢谢你帮助我:)

函数 cts.search(以及所有其他 cts 函数)是一个低级工具。有更多的抽象库可以更好地为您工作。对于 XQuery,我们有 search:search 函数和相关函数。 JavaScript 你有 JSearch。我强烈建议您研究一下:

HTH!

是的,有些图书馆可以为您做这件事,但我始终认为 fun/important 自己学习如何做这件事是必要的。这为您提供了更大的灵活性。

因此,从您的结果来看:cts:walk

第二个示例是您可能正在考虑的示例。