如何 crawl/index 单个页面上的链接:Google Search Appliance

How to crawl/index the links on a single page: Google Search Appliance

我是 GSA 的新手,也没有对系统的完全管理员访问权限,因此必须将请求转发给 ICT 服务以更改我们的抓取和集合。

我希望有人能帮助解决这个问题:

我有一个网页,其中包含指向大约 180 个文档的链接列表(其中大部分存储在包含大约 2400 个文档的同一子目录 /docs/ 中)。其余的分散在站点的许多其他子目录中,即 /finance/、/hr/ 等

目前所发生的一切是我要么将单个网页编入索引,要么将 180 个链接中的 none 编入索引。或者我得到第 1 页加上 /docs/ 子目录中的所有 2400 个文档。

我希望能够只crawl/index此页面和 180 个链接并创建一个单独的集合

有没有简单的方法可以做到这一点?

问候 亨利

  1. 而不是在启动 urls 和跟随模式下配置 URL 模式, 配置完整 url。获取180个urls + 1个单一网页url,将所有181个urls放在start urls下,按照pattern.By配置完成urls,我们可以避免 GSA 抓取应用程序中的其他 urls,因为我们没有在 follow urls.
  2. 下保留任何常见的 url 模式
  3. 创建一个新集合并放置所有 180 个文档 urls + 单个网页 url(或通用模式匹配 181 urls)在“包括与以下模式匹配的内容”下的集合中。

我假设您不想为 GSA 上的其他 2400 篇文档编制索引。 希望对你有帮助。

此致,

墨涵.

另一种可能的解决方案是使用 robots.txt 文件来禁止抓取您不想要的其他页面。如果您必须枚举所有这些,这将是很多工作。

最好的办法是查看是否有一些常见的 URL 模式可以用来仅指定您确实需要的 180 页。例如,你想要的页面都是PDF,而你不想要的其他文件都是其他类型的吗?如果您能找到对您想要的所有页面都通用但对其他页面不适用的内容,您可以使用它来制定一个模式(可能使用正则表达式)来执行您想要的操作。

您最好为此使用元数据和 url 提要。

它将允许您控制 GSA 是否跟踪您的 180 个页面中的链接(如果您提供这些链接),或者如果您只提供这些页面是否索引您的列表页面。您可以通过指定 noindex 或 nofollow 来执行此操作。

您仍然需要正确设置您的关注和抓取模式和集合,但这是控制索引内容的最简单方法。

您也不一定需要为此编写代码,您可以使用 curl 并手工制作 xml。

文档非常好并且易​​于理解。 Feeds Protocol Developers Guide