IBM Watson Discovery 爬行问题

IBM Watson Discovery crawling issue

我们想索引我们的客户网站并将所有数据存储在 IBM Watson Discovery service 中。当用户询问与客户端数据相关的问题时（我们将发现与 Watson Assistant 连接）。聊天机器人应连接到 Discovery 并获取数据以进行响应。

问题：客户端网站有多个 links，每个 link 将有更多的 links，我们希望抓取网站和索引中的所有数据并将其存储在 Watson Discovery 服务中。我们尝试抓取该站点，但发现服务需要花费大量时间来抓取该站点，而且它在 1 周后也没有完成任务。请告诉我们如何更好更快地实现这一目标。

请注意，网络抓取是当前的测试版，Watson Discovery documentation for web crawl 指出，根据网站的不同，它不会提取所有数据。

我在与您相似的场景中使用了 Discovery 中的 Web 爬网，并使用 Watson Assistant 构建的聊天查询我的网站。你应该做什么：

增加跳数：Watson Discovery 应在多深的范围内抓取您的网站
取决于您的网站：添加多个入口点
指定要排除的所有路径。我添加了那些会添加重复条目的那些以及那些生成的摘要页面、RSS 提要等。
调整抓取频率
检查 Watson Discovery 是否可以访问您的网站并且您的网站不会阻止抓取