IBM Watson Discovery 爬行问题

IBM Watson Discovery crawling issue

我们想索引我们的客户网站并将所有数据存储在 IBM Watson Discovery service 中。当用户询问与客户端数据相关的问题时(我们将发现与 Watson Assistant 连接)。聊天机器人应连接到 Discovery 并获取数据以进行响应。

问题: 客户端网站有多个 links,每个 link 将有更多的 links,我们希望抓取网站和索引中的所有数据并将其存储在 Watson Discovery 服务中。我们尝试抓取该站点,但发现服务需要花费大量时间来抓取该站点,而且它在 1 周后也没有完成任务。 请告诉我们如何更好更快地实现这一目标。

请注意,网络抓取是当前的测试版,Watson Discovery documentation for web crawl 指出,根据网站的不同,它不会提取所有数据。

我在与您相似的场景中使用了 Discovery 中的 Web 爬网,并使用 Watson Assistant 构建的聊天查询我的网站。你应该做什么:

  • 增加跳数:Watson Discovery 应在多深的范围内抓取您的网站
  • 取决于您的网站:添加多个入口点
  • 指定要排除的所有路径。我添加了那些会添加重复条目的那些以及那些生成的摘要页面、RSS 提要等。
  • 调整抓取频率
  • 检查 Watson Discovery 是否可以访问您的网站并且您的网站不会阻止抓取