blog_website 的搜索引擎(搜索内部链接)

Search Engine for a blog_website(searching inside links )

我为我的博客创建了一个非常基本的搜索选项,它根据主题和关键词生成结果,但我要查找的是某些文章,我必须添加链接,这样如果我的搜索可以通过这些基本上是外部网站的链接,例如,如果我指的是其他人的博客以获取更多信息,那么可以从 that.Is 中搜索找到吗?我不想参加 GCSE。 提前致谢。会有很大的帮助。

再次感谢。

是的,可以编写一个机器人从链接中抓取外部网站。我做了一个。它抓取了 100K+ 个网站 URLs。所以是的,可以制作一个可以从您的博客中抓取链接的程序。

要创建搜索引擎,您需要了解有关其工作原理的一些内部知识...

搜索机器人 的工作方式如下:

  1. 爬虫 抓取页面。这一步非常简单,因为它使用 curl
  2. Parser 将 HTML 拆分成多个部分,以便可以从页面中提取数据。这有 2 个子组件,其中...

    一个。从要捕获的页面中提取任何数据,然后将该数据保存到数据库中。

    b。提取链接并将它们放回爬行队列中。这会创建一个无限循环,因此您的机器人永远不会停止爬行...(除非其他人的格式错误 URL 使其崩溃,这种情况经常发生。因此请准备好经常修复它。)

  3. Indexer 创建查找索引,将关键字映射到网页的内容。它有 2 个子组件,因为它...

    一个。创建一个 Forward Index,它将每个文档映射到该文档中的关键字。

    doc1 | bird, aviary, robin, dove, blue jay, cardinal
    doc2 | birds, bird watching, binoculars
    doc3 | cats, eat, birds
    doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
    doc5 | dog, shows, look, fun
    

    b。从正向索引创建一个 Inverted Index,它反转索引。这允许用户按关键字搜索,然后搜索脚本查找并建议用户可能想要查看的文档。像这样...

    bird | doc1, doc2
    cat  | doc3, doc4
    dog  | doc4, doc5
    

搜索表单是这样工作的:

  1. Search Form 向用户显示 HTML 输入框。
  2. 搜索脚本 将搜索倒排索引以查找要在搜索引擎结果页面中显示的文档链接。
  3. S搜索E引擎R结果Page(是的,SERP 是搜索引擎结果页面的实际行业缩写)。这将显示搜索结果链接列表。您可以按照自己喜欢的方式设计它,它不必看起来像 Google、Microsoft 的 Bing 或 Yahoo 的引擎。

示例:

正在搜索:

"bird" returns links to "doc1, doc2"
"cat"  returns links to "doc3, doc4"
"dog"  returns links to "doc4, doc5"

祝您为博客构建搜索引擎好运!