blog_website 的搜索引擎(搜索内部链接)
Search Engine for a blog_website(searching inside links )
我为我的博客创建了一个非常基本的搜索选项,它根据主题和关键词生成结果,但我要查找的是某些文章,我必须添加链接,这样如果我的搜索可以通过这些基本上是外部网站的链接,例如,如果我指的是其他人的博客以获取更多信息,那么可以从 that.Is 中搜索找到吗?我不想参加 GCSE。
提前致谢。会有很大的帮助。
再次感谢。
是的,可以编写一个机器人从链接中抓取外部网站。我做了一个。它抓取了 100K+ 个网站 URLs。所以是的,可以制作一个可以从您的博客中抓取链接的程序。
要创建搜索引擎,您需要了解有关其工作原理的一些内部知识...
搜索机器人 的工作方式如下:
- 爬虫 抓取页面。这一步非常简单,因为它使用 curl。
Parser 将 HTML 拆分成多个部分,以便可以从页面中提取数据。这有 2 个子组件,其中...
一个。从要捕获的页面中提取任何数据,然后将该数据保存到数据库中。
b。提取链接并将它们放回爬行队列中。这会创建一个无限循环,因此您的机器人永远不会停止爬行...(除非其他人的格式错误 URL 使其崩溃,这种情况经常发生。因此请准备好经常修复它。)
Indexer 创建查找索引,将关键字映射到网页的内容。它有 2 个子组件,因为它...
一个。创建一个 Forward Index,它将每个文档映射到该文档中的关键字。
doc1 | bird, aviary, robin, dove, blue jay, cardinal
doc2 | birds, bird watching, binoculars
doc3 | cats, eat, birds
doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
doc5 | dog, shows, look, fun
b。从正向索引创建一个 Inverted Index,它反转索引。这允许用户按关键字搜索,然后搜索脚本查找并建议用户可能想要查看的文档。像这样...
bird | doc1, doc2
cat | doc3, doc4
dog | doc4, doc5
搜索表单是这样工作的:
- Search Form 向用户显示 HTML 输入框。
- 搜索脚本 将搜索倒排索引以查找要在搜索引擎结果页面中显示的文档链接。
- S搜索E引擎R结果Page(是的,SERP 是搜索引擎结果页面的实际行业缩写)。这将显示搜索结果链接列表。您可以按照自己喜欢的方式设计它,它不必看起来像 Google、Microsoft 的 Bing 或 Yahoo 的引擎。
示例:
正在搜索:
"bird" returns links to "doc1, doc2"
"cat" returns links to "doc3, doc4"
"dog" returns links to "doc4, doc5"
祝您为博客构建搜索引擎好运!
我为我的博客创建了一个非常基本的搜索选项,它根据主题和关键词生成结果,但我要查找的是某些文章,我必须添加链接,这样如果我的搜索可以通过这些基本上是外部网站的链接,例如,如果我指的是其他人的博客以获取更多信息,那么可以从 that.Is 中搜索找到吗?我不想参加 GCSE。 提前致谢。会有很大的帮助。
再次感谢。
是的,可以编写一个机器人从链接中抓取外部网站。我做了一个。它抓取了 100K+ 个网站 URLs。所以是的,可以制作一个可以从您的博客中抓取链接的程序。
要创建搜索引擎,您需要了解有关其工作原理的一些内部知识...
搜索机器人 的工作方式如下:
- 爬虫 抓取页面。这一步非常简单,因为它使用 curl。
Parser 将 HTML 拆分成多个部分,以便可以从页面中提取数据。这有 2 个子组件,其中...
一个。从要捕获的页面中提取任何数据,然后将该数据保存到数据库中。
b。提取链接并将它们放回爬行队列中。这会创建一个无限循环,因此您的机器人永远不会停止爬行...(除非其他人的格式错误 URL 使其崩溃,这种情况经常发生。因此请准备好经常修复它。)
Indexer 创建查找索引,将关键字映射到网页的内容。它有 2 个子组件,因为它...
一个。创建一个 Forward Index,它将每个文档映射到该文档中的关键字。
doc1 | bird, aviary, robin, dove, blue jay, cardinal doc2 | birds, bird watching, binoculars doc3 | cats, eat, birds doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs doc5 | dog, shows, look, fun
b。从正向索引创建一个 Inverted Index,它反转索引。这允许用户按关键字搜索,然后搜索脚本查找并建议用户可能想要查看的文档。像这样...
bird | doc1, doc2 cat | doc3, doc4 dog | doc4, doc5
搜索表单是这样工作的:
- Search Form 向用户显示 HTML 输入框。
- 搜索脚本 将搜索倒排索引以查找要在搜索引擎结果页面中显示的文档链接。
- S搜索E引擎R结果Page(是的,SERP 是搜索引擎结果页面的实际行业缩写)。这将显示搜索结果链接列表。您可以按照自己喜欢的方式设计它,它不必看起来像 Google、Microsoft 的 Bing 或 Yahoo 的引擎。
示例:
正在搜索:
"bird" returns links to "doc1, doc2"
"cat" returns links to "doc3, doc4"
"dog" returns links to "doc4, doc5"
祝您为博客构建搜索引擎好运!