如何索引从 Apache Nutch 抓取的 "html" 到 Solr?
How to index crawled "html" from Apache Nutch to Solr?
我想将 Apache Nutch (v1.17) 抓取的网页的源代码编入索引,以便在 Solr (8.6.3) 中编入索引,但不知道该怎么做?至少我得到了一个索引到 Solr content 的准备好的版本(见下文)。
{
"tstamp":"2020-11-19T08:41:15.908Z",
"digest":"fdc7532e799d4a3a434be4be67c36bb3b",
"boost":1.0,
.
.
.
"content":"Algorithm Engineering Group ....",
"_version_":16837969286885539843
}
我已经查看了 index-writers.xml,但我仍然不知道该怎么做。也许你知道怎么做。
Nutch index tool 提供了一个命令行选项来索引网页的原始内容:
$> bin/nutch index
...
-addBinaryContent index raw/binary content in field `binaryContent`
-base64 use Base64 encoding for binary content
...
注意:注意抓取工具可能访问的 PDF 和其他二进制格式!
我想将 Apache Nutch (v1.17) 抓取的网页的源代码编入索引,以便在 Solr (8.6.3) 中编入索引,但不知道该怎么做?至少我得到了一个索引到 Solr content 的准备好的版本(见下文)。
{
"tstamp":"2020-11-19T08:41:15.908Z",
"digest":"fdc7532e799d4a3a434be4be67c36bb3b",
"boost":1.0,
.
.
.
"content":"Algorithm Engineering Group ....",
"_version_":16837969286885539843
}
我已经查看了 index-writers.xml,但我仍然不知道该怎么做。也许你知道怎么做。
Nutch index tool 提供了一个命令行选项来索引网页的原始内容:
$> bin/nutch index
...
-addBinaryContent index raw/binary content in field `binaryContent`
-base64 use Base64 encoding for binary content
...
注意:注意抓取工具可能访问的 PDF 和其他二进制格式!