在 Solr 中将一个字段转换为多个字段
Transform one field into multiple fields in Solr
我正在尝试将一些数据从 Nutch 1.16 抓取索引到 Solr,但有些字段要么有冗余数据(即 "metatag.author":["someone","someone"]"
),要么它们只是将每个元数据字段混合成一个(即 "content":["Raro Bueno\nRaro Bueno\nChuzausen\nAwesome Is Grey, track 6, disc 0/0\n2013-08-17T22:40:55\nelectronic\n30014.912\n"]
).
我想知道的是,在索引之前或最好在索引数据之后是否有命令将 "content" 字段修改为将其拆分为不同的、同样重要的字段(即 metatag.author、track_number 和相册是独立的字段)或者至少让 "content" 中的元素显示在它们自己的标签中,例如:
"content":{
"track_number":["..."],
"album":[...],
"tags":[..],
...},
...
Nutch 提供了一个插件 "index-metadata",它允许将解析或内容元数据中可用的任意字段添加到索引文档。使用插件 "parse-tika" 解析 mp3 文件,该插件已在解析元数据中填充多个字段:
$> bin/nutch parsechecker -Dplugins.includes='protocol-file|parse-tika' \
file:/.../RainDogs.mp3
...
contentType: audio/mpeg
...
Status: success(1,0)
Title: Rain Dogs
Outlinks: 0
Content Metadata: Last-Modified=Sat, 07 Aug 2010 11:53:42 GMT Content-Length=4250145 nutch.crawl.score=0.0 Content-Type=audio/mpeg
Parse Metadata: xmpDM:genre= creator=Tom Waits xmpDM:album=Rain Dogs xmpDM:trackNumber=10 xmpDM:releaseDate=1985 meta:author=Tom Waits xmpDM:artist=Tom Waits dc:creator=Tom Waits xmpDM:audioCompressor=MP3 xmpDM:audioChannelType=Stereo version=MPEG 3 Layer III Version 1 xmpDM:logComment= xmpDM:audioSampleRate=44100 channels=2 dc:title=Rain Dogs Author=Tom Waits xmpDM:duration=177093.546875 Content-Type=audio/mpeg samplerate=44100
现在您可以 select 任何字段并将它们添加到索引中。首先,我会使用工具 "indexchecker":
测试设置
$> bin/nutch indexchecker \
-Dplugins.includes='protocol-file|parse-tika|index-(basic|metadata)' \
-Dindex.parse.md='creator,xmpDM:album' \
file:/.../RainDogs.mp3
contentType: audio/mpeg
creator : Tom Waits
xmpDM:album : Rain Dogs
tstamp : Sun Apr 05 13:12:51 CEST 2020
digest : 0ff28956642335818afc7f00b5420e93
host :
id : file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
title : Rain Dogs
url : file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
content : Rain Dogs
Rain Dogs
Tom Waits
Rain Dogs, track 10
1985
177093.55
之后,您需要将配置属性传输到 nutch-site.xml 和 ev。还调整了 Solr 架构。
字段 "content" 可用于提供单个搜索框,尤其是。在字段未正确填写的情况下。还要想想你有多个作者(音乐、歌词、编曲)和表演者(独奏、声乐、指挥等)的情况
我正在尝试将一些数据从 Nutch 1.16 抓取索引到 Solr,但有些字段要么有冗余数据(即 "metatag.author":["someone","someone"]"
),要么它们只是将每个元数据字段混合成一个(即 "content":["Raro Bueno\nRaro Bueno\nChuzausen\nAwesome Is Grey, track 6, disc 0/0\n2013-08-17T22:40:55\nelectronic\n30014.912\n"]
).
我想知道的是,在索引之前或最好在索引数据之后是否有命令将 "content" 字段修改为将其拆分为不同的、同样重要的字段(即 metatag.author、track_number 和相册是独立的字段)或者至少让 "content" 中的元素显示在它们自己的标签中,例如:
"content":{
"track_number":["..."],
"album":[...],
"tags":[..],
...},
...
Nutch 提供了一个插件 "index-metadata",它允许将解析或内容元数据中可用的任意字段添加到索引文档。使用插件 "parse-tika" 解析 mp3 文件,该插件已在解析元数据中填充多个字段:
$> bin/nutch parsechecker -Dplugins.includes='protocol-file|parse-tika' \
file:/.../RainDogs.mp3
...
contentType: audio/mpeg
...
Status: success(1,0)
Title: Rain Dogs
Outlinks: 0
Content Metadata: Last-Modified=Sat, 07 Aug 2010 11:53:42 GMT Content-Length=4250145 nutch.crawl.score=0.0 Content-Type=audio/mpeg
Parse Metadata: xmpDM:genre= creator=Tom Waits xmpDM:album=Rain Dogs xmpDM:trackNumber=10 xmpDM:releaseDate=1985 meta:author=Tom Waits xmpDM:artist=Tom Waits dc:creator=Tom Waits xmpDM:audioCompressor=MP3 xmpDM:audioChannelType=Stereo version=MPEG 3 Layer III Version 1 xmpDM:logComment= xmpDM:audioSampleRate=44100 channels=2 dc:title=Rain Dogs Author=Tom Waits xmpDM:duration=177093.546875 Content-Type=audio/mpeg samplerate=44100
现在您可以 select 任何字段并将它们添加到索引中。首先,我会使用工具 "indexchecker":
测试设置$> bin/nutch indexchecker \
-Dplugins.includes='protocol-file|parse-tika|index-(basic|metadata)' \
-Dindex.parse.md='creator,xmpDM:album' \
file:/.../RainDogs.mp3
contentType: audio/mpeg
creator : Tom Waits
xmpDM:album : Rain Dogs
tstamp : Sun Apr 05 13:12:51 CEST 2020
digest : 0ff28956642335818afc7f00b5420e93
host :
id : file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
title : Rain Dogs
url : file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
content : Rain Dogs
Rain Dogs
Tom Waits
Rain Dogs, track 10
1985
177093.55
之后,您需要将配置属性传输到 nutch-site.xml 和 ev。还调整了 Solr 架构。
字段 "content" 可用于提供单个搜索框,尤其是。在字段未正确填写的情况下。还要想想你有多个作者(音乐、歌词、编曲)和表演者(独奏、声乐、指挥等)的情况