在 Solr 中将一个字段转换为多个字段

Transform one field into multiple fields in Solr

我正在尝试将一些数据从 Nutch 1.16 抓取索引到 Solr,但有些字段要么有冗余数据(即 "metatag.author":["someone","someone"]"),要么它们只是将每个元数据字段混合成一个(即 "content":["Raro Bueno\nRaro Bueno\nChuzausen\nAwesome Is Grey, track 6, disc 0/0\n2013-08-17T22:40:55\nelectronic\n30014.912\n"]).

我想知道的是,在索引之前或最好在索引数据之后是否有命令将 "content" 字段修改为将其拆分为不同的、同样重要的字段(即 metatag.author、track_number 和相册是独立的字段)或者至少让 "content" 中的元素显示在它们自己的标签中,例如:

"content":{
   "track_number":["..."],
   "album":[...],
   "tags":[..],
   ...},
...

Nutch 提供了一个插件 "index-metadata",它允许将解析或内容元数据中可用的任意字段添加到索引文档。使用插件 "parse-tika" 解析 mp3 文件,该插件已在解析元数据中填充多个字段:

$> bin/nutch parsechecker -Dplugins.includes='protocol-file|parse-tika' \
    file:/.../RainDogs.mp3 
...
contentType: audio/mpeg
...
Status: success(1,0)
Title: Rain Dogs
Outlinks: 0
Content Metadata: Last-Modified=Sat, 07 Aug 2010 11:53:42 GMT Content-Length=4250145 nutch.crawl.score=0.0 Content-Type=audio/mpeg 
Parse Metadata: xmpDM:genre= creator=Tom Waits xmpDM:album=Rain Dogs xmpDM:trackNumber=10 xmpDM:releaseDate=1985 meta:author=Tom Waits xmpDM:artist=Tom Waits dc:creator=Tom Waits xmpDM:audioCompressor=MP3 xmpDM:audioChannelType=Stereo version=MPEG 3 Layer III Version 1 xmpDM:logComment= xmpDM:audioSampleRate=44100 channels=2 dc:title=Rain Dogs Author=Tom Waits xmpDM:duration=177093.546875 Content-Type=audio/mpeg samplerate=44100

现在您可以 select 任何字段并将它们添加到索引中。首先,我会使用工具 "indexchecker":

测试设置
$> bin/nutch indexchecker \
    -Dplugins.includes='protocol-file|parse-tika|index-(basic|metadata)' \
    -Dindex.parse.md='creator,xmpDM:album' \
    file:/.../RainDogs.mp3 
contentType: audio/mpeg
creator :       Tom Waits
xmpDM:album :   Rain Dogs
tstamp :        Sun Apr 05 13:12:51 CEST 2020
digest :        0ff28956642335818afc7f00b5420e93
host :
id :    file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
title : Rain Dogs
url :   file:/mnt/data/wastl/private2/musik/player_sync/rock/Tom Waits - Rain Dogs/10 - Tom Waits - Rain Dog
content :       Rain Dogs
Rain Dogs
Tom Waits
Rain Dogs, track 10
1985
177093.55

之后,您需要将配置属性传输到 nutch-site.xml 和 ev。还调整了 Solr 架构。

字段 "content" 可用于提供单个搜索框,尤其是。在字段未正确填写的情况下。还要想想你有多个作者(音乐、歌词、编曲)和表演者(独奏、声乐、指挥等)的情况