删除产品变体 ID 之间的空格会减少 solr5 中的索引大小吗?
Would removing spaces between product variant ids decrease index size in solr5?
我一直在将一些产品规格保存到 Solr 5
。大多数产品包含使用破折号或点的唯一变体 ID,例如:Samesung TV 54 : AD-oi-230
、Sony TV 24 : 1.849.32s.s
.
但偶尔,我会遇到一些使用空格而不是破折号的变体 ID,例如 Samsung 54 : OPD 1 jud
、Sony 32 : s1 90 b33 9 337
.
由于这些 id 没有太大意义,如果我删除这些空格(Samsung 54 : OPD1jud
、Sony 32 : s190b339337
),它会更好地缩放还是使索引大小更小?
这是我存储模型名称的字段。我启用了 WordDelimiterFilterFactory
:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" preserveOriginal="0" generateNumberParts="1" splitOnCaseChange="0" catenateWords="1" splitOnNumerics="1" stemEnglishPossessive="0" generateWordParts="1" catenateAll="0" catenateNumbers="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.LengthFilterFactory" min="2" max="20"/>
</analyzer>
</fieldType>
索引大小在这里不是问题。特别是,无论你用分析仪做什么,你仍然拥有原始存储值。
但是,您所描述的内容(删除空格)对于值的规范化和确保搜索匹配 ID 是否包含空格或破折号是有意义的。所以,无论如何,这是一个更好的理由。
我一直在将一些产品规格保存到 Solr 5
。大多数产品包含使用破折号或点的唯一变体 ID,例如:Samesung TV 54 : AD-oi-230
、Sony TV 24 : 1.849.32s.s
.
但偶尔,我会遇到一些使用空格而不是破折号的变体 ID,例如 Samsung 54 : OPD 1 jud
、Sony 32 : s1 90 b33 9 337
.
由于这些 id 没有太大意义,如果我删除这些空格(Samsung 54 : OPD1jud
、Sony 32 : s190b339337
),它会更好地缩放还是使索引大小更小?
这是我存储模型名称的字段。我启用了 WordDelimiterFilterFactory
:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.WordDelimiterFilterFactory" preserveOriginal="0" generateNumberParts="1" splitOnCaseChange="0" catenateWords="1" splitOnNumerics="1" stemEnglishPossessive="0" generateWordParts="1" catenateAll="0" catenateNumbers="0"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.LengthFilterFactory" min="2" max="20"/>
</analyzer>
</fieldType>
索引大小在这里不是问题。特别是,无论你用分析仪做什么,你仍然拥有原始存储值。
但是,您所描述的内容(删除空格)对于值的规范化和确保搜索匹配 ID 是否包含空格或破折号是有意义的。所以,无论如何,这是一个更好的理由。