如何在通过 URL 建立索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

Question

每当 Solr 被索引到集合（使用 configSet sample_techproducts_configs）并使用 URL，通过以下命令：

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3

创建的索引确实有一个字段 content 复制到 text 字段。该字段确实具有使用嵌入式 tika 解析器解析的网页内容的值。

但是，当这些网页包含任何 <script> 或 <style> 标记时，<body> 将被删除，但这些相应标记内的脚本或样式仍保留为网页内容，并显示为响应 Solr查询。

如何删除这些不需要的内容？

Answer 1

请阅读 SimplePostTool 中 DATA_MODE_WEB 的 inputstream（仅限内容类型为 "text/html" 的人并删除所有 <script> 和 <style> 标签及其内容，并使用 readPageFromUrl(URL u) 函数中的 stringToStream(String) 再次将 content_String 转换为流。

如何在通过 URL 建立索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

How to remove Scripts and Styles in content of SOLR Indexes[content field], while indexed through URL?

indexing

solrj

solr6