如何在通过 URL 建立索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式?
How to remove Scripts and Styles in content of SOLR Indexes[content field], while indexed through URL?
每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs
)并使用 URL,通过以下命令:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
创建的索引确实有一个字段 content
复制到 text
字段。
该字段确实具有使用嵌入式 tika 解析器解析的网页内容的值。
但是,当这些网页包含任何 <script>
或 <style>
标记时,<body>
将被删除,但这些相应标记内的脚本或样式仍保留为网页内容,并显示为响应 Solr查询。
如何删除这些不需要的内容?
请阅读 SimplePostTool
中 DATA_MODE_WEB
的 inputstream
(仅限内容类型为 "text/html" 的人并删除所有 <script>
和 <style>
标签及其内容,并使用 readPageFromUrl(URL u)
函数中的 stringToStream(String)
再次将 content_String 转换为流。
每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs
)并使用 URL,通过以下命令:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
创建的索引确实有一个字段 content
复制到 text
字段。
该字段确实具有使用嵌入式 tika 解析器解析的网页内容的值。
但是,当这些网页包含任何 <script>
或 <style>
标记时,<body>
将被删除,但这些相应标记内的脚本或样式仍保留为网页内容,并显示为响应 Solr查询。
如何删除这些不需要的内容?
请阅读 SimplePostTool
中 DATA_MODE_WEB
的 inputstream
(仅限内容类型为 "text/html" 的人并删除所有 <script>
和 <style>
标签及其内容,并使用 readPageFromUrl(URL u)
函数中的 stringToStream(String)
再次将 content_String 转换为流。