如何在通过 URL 建立索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式?

How to remove Scripts and Styles in content of SOLR Indexes[content field], while indexed through URL?

每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs)并使用 URL,通过以下命令:

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

创建的索引确实有一个字段 content 复制到 text 字段。 该字段确实具有使用嵌入式 tika 解析器解析的网页内容的值。

但是,当这些网页包含任何 <script><style> 标记时,<body> 将被删除,但这些相应标记内的脚本或样式仍保留为网页内容,并显示为响应 Solr查询。

如何删除这些不需要的内容?

请阅读 SimplePostToolDATA_MODE_WEBinputstream(仅限内容类型为 "text/html" 的人并删除所有 <script><style> 标签及其内容,并使用 readPageFromUrl(URL u) 函数中的 stringToStream(String) 再次将 content_String 转换为流。