Apache Nutch 针对特定语言内容的排名算法
Apache Nutch ranking algorithm for specific language content
我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统来抓取乌尔都语内容。对于语言检测,我已经定制了 fetcher 并在那时找到了语言。如果文档没有足够的乌尔都语(字节),那么我故意将其状态设置为已消失,以停止使用空内容增长该边缘。我也必须找到新的乌尔都语域。
我仍然面临选择要提取的 url 的问题。随着时间的推移,inlinks 数据在增加,其中包括许多不在 Urdu 中的 URL。 Nutch 正在选择(生成器)大约 90% 这些没有乌尔都语内容的 url。由于这个原因,我的资源被浪费了,因为获取的新乌尔都语内容很少。
我怎样才能让 Nutch 更喜欢那些可能包含乌尔都语内容的域文档?我想我必须以某种方式自定义排名算法。实现我的 objective 的可能方法是什么?
我认为最简单的解决方案是为这些不重要的 URL 分配非常低的分数。并且,也许为生成器设置一个最低分数阈值 (https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93)。
当然,所有这些都伴随着某些问题,可能是在某些时候您 运行 没有要获取的 URL。因为,生成器没有找到任何合适的候选者(分数阈值,或者没有更多的乌尔都语 URL 可以获取),或者所有的 URL(你发现的)都已经被获取了。
通常为这些边缘情况制定计划是个好主意。
我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统来抓取乌尔都语内容。对于语言检测,我已经定制了 fetcher 并在那时找到了语言。如果文档没有足够的乌尔都语(字节),那么我故意将其状态设置为已消失,以停止使用空内容增长该边缘。我也必须找到新的乌尔都语域。
我仍然面临选择要提取的 url 的问题。随着时间的推移,inlinks 数据在增加,其中包括许多不在 Urdu 中的 URL。 Nutch 正在选择(生成器)大约 90% 这些没有乌尔都语内容的 url。由于这个原因,我的资源被浪费了,因为获取的新乌尔都语内容很少。
我怎样才能让 Nutch 更喜欢那些可能包含乌尔都语内容的域文档?我想我必须以某种方式自定义排名算法。实现我的 objective 的可能方法是什么?
我认为最简单的解决方案是为这些不重要的 URL 分配非常低的分数。并且,也许为生成器设置一个最低分数阈值 (https://github.com/apache/nutch/blob/master/src/java/org/apache/nutch/crawl/Generator.java#L93)。
当然,所有这些都伴随着某些问题,可能是在某些时候您 运行 没有要获取的 URL。因为,生成器没有找到任何合适的候选者(分数阈值,或者没有更多的乌尔都语 URL 可以获取),或者所有的 URL(你发现的)都已经被获取了。
通常为这些边缘情况制定计划是个好主意。