在给定距离的位置周围索引 SOLR 中的维基百科文章
indexing wikipedia articles in SOLR around a location with given distance
在 Solr 服务器中索引维基百科文章(包含地理位置 lon/lat)的最佳方法是什么?
例如我有一个给定的 lon/lat 位置,想要索引 60 公里范围内的所有维基百科文章。
我可以下载整个 Wikipedia Dump 并编写一个应用程序来尝试获取 xml 中给定点距离内的所有数据。但是转储大约有 40GB,这可能需要很长时间。我有以下条件:我想使数据保持最新(它们应该每 48 小时更新一次)。
是否有可用的部分 wiki 转储(例如每个国家/地区)或用于这种情况的 API/应用程序?
Special:Nearby you mentioned in comments used to be powered by Solr, but it now uses Elasticsearch. The extension that provides geospatial search - GeoData - also supports MySQL-based searches which is more practical for small datasets. If you're interested specifically in Solr, you can look how it was done before I killed it 因为 Elasticsearch 太棒了。
在 Solr 服务器中索引维基百科文章(包含地理位置 lon/lat)的最佳方法是什么?
例如我有一个给定的 lon/lat 位置,想要索引 60 公里范围内的所有维基百科文章。
我可以下载整个 Wikipedia Dump 并编写一个应用程序来尝试获取 xml 中给定点距离内的所有数据。但是转储大约有 40GB,这可能需要很长时间。我有以下条件:我想使数据保持最新(它们应该每 48 小时更新一次)。 是否有可用的部分 wiki 转储(例如每个国家/地区)或用于这种情况的 API/应用程序?
Special:Nearby you mentioned in comments used to be powered by Solr, but it now uses Elasticsearch. The extension that provides geospatial search - GeoData - also supports MySQL-based searches which is more practical for small datasets. If you're interested specifically in Solr, you can look how it was done before I killed it 因为 Elasticsearch 太棒了。