Flickr API returns 在提取所有带地理标记的照片时复制照片

Flickr API returns duplicate photos while extracting all geotagged photos

我正在尝试使用 Flickr API 方法 flickr.photos.search() 从 Flickr 中提取所有带有地理标记的照片。这是代码:

import flickr_api
import urllib2
from flickr_api.api import flickr

flickr_api.set_keys(api_key = 'my_api_key', api_secret = 'my_api_secret')
flickr_api.set_auth_handler("AuthToken")

for i in range(1, 1700):
    photo_list = flickr.photos.search(api_key='my_api_key', has_geo=1, extras='description,license,geo,tags,machine_tags', per_page=250, page=i, min_upload_date='972518400', accuracy=12)
    f = open('xmldata1/photodata' + str(i) + '.xml','w')
    f.write(photo_list)
    f.close()

此脚本运行后会为我的每一页数据提供一个 xml 文件。每个 xml 文件有 250 张照片数据。有 1699 个这样的 xml 文件。我得到大约 420,000 张照片数据,其中有很多重复项。删除重复项后,我只有 9022 张独特的图像。

我已阅读 here 一次查询 16 页 = 4000 张图像以避免重复是安全的。

我想尽可能避免重复图像,我需要 100,000+ 独特 地理标记图像用于 gps 聚类目的。

我应该在查询的两个实例之间插入多长时间? 如果我必须考虑另一种方法,请详细说明。

如果您有任何疑问,请告诉我。任何帮助将不胜感激!

尝试将 max_upload_date 与 min_upload_date 一起使用。保持几天的时间范围,并不断将时间范围从 min_upload_date 转移到 max_upload_date。仅搜索该时间范围内的照片。