迭代抓取 URLS

iterate scraping throught URLS

我有这段代码,我正在尝试执行,但在无效架构上出错

#for index, row in df.iterrows():
  #  print(index,row["Data"])
for offset in (df.apply(lambda row: row["Data"]  , axis = 1)):

    response = requests.get(df["Data"])
    print('url:', response.url)
    

这是我的数据框,每页有一组链接(每页 10 个)和两个索引,因此它们有 20 个链接。 数据 0 [http://www.mercadopublico.cl/Procurement/Modu... 1 [http://www.mercadopublico.cl/Procurement/Modu...

我想为每 10 个链接制作此代码 运行 并抓取它们并获取数据,然后转到下一步,但抓取的数据将在 [=31= 中的一组信息中].

但我无法让响应获得​​数据框内的 url

我收到这条消息

InvalidSchema: No connection adapters were found for '0    [http://www.mercadopublico.cl/Procurement/Modu...\n1    [http://www.mercadopublico.cl/Procurement/Modu...\nName: Data, dtype: object'

你对此有什么建议吗? 最好的问候

我认为这也可以帮助我将两个索引放在一个融合中,但不确定该怎么做,搜索了很多但找不到如何,我尝试了一些对 np.array 的引用但是没用。

只是为了回答,因为我解决了它,如果您以后要抓取,请不要将 url 存储为数据框,而不是制作数据框结果url[] 将其存储为列表结果url=列表()

然后像 for i in list() 一样在列表上迭代,这种情况是 calet resulturl..

谢谢