如何从 url 列表中提取文本并单独保存
how to extract text from a list of url and save them separately
我有一个 url 的列表。该列表中有 100 个 url,所有这些 url 都包含文本。我想从那些 url 中提取文本并将这些文本保存在 text1、text2、text3 等中。
我只能这样做
list_of_urls = ['abc.com', 'def.com', 'sssj.com', ... and so on]
import urllib
text = []
data = urllib.request.urlopen('abc.com')
for line in data:
line = line.decode('utf-8')
text.append(line)
以上代码仅适用于一个 url。但我想遍历列表中的所有 url 并将输出存储在 text1、text2、text3 等中。
我不确定您希望如何存储单独的文本,但此代码将创建一个字典,其中的键是文本 1、文本 2...,值是包含该文本中的句子的列表.
import urllib
list_of_urls = ['abc.com', 'def.com', 'sssj.com', ... and so on]
result = {}
for idx, url in enumerate(list_of_urls):
data = urllib.request.urlopen(url)
text = []
for line in data:
line = line.decode('utf-8')
text.append(line)
result[f"text{idx}"] = text
我有一个 url 的列表。该列表中有 100 个 url,所有这些 url 都包含文本。我想从那些 url 中提取文本并将这些文本保存在 text1、text2、text3 等中。 我只能这样做
list_of_urls = ['abc.com', 'def.com', 'sssj.com', ... and so on]
import urllib
text = []
data = urllib.request.urlopen('abc.com')
for line in data:
line = line.decode('utf-8')
text.append(line)
以上代码仅适用于一个 url。但我想遍历列表中的所有 url 并将输出存储在 text1、text2、text3 等中。
我不确定您希望如何存储单独的文本,但此代码将创建一个字典,其中的键是文本 1、文本 2...,值是包含该文本中的句子的列表.
import urllib
list_of_urls = ['abc.com', 'def.com', 'sssj.com', ... and so on]
result = {}
for idx, url in enumerate(list_of_urls):
data = urllib.request.urlopen(url)
text = []
for line in data:
line = line.decode('utf-8')
text.append(line)
result[f"text{idx}"] = text