将域名转换为其 URL 格式以进行 URL 解析
Convert domain name to its URL format for URL parsing
在我关于 URL html.text 解析的 Python 脚本中,我的应用程序的输入是固定的,即域名。
但是我需要将该域名存储并处理成 URL 格式。
我觉得为此目的简单地在域名前添加 'https://' 是不可取的。
如下所示,URL pasring 失败,因为它接收的域格式不是 URL。
from urllib.request import Request, urlopen
import requests
url = 'xyz.com' # it is a domain name. But requires it to be in URL format to perform further parsing.
# Option 1
html=urlopen(url).read()
# Option 2
resp = requests.get(url)
html = resp.text
# Error encountered: Invalid URL.
将域名转换为 URL 格式的好方法是什么?
如果您想了解 "http://"+url
或 "https://"+url
是否有效,您可以同时检查两者:
from urllib.request import urlopen
from urllib.error import URLError
url = 'yourpage.com'
try:
html=urlopen("https://"+url).read()
except URLError:
html=urlopen("http://"+url).read()
在我关于 URL html.text 解析的 Python 脚本中,我的应用程序的输入是固定的,即域名。
但是我需要将该域名存储并处理成 URL 格式。 我觉得为此目的简单地在域名前添加 'https://' 是不可取的。
如下所示,URL pasring 失败,因为它接收的域格式不是 URL。
from urllib.request import Request, urlopen
import requests
url = 'xyz.com' # it is a domain name. But requires it to be in URL format to perform further parsing.
# Option 1
html=urlopen(url).read()
# Option 2
resp = requests.get(url)
html = resp.text
# Error encountered: Invalid URL.
将域名转换为 URL 格式的好方法是什么?
如果您想了解 "http://"+url
或 "https://"+url
是否有效,您可以同时检查两者:
from urllib.request import urlopen
from urllib.error import URLError
url = 'yourpage.com'
try:
html=urlopen("https://"+url).read()
except URLError:
html=urlopen("http://"+url).read()