lxml etree cleanup_namespaces returns None 而不是清理树
lxml etree cleanup_namespaces returns None instead of cleaned tree
我写了一个小 class 用于 抓取 一个网页,其中包含文件夹中的一些文档,所有这些都托管在 S3 上。我将响应转换为 XML 树,我需要从前缀 URL.
中清除每个元素
这是代码和问题:
import requests
from lxml import etree
class scraper():
def __init__(self, BASE_URL, headers):
self.BASE_URL = BASE_URL
self.headers = headers
self.URL = self.BASE_URL + '?delimiter=/'
def clean_root(self, root):
"Needed to clean the URL prefix in front of each XML element"
for elem in root.getiterator():
elem.tag = etree.QName(elem).localname
return etree.cleanup_namespaces(root)
def get_root_folder_names(self):
"Retrieve the folders"
res = requests.get(self.URL, headers=self.headers)
root = etree.XML(res.content)
print(f"{root}") # prints: "root: <Element {http://s3.amazonaws.com/doc/2016-11-11/}ListBucketResult at 0x8f87b456e441>"
print(f"{self.clean_root(root)}") # prints: "None", where it must prints "<Element ListBucketResult at 0x8f87b456e441>"
称之为:
myInstance = scraper(BASE_URL, headers)
myInstance.get_root_folder_names()
如果我从 get_root_folder_names
函数调用 clean_tree(root)
,结果是 None
,就好像它从未被应用过一样。但是 root
确实存在于调用此函数之前,因为它已正确打印。我从这里得到启发:https://www.kite.com/python/answers/how-to-call-an-instance-method-in-the-same-class-in-python
我做错了什么?
我也尝试在没有 self.
的情况下使用 clean_root
函数,但是当我从 get_root_folder_names
函数调用它时,我得到了 NameError: name 'clean_tree' is not defined
.
问题不在于从其他函数调用函数。它混淆了纯函数和那些有副作用的函数。
函数cleanup_namespaces
returnsNone
。它修改树,而不是创建一个新树(这就像初学者经常遇到的问题list.sort
)。
将clean_root
函数的结尾改成这样:
etree.cleanup_namespaces(root)
return root
我写了一个小 class 用于 抓取 一个网页,其中包含文件夹中的一些文档,所有这些都托管在 S3 上。我将响应转换为 XML 树,我需要从前缀 URL.
中清除每个元素这是代码和问题:
import requests
from lxml import etree
class scraper():
def __init__(self, BASE_URL, headers):
self.BASE_URL = BASE_URL
self.headers = headers
self.URL = self.BASE_URL + '?delimiter=/'
def clean_root(self, root):
"Needed to clean the URL prefix in front of each XML element"
for elem in root.getiterator():
elem.tag = etree.QName(elem).localname
return etree.cleanup_namespaces(root)
def get_root_folder_names(self):
"Retrieve the folders"
res = requests.get(self.URL, headers=self.headers)
root = etree.XML(res.content)
print(f"{root}") # prints: "root: <Element {http://s3.amazonaws.com/doc/2016-11-11/}ListBucketResult at 0x8f87b456e441>"
print(f"{self.clean_root(root)}") # prints: "None", where it must prints "<Element ListBucketResult at 0x8f87b456e441>"
称之为:
myInstance = scraper(BASE_URL, headers)
myInstance.get_root_folder_names()
如果我从 get_root_folder_names
函数调用 clean_tree(root)
,结果是 None
,就好像它从未被应用过一样。但是 root
确实存在于调用此函数之前,因为它已正确打印。我从这里得到启发:https://www.kite.com/python/answers/how-to-call-an-instance-method-in-the-same-class-in-python
我做错了什么?
我也尝试在没有 self.
的情况下使用 clean_root
函数,但是当我从 get_root_folder_names
函数调用它时,我得到了 NameError: name 'clean_tree' is not defined
.
问题不在于从其他函数调用函数。它混淆了纯函数和那些有副作用的函数。
函数cleanup_namespaces
returnsNone
。它修改树,而不是创建一个新树(这就像初学者经常遇到的问题list.sort
)。
将clean_root
函数的结尾改成这样:
etree.cleanup_namespaces(root)
return root