如何删除特殊字符并删除字符之间的 space?
How to remove special charactor and remove space between charactors?
我在 scrapy + python 工作。我试图从工作中提取 jobid 数据 url 谁能指导我提取这个数据。
http://xxxxx/apply/EkhIMG/Director-Financial-Planning-Analysis.html
我必须单独提取此内容"Director-Financial-Planning-Analysis"
也需要去掉特殊字符 DirectorFinancialPlanningAnalysis
我的预期输出应该是:DirectorFinancialPlanningAnalysis
我的爬虫代码是:
hxs = Selector(response)
item = response.request.meta['item']
item ['JobDetailUrl'] = response.url
item ['InternalJobId'] = item ['JobDetailUrl'].re('.*\/(.*?)\.html').groups()
我的输出错误:
item ['InternalJobId'] = item['JobDetailUrl'].re('.*\/(.*?)\.html')
.groups()
exceptions.AttributeError: 'str' object has no attribute 're'
re()
是 Selector
对象上的一个方法,这里 response.url
是一个字符串:
re.search(r'([a-zA-Z\-]+)\.html$', response.url).group(1).replace('-', '')
演示:
>>> import re
>>> s = 'http://xxxxx/apply/EkhIMG/Director-Financial-Planning-Analysis.html'
>>> re.search(r'([a-zA-Z\-]+)\.html$', s).group(1).replace('-', '')
'DirectorFinancialPlanningAnalysis'
我在 scrapy + python 工作。我试图从工作中提取 jobid 数据 url 谁能指导我提取这个数据。
http://xxxxx/apply/EkhIMG/Director-Financial-Planning-Analysis.html
我必须单独提取此内容"Director-Financial-Planning-Analysis"
也需要去掉特殊字符 DirectorFinancialPlanningAnalysis
我的预期输出应该是:DirectorFinancialPlanningAnalysis
我的爬虫代码是:
hxs = Selector(response)
item = response.request.meta['item']
item ['JobDetailUrl'] = response.url
item ['InternalJobId'] = item ['JobDetailUrl'].re('.*\/(.*?)\.html').groups()
我的输出错误:
item ['InternalJobId'] = item['JobDetailUrl'].re('.*\/(.*?)\.html')
.groups()
exceptions.AttributeError: 'str' object has no attribute 're'
re()
是 Selector
对象上的一个方法,这里 response.url
是一个字符串:
re.search(r'([a-zA-Z\-]+)\.html$', response.url).group(1).replace('-', '')
演示:
>>> import re
>>> s = 'http://xxxxx/apply/EkhIMG/Director-Financial-Planning-Analysis.html'
>>> re.search(r'([a-zA-Z\-]+)\.html$', s).group(1).replace('-', '')
'DirectorFinancialPlanningAnalysis'