使用网络抓取获取标签内的第一行文本
get the first line of text inside a tag using webscraping
我需要使用 python 网页抓取代码获取标签内的第一行文本。
预计输出:1995 年 9 月 22 日
代码html是这样的
<div class="txt-block">
<h4 class="inline">Release Date:</h4> 22 September 1995 (USA)
<span class="see-more inline">
<a href="releaseinfo?ref_=tt_dt_dt">See more</a> »
</span></div>
我获取数据的代码是
soup.find('div', {"class": "txt-block"}).text
输出为:发行日期:1995 年 9 月 22 日(美国)查看更多
我会这样做
text = soup.find('h4').next_sibling
text.replace('(USA)','')
或
text = soup.find('h4',{'class','inline'}).next_sibling
text.replace('(USA)','')
您可以使用正则表达式从文本中排除括号 (USA)
。
使用正则表达式从字符串中删除特定单词
text = soup.find('h4',{'class','inline'}).next_sibling
import re
text = re.sub(r'\s\(.+\)','',text)
这将从该字符串中删除任何其他括号中包含的单词。
我需要使用 python 网页抓取代码获取标签内的第一行文本。
预计输出:1995 年 9 月 22 日
代码html是这样的
<div class="txt-block">
<h4 class="inline">Release Date:</h4> 22 September 1995 (USA)
<span class="see-more inline">
<a href="releaseinfo?ref_=tt_dt_dt">See more</a> »
</span></div>
我获取数据的代码是
soup.find('div', {"class": "txt-block"}).text
输出为:发行日期:1995 年 9 月 22 日(美国)查看更多
我会这样做
text = soup.find('h4').next_sibling
text.replace('(USA)','')
或
text = soup.find('h4',{'class','inline'}).next_sibling
text.replace('(USA)','')
您可以使用正则表达式从文本中排除括号 (USA)
。
使用正则表达式从字符串中删除特定单词
text = soup.find('h4',{'class','inline'}).next_sibling
import re
text = re.sub(r'\s\(.+\)','',text)
这将从该字符串中删除任何其他括号中包含的单词。