如何删除 python 中的部分文本
how to delete a part of a text in python
我是 python 的新手,所以遇到了这个问题:
有一个类似
的txt文件
blahh
blah
blah
...
<start>
some stuff
</start>
even more blah blah blah
我想删除 <start>
之前和 </start>
之后的所有废话部分。 (主要是从这个link出来的。我想把页面里html的东西做成bs4,所以我想我得先删除所有非html的部分。
谁能告诉我最好的方法是什么?感谢任何帮助!
不,您不需要删除文件中不相关的部分。让 BeautifulSoup
按原样解析完整文件并找到您需要的标签:
from urllib2 import urlopen
from bs4 import BeautifulSoup
url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt'
soup = BeautifulSoup(urlopen(url))
print(soup.document)
我是 python 的新手,所以遇到了这个问题:
有一个类似
的txt文件blahh
blah
blah
...
<start>
some stuff
</start>
even more blah blah blah
我想删除 <start>
之前和 </start>
之后的所有废话部分。 (主要是从这个link出来的。我想把页面里html的东西做成bs4,所以我想我得先删除所有非html的部分。
谁能告诉我最好的方法是什么?感谢任何帮助!
不,您不需要删除文件中不相关的部分。让 BeautifulSoup
按原样解析完整文件并找到您需要的标签:
from urllib2 import urlopen
from bs4 import BeautifulSoup
url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt'
soup = BeautifulSoup(urlopen(url))
print(soup.document)