如何删除 python 中的部分文本

how to delete a part of a text in python

我是 python 的新手,所以遇到了这个问题:

有一个类似

的txt文件
blahh
blah
blah 
...
<start>
 some stuff
</start>
even more blah blah blah

我想删除 <start> 之前和 </start> 之后的所有废话部分。 (主要是从这个link出来的。我想把页面里html的东西做成bs4,所以我想我得先删除所有非html的部分。

谁能告诉我最好的方法是什么?感谢任何帮助!

不,您不需要删除文件中不相关的部分。让 BeautifulSoup 按原样解析完整文件并找到您需要的标签:

from urllib2 import urlopen
from bs4 import BeautifulSoup

url = 'http://www.sec.gov/Archives/edgar/data/70858/000119312507058027/0001193125-07-058027.txt'
soup = BeautifulSoup(urlopen(url))
print(soup.document)