根据字符串的起始关键字和结束关键字切割字符串python
Cutting a string based on the start keyword and end key word of the string python
我有一个 pdf,我是通过 python 中的 Tika 包阅读的。 tika 似乎只能阅读整个 pdf,而我只需要阅读第一页。
我的代码如下:
from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']
我想按开始关键字和结束关键字拆分原始文本。我该怎么做?
你可以用regex
来select你感兴趣的文字,例如:
import re
raw_text = 'this is a sample of text'
start = 'is'
end = 'of'
start_index = re.search(r'\b' + start + r'\b', raw_text).start()
end_index = re.search(r'\b' + end + r'\b', raw_text).end()
section_of_text = raw_text[start_index:end_index]
print(section_of_text)
>>> "is a sample of"
我有一个 pdf,我是通过 python 中的 Tika 包阅读的。 tika 似乎只能阅读整个 pdf,而我只需要阅读第一页。
我的代码如下:
from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']
我想按开始关键字和结束关键字拆分原始文本。我该怎么做?
你可以用regex
来select你感兴趣的文字,例如:
import re
raw_text = 'this is a sample of text'
start = 'is'
end = 'of'
start_index = re.search(r'\b' + start + r'\b', raw_text).start()
end_index = re.search(r'\b' + end + r'\b', raw_text).end()
section_of_text = raw_text[start_index:end_index]
print(section_of_text)
>>> "is a sample of"