根据字符串的起始关键字和结束关键字切割字符串python

Question

我有一个 pdf，我是通过 python 中的 Tika 包阅读的。 tika 似乎只能阅读整个 pdf，而我只需要阅读第一页。

我的代码如下：

from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']

我想按开始关键字和结束关键字拆分原始文本。我该怎么做？

Answer 1

你可以用regex来select你感兴趣的文字，例如：

import re


raw_text = 'this is a sample of text'
start = 'is'
end = 'of'

start_index = re.search(r'\b' + start + r'\b', raw_text).start()
end_index = re.search(r'\b' + end + r'\b', raw_text).end()
section_of_text = raw_text[start_index:end_index]
print(section_of_text)

>>> "is a sample of"

根据字符串的起始关键字和结束关键字切割字符串python

Cutting a string based on the start keyword and end key word of the string python

python

apache-tika