截断 python 中的长字符串 - 但仅在特定字符之后
Truncate a long string in python - but only after specific character
我使用 textwrap
将一个长字符串分成块,每个块限制为 280 个字符。不过,我不希望分裂是随机发生的;它应该只出现在特定字符之后。在我的例子中,在 €
符号和一个换行符 \n
.
之后
这是我的代码:
query = 'Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n Lorem ipsum 0.2€\n (...)'
for item in [query]:
# obtain length of string
item_length = len(item)
# check length
if item_length <= 280:
# do something here
elif item_length >= 280:
item_length_limit = item_length / 280
# determine the number of items
item_chunk_length = item_length / math.ceil(item_length_limit)
# chunk the item into individual pieces
item_chunks = textwrap.wrap(item, math.ceil(
item_chunk_length), break_long_words=False, replace_whitespace=False)
# iterate over the chunks
for x, chunk in zip(range(len(item_chunks)), item_chunks):
if x == 0:
print(f'{chunk} 1/{len(item_chunks)}')
else:
print(f'{chunk} {x+1}/{len(item_chunks)}')
当前输出(为方便起见分成 60 个字符):
Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n Lorem ipsum 1/3
dolor 0.2€\n Lorem ipsum 0.4€\n Lorem ipsum 0.4€\n Lorem 2/3
Ipsum 0.4€ 3/3
期望的输出:
Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n 1/4
Lorem ipsum dolor 0.2€\n 2/4
Lorem ipsum 0.4€\n Lorem ipsum 0.4€\n 3/4
Lorem Ipsum 0.4€ 4/4
我不是 100% 确定我理解你的问题,但你在寻找类似的东西吗?
query.split('€\n')
每当您遇到“€\n”字符时,它都会创建一个列表,其中每个条目都是字符串的片段 in-between。
这不是最好的算法,但可以完成工作。
import re
query = "<String> I used & as a seperator"
query = f"{'a'*100}&{'b'*150}&{'c'*210}&{'d'*200}&{'e'*70}&"
chunks = re.split('&',query)
def joiner(chunks):
i = 0
s = ""
newchunks = []
while (i<len(chunks)):
try:
if len(chunks[i]) + len(chunks[i+1]) < 280:
newchunks.append(chunks[i]+chunks[i+1])
i += 1
else:
newchunks.append(chunks[i])
i+= 1
except IndexError:
newchunks.append(chunks[i])
i += 1
if chunks == newchunks:##if at maximum chunking
return chunks
else:
return joiner(newchunks)
要打印出值,只需打印此函数的return值
这会起作用
query = r'Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n Lorem ipsum 0.2€\n (...)'
#raw required
split_string = query.split(r"0.5€\n")
for i in split_string:
print(i)
这会将字符串拆分为一个数组,然后打印结果
希望对您有所帮助:)
我使用 textwrap
将一个长字符串分成块,每个块限制为 280 个字符。不过,我不希望分裂是随机发生的;它应该只出现在特定字符之后。在我的例子中,在 €
符号和一个换行符 \n
.
这是我的代码:
query = 'Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n Lorem ipsum 0.2€\n (...)'
for item in [query]:
# obtain length of string
item_length = len(item)
# check length
if item_length <= 280:
# do something here
elif item_length >= 280:
item_length_limit = item_length / 280
# determine the number of items
item_chunk_length = item_length / math.ceil(item_length_limit)
# chunk the item into individual pieces
item_chunks = textwrap.wrap(item, math.ceil(
item_chunk_length), break_long_words=False, replace_whitespace=False)
# iterate over the chunks
for x, chunk in zip(range(len(item_chunks)), item_chunks):
if x == 0:
print(f'{chunk} 1/{len(item_chunks)}')
else:
print(f'{chunk} {x+1}/{len(item_chunks)}')
当前输出(为方便起见分成 60 个字符):
Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n Lorem ipsum 1/3
dolor 0.2€\n Lorem ipsum 0.4€\n Lorem ipsum 0.4€\n Lorem 2/3
Ipsum 0.4€ 3/3
期望的输出:
Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n 1/4
Lorem ipsum dolor 0.2€\n 2/4
Lorem ipsum 0.4€\n Lorem ipsum 0.4€\n 3/4
Lorem Ipsum 0.4€ 4/4
我不是 100% 确定我理解你的问题,但你在寻找类似的东西吗?
query.split('€\n')
每当您遇到“€\n”字符时,它都会创建一个列表,其中每个条目都是字符串的片段 in-between。
这不是最好的算法,但可以完成工作。
import re
query = "<String> I used & as a seperator"
query = f"{'a'*100}&{'b'*150}&{'c'*210}&{'d'*200}&{'e'*70}&"
chunks = re.split('&',query)
def joiner(chunks):
i = 0
s = ""
newchunks = []
while (i<len(chunks)):
try:
if len(chunks[i]) + len(chunks[i+1]) < 280:
newchunks.append(chunks[i]+chunks[i+1])
i += 1
else:
newchunks.append(chunks[i])
i+= 1
except IndexError:
newchunks.append(chunks[i])
i += 1
if chunks == newchunks:##if at maximum chunking
return chunks
else:
return joiner(newchunks)
要打印出值,只需打印此函数的return值
这会起作用
query = r'Lorem ipsum dolor\n\n Lorem ipsum 0.5€\n Lorem ipsum 0.2€\n (...)'
#raw required
split_string = query.split(r"0.5€\n")
for i in split_string:
print(i)
这会将字符串拆分为一个数组,然后打印结果
希望对您有所帮助:)