要在 python 中列出的 docx
docx to list in python
我正在尝试读取 docx 文件并将文本添加到列表中。
现在我需要列表包含 docx 文件中的行。
示例:
docx 文件:
"Hello, my name is blabla,
I am 30 years old.
I have two kids."
结果:
['Hello, my name is blabla', 'I am 30 years old', 'I have two kids']
我无法让它工作。
使用此处的 docx2txt
模块:
github link
进程只有一个命令,它returns docx 文件中的所有文本。
另外我希望它保留像 ":\-\.\,"
这样的特殊字符
docx2txt模块读取docx文件并将其转换为文本格式。
您需要使用 splitlines()
拆分以上输出并将其存储在列表中。
代码(内联注释):
import docx2txt
text = docx2txt.process("a.docx")
#Prints output after converting
print ("After converting text is ",text)
content = []
for line in text.splitlines():
#This will ignore empty/blank lines.
if line != '':
#Append to list
content.append(line)
print (content)
输出:
C:\Users\dinesh_pundkar\Desktop>python c.py
After converting text is
Hello, my name is blabla.
I am 30 years old.
I have two kids.
List is ['Hello, my name is blabla.', 'I am 30 years old. ', 'I have two kids.']
C:\Users\dinesh_pundkar\Desktop>
我正在尝试读取 docx 文件并将文本添加到列表中。 现在我需要列表包含 docx 文件中的行。
示例:
docx 文件:
"Hello, my name is blabla,
I am 30 years old.
I have two kids."
结果:
['Hello, my name is blabla', 'I am 30 years old', 'I have two kids']
我无法让它工作。
使用此处的 docx2txt
模块:
github link
进程只有一个命令,它returns docx 文件中的所有文本。
另外我希望它保留像 ":\-\.\,"
docx2txt模块读取docx文件并将其转换为文本格式。
您需要使用 splitlines()
拆分以上输出并将其存储在列表中。
代码(内联注释):
import docx2txt
text = docx2txt.process("a.docx")
#Prints output after converting
print ("After converting text is ",text)
content = []
for line in text.splitlines():
#This will ignore empty/blank lines.
if line != '':
#Append to list
content.append(line)
print (content)
输出:
C:\Users\dinesh_pundkar\Desktop>python c.py
After converting text is
Hello, my name is blabla.
I am 30 years old.
I have two kids.
List is ['Hello, my name is blabla.', 'I am 30 years old. ', 'I have two kids.']
C:\Users\dinesh_pundkar\Desktop>