将参数传递给 pdf2txt 函数
Passing argument to pdf2txt function
我正在尝试使用 PDFMiner 从 PDF 文件中提取文本。我想使用脚本 pdf2txt.py 来 运行
中的示例
http://www.unixuser.org/~euske/python/pdfminer/index.html
单行
pdf2txt.py samples/simple1.pdf
因为我正在使用 IDLE Windows,所以我 运行 IDLE
中的以下脚本
import pdf2txt
pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.pdf'])
每次都给我
用法:C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P password] [-o output] [-C] [ -n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R 旋转] [-t 文本|html|xml|标签] [-c 编解码器] [-s 比例] 文件...
我知道这是一条错误消息,告诉我参数没有被解析。 pdf2txt.py的前几行如下:
def main(argv):
import getopt
def usage():
print ('usage: %s [-d] [-p pagenos] [-m maxpages] [-P password] [-o output]'
' [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin]'
' [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation]'
' [-t text|html|xml|tag] [-c codec] [-s scale]'
' file ...' % argv[0])
return 100
try:
(opts, args) = getopt.getopt(argv[1:], 'dp:m:P:o:CnAVM:L:W:F:Y:O:R:t:c:s:')
except getopt.GetoptError:
如何格式化我的论点以使其成为现实?我知道这是一个愚蠢的问题,但它让我发疯。
请帮帮我!
谢谢,
贾森
更新
按照 Luis 的建议,我将命令更改为
pdf2txt.main(['simple1.html','mypdf.pdf'])
现在它可以在 shell window 中生成输出,但是,我找不到输出文件 'simple1.html',我尝试了以下命令:
pdf2txt.main(['-o C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])
pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])
None 他们在我指定的文件夹中工作和制作文件。
你应该这样称呼它:
pdf2txt.py samples/simple1.txt samples/simple1.pdf
如果你想要,假设 samples/simple1.txt 作为输出。
我正在尝试使用 PDFMiner 从 PDF 文件中提取文本。我想使用脚本 pdf2txt.py 来 运行
中的示例http://www.unixuser.org/~euske/python/pdfminer/index.html
单行
pdf2txt.py samples/simple1.pdf
因为我正在使用 IDLE Windows,所以我 运行 IDLE
中的以下脚本import pdf2txt
pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.pdf'])
每次都给我
用法:C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P password] [-o output] [-C] [ -n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R 旋转] [-t 文本|html|xml|标签] [-c 编解码器] [-s 比例] 文件...
我知道这是一条错误消息,告诉我参数没有被解析。 pdf2txt.py的前几行如下:
def main(argv):
import getopt
def usage():
print ('usage: %s [-d] [-p pagenos] [-m maxpages] [-P password] [-o output]'
' [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin]'
' [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation]'
' [-t text|html|xml|tag] [-c codec] [-s scale]'
' file ...' % argv[0])
return 100
try:
(opts, args) = getopt.getopt(argv[1:], 'dp:m:P:o:CnAVM:L:W:F:Y:O:R:t:c:s:')
except getopt.GetoptError:
如何格式化我的论点以使其成为现实?我知道这是一个愚蠢的问题,但它让我发疯。
请帮帮我!
谢谢,
贾森
更新
按照 Luis 的建议,我将命令更改为
pdf2txt.main(['simple1.html','mypdf.pdf'])
现在它可以在 shell window 中生成输出,但是,我找不到输出文件 'simple1.html',我尝试了以下命令:
pdf2txt.main(['-o C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])
pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])
None 他们在我指定的文件夹中工作和制作文件。
你应该这样称呼它:
pdf2txt.py samples/simple1.txt samples/simple1.pdf
如果你想要,假设 samples/simple1.txt 作为输出。