如何 运行 在 Refextract 上将多个文件放在一起
How to run multiple files together on Refextract
我是python的新手,我需要从科学文献中提取参考资料。以下是我使用的代码
from refextract import extract_references_from_file
import pandas as pd
references = extract_references_from_file('1503.07589.pdf')
dfref = pd.DataFrame(references)
dfref.to_excel('./refs.xlsx')
我只能使用此命令一次从单个文件中提取引用,但我需要同时从多个文件中提取引用。所以,请指导我是否可能以及如何去做。非常感谢!
docs 声称提取的引用作为 dict
.
返回
Returns a dictionary with extracted references and stats.
这不太准确;
返回 list
of dict
s,
每个参考文献一本字典。
所以您只需要建立一个更长的列表。
from refextract import extract_references_from_file
higgs_papers = ['1503.07589', '2008.05492']
references = []
for paper in higgs_papers:
references.extend(extract_references_from_file(f'/tmp/{paper}.pdf'))
现在你有一个更大的列表,references
,你可以变成一个更大的 df
。
您可能还会发现 glob 方便:
import glob
files = glob.glob('/tmp/*.pdf')
我是python的新手,我需要从科学文献中提取参考资料。以下是我使用的代码
from refextract import extract_references_from_file
import pandas as pd
references = extract_references_from_file('1503.07589.pdf')
dfref = pd.DataFrame(references)
dfref.to_excel('./refs.xlsx')
我只能使用此命令一次从单个文件中提取引用,但我需要同时从多个文件中提取引用。所以,请指导我是否可能以及如何去做。非常感谢!
docs 声称提取的引用作为 dict
.
Returns a dictionary with extracted references and stats.
这不太准确;
返回 list
of dict
s,
每个参考文献一本字典。
所以您只需要建立一个更长的列表。
from refextract import extract_references_from_file
higgs_papers = ['1503.07589', '2008.05492']
references = []
for paper in higgs_papers:
references.extend(extract_references_from_file(f'/tmp/{paper}.pdf'))
现在你有一个更大的列表,references
,你可以变成一个更大的 df
。
您可能还会发现 glob 方便:
import glob
files = glob.glob('/tmp/*.pdf')