从 url 解析 bibtex

Question

我需要解析 python 中由 url 引用的 bibtex 文件，例如：“https://www.aclweb.org/anthology/papers/J/J18/J18-1001.bib” 我需要从 bibtex 中提取 "pages" 字段。如何在 python 中实现这一目标？

Answer 1

将其作为字符串读入，然后使用正则表达式获取以下页面的字符串：

import requests
import re

url = 'https://www.aclweb.org/anthology/papers/J/J18/J18-1001.bib'
data = requests.get(url).text

print (re.search(r'(?<=pages = \").*?(?=\",)', data).group())

输出：

'1--15'

从 url 解析 bibtex

Parse bibtex from url

parsing

beautifulsoup

bibtex

pyhook