我将如何使用 Python 库 "Wikipedia" 来提取德语文章?
How would I use the Python library "Wikipedia" to extract German articles?
在 Anaconda 中使用 Python 2.7。
我正在尝试仅使用德语维基百科文章构建文本语料库。提取这些并将它们保存为原始文本文件的最简单方法是什么?
我尝试使用维基百科 python 库:
https://pypi.python.org/pypi/wikipedia/
https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random
目前我的想法是这样的:
获取随机维基百科标题列表:
import wikipedia
wikipedia.languages("DE")
titles = {}
for i in range(1, 3000):
titles[i] = wikipedia.random(pages=page)
从每个标题页中提取内容并附加到列表中"test":
test = []
for n in range(1,3000):
test.append[n] = wikipedia.page(title=titles[n],auto_suggest=True, redirect=True).content.encode('utf-8')
将列表写入文本文件:
text_file = open("C:/Users/Cedric Oeldorf/Desktop/University/Research/Data/Gutenberg/wiki/TEST.txt", "w")
text_file.write(test)
text_file.close()
我卡在了第二个循环中。我收到各种错误,从连接错误到
TypeError: 'builtin_function_or_method' object does not support item assignment
当我 运行 这一行时:
wikipedia.page(title=titles[1],auto_suggest=True, redirect=True).content.encode('utf-8')
它returns:
ConnectionError: ('Connection aborted.', BadStatusLine("''",))
以下作品:
import wikipedia
wikipedia.languages("de")
titles = {}
for i in range(500, 30000):
titles[i] = wikipedia.random(pages=page)
print(i,"titles retrieved")
test = {}
dictlist = []
dictlist = titles.values()
for n in range(1,30000):
test[n] = wikipedia.summary(title=dictlist[n],auto_suggest=True, redirect=True).encode('utf-8')
daa = []
daa = test.values()
for i in range(0,29999):
text_file = open("C:/Users/Cedric Oeldorf/Desktop/University/Research/Data/Gutenberg/wiki/TEST2.txt", "a")
text_file.write(daa[i])
text_file.close()
我将 for 循环对象更改为字典。我现在没有收到任何错误。
在 Anaconda 中使用 Python 2.7。
我正在尝试仅使用德语维基百科文章构建文本语料库。提取这些并将它们保存为原始文本文件的最简单方法是什么?
我尝试使用维基百科 python 库:
https://pypi.python.org/pypi/wikipedia/
https://wikipedia.readthedocs.io/en/latest/code.html#wikipedia.random
目前我的想法是这样的:
获取随机维基百科标题列表:
import wikipedia
wikipedia.languages("DE")
titles = {}
for i in range(1, 3000):
titles[i] = wikipedia.random(pages=page)
从每个标题页中提取内容并附加到列表中"test":
test = []
for n in range(1,3000):
test.append[n] = wikipedia.page(title=titles[n],auto_suggest=True, redirect=True).content.encode('utf-8')
将列表写入文本文件:
text_file = open("C:/Users/Cedric Oeldorf/Desktop/University/Research/Data/Gutenberg/wiki/TEST.txt", "w")
text_file.write(test)
text_file.close()
我卡在了第二个循环中。我收到各种错误,从连接错误到
TypeError: 'builtin_function_or_method' object does not support item assignment
当我 运行 这一行时:
wikipedia.page(title=titles[1],auto_suggest=True, redirect=True).content.encode('utf-8')
它returns:
ConnectionError: ('Connection aborted.', BadStatusLine("''",))
以下作品:
import wikipedia
wikipedia.languages("de")
titles = {}
for i in range(500, 30000):
titles[i] = wikipedia.random(pages=page)
print(i,"titles retrieved")
test = {}
dictlist = []
dictlist = titles.values()
for n in range(1,30000):
test[n] = wikipedia.summary(title=dictlist[n],auto_suggest=True, redirect=True).encode('utf-8')
daa = []
daa = test.values()
for i in range(0,29999):
text_file = open("C:/Users/Cedric Oeldorf/Desktop/University/Research/Data/Gutenberg/wiki/TEST2.txt", "a")
text_file.write(daa[i])
text_file.close()
我将 for 循环对象更改为字典。我现在没有收到任何错误。