使用 Python 进行网络挖掘

Question

我打算用 Python.After 抓取汇率我从 HTML 页面获取原始数据，我需要什么样的处理来为我的 output/visualization 做好准备？我需要一些文本处理、NLP 算法、图形处理或数据清理吗？

Answer 1

我不知道你到底需要什么，但根据你的评论，你可以使用以下代码从该页面中提取所有数据：

import urllib
import bs4
url=urllib.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read().decode('Windows-1252')
soup=bs4.BeautifulSoup(url)
data=soup.get_text(' ')
print(data)

此脚本写于 python 2.7，您需要安装 beautifulsoup4。

或者您可以使用以下代码。在这段代码中，我提取了美元汇率：

import urllib.request
import xml.etree.ElementTree as ET
url=urllib.request.urlopen('http://www.tcmb.gov.tr/kurlar/201501/02012015.xml').read()
f=open('data.xml','w+b')
f.write(url)
f.close()
tree = ET.parse('data.xml')
root = tree.getroot()
for i in range(len(root[0])):
           print(root[0][i].text)

或者您可以提取 ForexBuying 的所有汇率：

for i in root.iter('ForexBuying'):
    print(i.text)

使用 Python 进行网络挖掘

Web Mining with Python

python

web-scraping

web