如何从雅虎获取历史 ESG 数据?
How to fetch historical ESG data from Yahoo?
我正在尝试使用 Python 从 Yahoo Finance 上的 Sustainalytics 抓取历史 ESG 数据。具体来说,假设我想要给定成分股列表过去 10 年的 ESG 分数。
以下代码行提供最新的 ESG 分数。但我想总结一下过去的 ESG 表现。我基本上是在寻找从 2010 年 1 月到 2020 年 12 月的年度(如果可能的话,每月)ESG。我想自动进行抓取并将数据保存在 txt 或 csv 文件中。
# import yfinance, pandas and os
import yfinance as yf
import pandas as pd
import os
单个股票代码:
msft = "MSFT"
msft_y = yf.Ticker(msft)
esg_data = pd.DataFrame.transpose(msft_y.sustainability)
esg_data['company_ticker'] = str(msft_y ticker)
它 returns 一个 27 行的数据框,涵盖 Microsoft 的 ESG 相关信息。
标准普尔 500 指数代码:
# Import list of tickers from file
os.chdir("C:\...")
sp_500 = pd.read_csv('SP_500_tickers.csv')
# Retrieve Yahoo! Finance Sustainability Scores for each ticker
for i in sp_500['ticker_code']:
# print(i)
i_y = yf.Ticker(i)
try:
if i_y.sustainability is not None:
temp = pd.DataFrame.transpose(i_y.sustainability)
temp['company_ticker'] = str(i_y.ticker)
# print(temp)
esg_data = esg_data.append(temp)
except IndexError:
pass
它 returns 标普 500 成分股的 ESG 数据数据框,我们可以将其用于分析。其背后的想法是创建“好”和“坏”ESG 公司的投资组合,并比较业绩以了解股价在不同历史时期的表现。
到目前为止,这些代码无法获取过去日期的 ESG 数据。
您可以使用 Yahoo Finance 端点,它应该会为您提供每月 ESG 分数、治理分数、环境分数和社会分数。不要认为它可以追溯到那么远:
import pandas as pd
import requests
# Read in your symbols
sp_500 = pd.read_csv("SP_500_tickers.csv")
# Endpoint
url = "https://query2.finance.yahoo.com/v1/finance/esgChart"
# List of dataframes
dataframes = []
for symbol in sp_500["ticker_code"]:
response = requests.get(url, params={"symbol": symbol})
if response.ok:
df = pd.DataFrame(response.json()["esgChart"]["result"][0]["symbolSeries"]
df["symbol"] = symbol
dataframes.append(df)
df = pd.concat(dataframes)
df["timestamp"] = pd.to_datetime(df["timestamp"], unit="s")
预览:
>>> df.head()
timestamp esgScore governanceScore environmentScore socialScore symbol
0 2014-09-01 61.0 62.0 74.0 45.0 AAPL
1 2014-10-01 60.0 62.0 74.0 45.0 AAPL
2 2014-11-01 61.0 62.0 74.0 45.0 AAPL
3 2014-12-01 61.0 62.0 74.0 45.0 AAPL
4 2015-01-01 61.0 62.0 74.0 45.0 AAPL
由于连接被禁止,我无法使用 requests.get。错误 403。所以我尝试使用下面 Whosebug 板上的 urllib.request.urlopen。
访问 Python; urllib error: AttributeError: 'bytes' object has no attribute 'read'
import pandas as pd
from datetime import datetime as dt
import urllib.request
import json
dataframes = []
url = "https://query2.finance.yahoo.com/v1/finance/esgChart?symbol=A"
connection = urllib.request.urlopen(url)
data = connection.read()
data_2 = json.loads(data)
Formatdata = data_2["esgChart"]["result"][0]["symbolSeries"]
Formatdata_2 = pd.DataFrame(Formatdata)
Formatdata_2["timestamp"] = pd.to_datetime(Formatdata_2["timestamp"], unit="s")
预览打印 putty 显示的数据
print(Formatdata_2.head())
其余代码改编自putty
我正在尝试使用 Python 从 Yahoo Finance 上的 Sustainalytics 抓取历史 ESG 数据。具体来说,假设我想要给定成分股列表过去 10 年的 ESG 分数。
以下代码行提供最新的 ESG 分数。但我想总结一下过去的 ESG 表现。我基本上是在寻找从 2010 年 1 月到 2020 年 12 月的年度(如果可能的话,每月)ESG。我想自动进行抓取并将数据保存在 txt 或 csv 文件中。
# import yfinance, pandas and os
import yfinance as yf
import pandas as pd
import os
单个股票代码:
msft = "MSFT"
msft_y = yf.Ticker(msft)
esg_data = pd.DataFrame.transpose(msft_y.sustainability)
esg_data['company_ticker'] = str(msft_y ticker)
它 returns 一个 27 行的数据框,涵盖 Microsoft 的 ESG 相关信息。
标准普尔 500 指数代码:
# Import list of tickers from file
os.chdir("C:\...")
sp_500 = pd.read_csv('SP_500_tickers.csv')
# Retrieve Yahoo! Finance Sustainability Scores for each ticker
for i in sp_500['ticker_code']:
# print(i)
i_y = yf.Ticker(i)
try:
if i_y.sustainability is not None:
temp = pd.DataFrame.transpose(i_y.sustainability)
temp['company_ticker'] = str(i_y.ticker)
# print(temp)
esg_data = esg_data.append(temp)
except IndexError:
pass
它 returns 标普 500 成分股的 ESG 数据数据框,我们可以将其用于分析。其背后的想法是创建“好”和“坏”ESG 公司的投资组合,并比较业绩以了解股价在不同历史时期的表现。
到目前为止,这些代码无法获取过去日期的 ESG 数据。
您可以使用 Yahoo Finance 端点,它应该会为您提供每月 ESG 分数、治理分数、环境分数和社会分数。不要认为它可以追溯到那么远:
import pandas as pd
import requests
# Read in your symbols
sp_500 = pd.read_csv("SP_500_tickers.csv")
# Endpoint
url = "https://query2.finance.yahoo.com/v1/finance/esgChart"
# List of dataframes
dataframes = []
for symbol in sp_500["ticker_code"]:
response = requests.get(url, params={"symbol": symbol})
if response.ok:
df = pd.DataFrame(response.json()["esgChart"]["result"][0]["symbolSeries"]
df["symbol"] = symbol
dataframes.append(df)
df = pd.concat(dataframes)
df["timestamp"] = pd.to_datetime(df["timestamp"], unit="s")
预览:
>>> df.head()
timestamp esgScore governanceScore environmentScore socialScore symbol
0 2014-09-01 61.0 62.0 74.0 45.0 AAPL
1 2014-10-01 60.0 62.0 74.0 45.0 AAPL
2 2014-11-01 61.0 62.0 74.0 45.0 AAPL
3 2014-12-01 61.0 62.0 74.0 45.0 AAPL
4 2015-01-01 61.0 62.0 74.0 45.0 AAPL
由于连接被禁止,我无法使用 requests.get。错误 403。所以我尝试使用下面 Whosebug 板上的 urllib.request.urlopen。 访问 Python; urllib error: AttributeError: 'bytes' object has no attribute 'read'
import pandas as pd
from datetime import datetime as dt
import urllib.request
import json
dataframes = []
url = "https://query2.finance.yahoo.com/v1/finance/esgChart?symbol=A"
connection = urllib.request.urlopen(url)
data = connection.read()
data_2 = json.loads(data)
Formatdata = data_2["esgChart"]["result"][0]["symbolSeries"]
Formatdata_2 = pd.DataFrame(Formatdata)
Formatdata_2["timestamp"] = pd.to_datetime(Formatdata_2["timestamp"], unit="s")
预览打印 putty 显示的数据
print(Formatdata_2.head())
其余代码改编自putty