如何将 csv 数据集中的值导入 python 以进行 t 检验？

Question

这里是新编码员，正在尝试运行在 Python 3.6 中进行一些 t 检验。现在，为了运行我的 2 个数据集之间的 t 检验，我一直在做以下事情：

import plotly.plotly as py
import plotly.graph_objs as go
from plotly.tools import FigureFactory as FF
import numpy as np
import pandas as pd
import scipy
from scipy import stats

long_term_survivor_GENE1 = [-0.38,-0.99,-1.04,0.1, etc..]
short_term_survivor_GENE1 = [0.32, 0.33,0.96, etc...]
stats.ttest_ind(long_term_survivor_GENE1,short_term_survivor_GENE1)

这需要我手动输入每个特定基因（在本例中为 GENE1）的两个数据集的每一列的值。有没有什么方法可以从数据集中调用值，这样 Python 就可以读取这些值，而无需我自己输入它们？例如，我可以用某种方式说：

long_term_survivor_GENE1 = ##call values from GENE1 column from dataset 1##
short_term_survivor_GENE1 = ## call values from GENE1 column from dataset 2##

感谢您的帮助，很抱歉我对这些东西不是很精通。欣赏任何 feedback/tips。如果您有任何其他问题，请告诉我！

Answer 1

如果您已将数据推送到 pandas 数据框的列中，那么它可能就这么简单。

>>> import pandas as pd
>>> long_term_survivor_GENE1 = [-0.38,-0.99,-1.04,0.1]
>>> short_term_survivor_GENE1 = [0.32, 0.33,0.96, 0.56]
>>> df = pd.DataFrame({'long_term_survivor_GENE1': long_term_survivor_GENE1, 'short_term_survivor_GENE1': short_term_survivor_GENE1})
>>> from scipy import stats
>>> stats.ttest_ind(df['long_term_survivor_GENE1'], df['short_term_survivor_GENE1'])
Ttest_indResult(statistic=-3.615804684179662, pvalue=0.011153077626049458)

不过，回顾一下这背后的统计数据可能是个好主意。如果您还没有将它们放入数据框中，那么请在此处查看关于使用 read_csv 寻求帮助的许多答案中的一些。

如何将 csv 数据集中的值导入 python 以进行 t 检验？

How to import values from a column of csv dataset into python for t-test?

csv

statistics

python-3.x

pandas

t-test