从 CSV 文件中读取列似乎不起作用
Reading columns from a CSV file doesn't seem to work
我有一个 .csv
新闻文章数据集,其中(应该有)出版栏、日期、标题等。当我用 Numbers 打开这个文件时,它完美地显示了这一点,每一栏都被考虑在内。但是,当我尝试使用 Jupyter
笔记本中的文件时,这些列似乎无法正常工作。这是我拥有的:
%matplotlib inline
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_table("filename.csv",encoding="utf-8")
data.columns #and
然后它给了我:
Index(['SEARCH_ROW,PUBLICATION,DATE,TITLE,EDITION,BYLINE,LANGUAGE,SECTION,JOURNAL-CODE,NYT,PUBLICATION-TYPE,LENGTH,LOAD-DATE,TEXT'], dtype='object')
用 Microsoft Excel 打开文件也出现同样的问题;每列都命名为:
SEARCH_ROW,PUBLICATION,DATE,TITLE,EDITION,BYLINE,LANGUAGE,SECTION,JOURNAL-CODE,NYT,PUBLICATION-TYPE,LENGTH,LOAD-DATE,TEXT
有什么办法可以将这个 one-big 列拆分成原来的多列形式吗?
pd.read_table(...) 默认使用 tab
('\t'
) 作为分隔符。
因此尝试明确指定逗号作为分隔符:
pd.read_table(filename, sep=',')
或使用 pd.read_csv(),它默认使用逗号作为分隔符
您可以使用:
data = np.genfromtxt('filename.csv', delimiter=',')
我有一个 .csv
新闻文章数据集,其中(应该有)出版栏、日期、标题等。当我用 Numbers 打开这个文件时,它完美地显示了这一点,每一栏都被考虑在内。但是,当我尝试使用 Jupyter
笔记本中的文件时,这些列似乎无法正常工作。这是我拥有的:
%matplotlib inline
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_table("filename.csv",encoding="utf-8")
data.columns #and
然后它给了我:
Index(['SEARCH_ROW,PUBLICATION,DATE,TITLE,EDITION,BYLINE,LANGUAGE,SECTION,JOURNAL-CODE,NYT,PUBLICATION-TYPE,LENGTH,LOAD-DATE,TEXT'], dtype='object')
用 Microsoft Excel 打开文件也出现同样的问题;每列都命名为:
SEARCH_ROW,PUBLICATION,DATE,TITLE,EDITION,BYLINE,LANGUAGE,SECTION,JOURNAL-CODE,NYT,PUBLICATION-TYPE,LENGTH,LOAD-DATE,TEXT
有什么办法可以将这个 one-big 列拆分成原来的多列形式吗?
pd.read_table(...) 默认使用 tab
('\t'
) 作为分隔符。
因此尝试明确指定逗号作为分隔符:
pd.read_table(filename, sep=',')
或使用 pd.read_csv(),它默认使用逗号作为分隔符
您可以使用:
data = np.genfromtxt('filename.csv', delimiter=',')