如何在 Pandas DataFrame 中编辑 Tensorflow 数据集?
How do I edit a Tensorflow dataset in a Pandas DataFrame?
我正在尝试为抽象文本摘要任务构建一个转换器模型。我的数据集是 CNN DM,我正在尝试将这些功能放在 pandas DataFrame 上。
我的代码:
pip install tensorflow_datasets
import tensorflow_datasets as tfds
cnn_builder = tfds.summarization.cnn_dailymail.CnnDailymail()
cnn_info = cnn_builder.info
cnn_builder.download_and_prepare()
datasets = cnn_builder.as_dataset()
train_dataset, test_dataset = datasets["train"], datasets["test"]
reviews = pd.DataFrame({'Text':train_dataset['article'] ,'Summary':train_dataset['highlights'] })
reviews.head()
但输出是:
TypeError Traceback (most recent call last) <ipython-input-45-2da1e32d8eec> in <module>() ----> 1 reviews = pd.DataFrame({'Text':train_ds['article'] ,'Summary':train_ds['highlights'] }) 2 reviews.head() TypeError: 'PrefetchDataset' object is not subscriptable
修复代码后,我得到了这个输出。你能帮我解决这个问题吗!
b“48 岁的 Richard McLuckie 和 51 岁的 Stuart Mackenzie-Walker 发明了游戏。\n获得了 Marmite 所有者联合利华的许可,可以使用其名称和形象。\n然后他们开始投资电视节目,向Dragons 。\n但联合利华合同规定企业家不能提及 Marmite 的名字。\nThree Dragons 退出,但 Peter Jones 和 Duncan Bannatyne 同意。\n他们向这些人支付 \xc2\xa350,000 以获得董事会 40% 的股份游戏业务。
你可以使用as_dataframe
方法。
reviews = tfds.as_dataframe(train_dataset.take(10))
或者您可以遍历数据集以获得 article
和 highlights
:
highlights = []
articles = []
for article_highlight in train_dataset.take(10):
articles.append(article_highlight['article'].numpy())
highlights.append(article_highlight['highlights'].numpy())
reviews = pd.DataFrame({'Text':articles ,'Summary':highlights })
在您的情况下,请注意train_dataset.take(10)
将从数据集中获取 10 个元素。
我正在尝试为抽象文本摘要任务构建一个转换器模型。我的数据集是 CNN DM,我正在尝试将这些功能放在 pandas DataFrame 上。
我的代码:
pip install tensorflow_datasets
import tensorflow_datasets as tfds
cnn_builder = tfds.summarization.cnn_dailymail.CnnDailymail()
cnn_info = cnn_builder.info
cnn_builder.download_and_prepare()
datasets = cnn_builder.as_dataset()
train_dataset, test_dataset = datasets["train"], datasets["test"]
reviews = pd.DataFrame({'Text':train_dataset['article'] ,'Summary':train_dataset['highlights'] })
reviews.head()
但输出是:
TypeError Traceback (most recent call last) <ipython-input-45-2da1e32d8eec> in <module>() ----> 1 reviews = pd.DataFrame({'Text':train_ds['article'] ,'Summary':train_ds['highlights'] }) 2 reviews.head() TypeError: 'PrefetchDataset' object is not subscriptable
修复代码后,我得到了这个输出。你能帮我解决这个问题吗!
b“48 岁的 Richard McLuckie 和 51 岁的 Stuart Mackenzie-Walker 发明了游戏。\n获得了 Marmite 所有者联合利华的许可,可以使用其名称和形象。\n然后他们开始投资电视节目,向Dragons 。\n但联合利华合同规定企业家不能提及 Marmite 的名字。\nThree Dragons 退出,但 Peter Jones 和 Duncan Bannatyne 同意。\n他们向这些人支付 \xc2\xa350,000 以获得董事会 40% 的股份游戏业务。
你可以使用as_dataframe
方法。
reviews = tfds.as_dataframe(train_dataset.take(10))
或者您可以遍历数据集以获得 article
和 highlights
:
highlights = []
articles = []
for article_highlight in train_dataset.take(10):
articles.append(article_highlight['article'].numpy())
highlights.append(article_highlight['highlights'].numpy())
reviews = pd.DataFrame({'Text':articles ,'Summary':highlights })
在您的情况下,请注意train_dataset.take(10)
将从数据集中获取 10 个元素。