如何在 Pandas DataFrame 中编辑 Tensorflow 数据集？

Question

我正在尝试为抽象文本摘要任务构建一个转换器模型。我的数据集是 CNN DM，我正在尝试将这些功能放在 pandas DataFrame 上。

我的代码：

pip install tensorflow_datasets
import tensorflow_datasets as tfds

cnn_builder = tfds.summarization.cnn_dailymail.CnnDailymail()
cnn_info = cnn_builder.info
cnn_builder.download_and_prepare()
datasets = cnn_builder.as_dataset()
train_dataset, test_dataset = datasets["train"], datasets["test"]

reviews = pd.DataFrame({'Text':train_dataset['article'] ,'Summary':train_dataset['highlights'] }) 
reviews.head()

但输出是：

TypeError Traceback (most recent call last) <ipython-input-45-2da1e32d8eec> in <module>() ----> 1 reviews = pd.DataFrame({'Text':train_ds['article'] ,'Summary':train_ds['highlights'] }) 2 reviews.head() TypeError: 'PrefetchDataset' object is not subscriptable

修复代码后，我得到了这个输出。你能帮我解决这个问题吗！

b“48 岁的 Richard McLuckie 和 51 岁的 Stuart Mackenzie-Walker 发明了游戏。\n获得了 Marmite 所有者联合利华的许可，可以使用其名称和形象。\n然后他们开始投资电视节目，向Dragons 。\n但联合利华合同规定企业家不能提及 Marmite 的名字。\nThree Dragons 退出，但 Peter Jones 和 Duncan Bannatyne 同意。\n他们向这些人支付 \xc2\xa350,000 以获得董事会 40% 的股份游戏业务。

Answer 1

你可以使用as_dataframe方法。

reviews = tfds.as_dataframe(train_dataset.take(10))

或者您可以遍历数据集以获得 article 和 highlights:

highlights = []
articles = []

for article_highlight in train_dataset.take(10):
  articles.append(article_highlight['article'].numpy())
  highlights.append(article_highlight['highlights'].numpy())

reviews = pd.DataFrame({'Text':articles ,'Summary':highlights })

在您的情况下，请注意train_dataset.take(10)将从数据集中获取 10 个元素。

如何在 Pandas DataFrame 中编辑 Tensorflow 数据集？

How do I edit a Tensorflow dataset in a Pandas DataFrame?

python

pandas

tensorflow

nlp

tensorflow-datasets