如何为textsum准备测试数据?
How to prepare test data for textsum?
我已经能够成功运行 TextSum (Tensorflow 1.2.1) 的预训练模型。输出包括 CNN 和 Dailymail 文章的摘要(在测试之前被分块成 bin 格式)。
我还能够为 CNN/Dailymail 篇文章和词汇文件创建上述 bin 格式测试数据(根据说明 here)。但是,我无法创建自己的测试数据来检查摘要的质量。我尝试修改 make_datafiles.py
代码以删除已编码的值。我能够创建标记化文件,但下一步似乎失败了。如果有人可以帮助我了解 url_lists
的用途,那就太好了。根据 github 自述文件 -
"对于每个 url 列表 all_train.txt、all_val.txt 和 all_test.txt,相应的标记化故事从文件中读取,小写和写入序列化二进制文件 train.bin、val.bin 和 test.bin。这些将被放置在新创建的 finished_files 目录中。"
如何将 URL(例如 http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/)映射到我的数据文件夹中的相应故事?如果有人在这方面取得了成功,请让我知道如何去做。提前致谢!
更新:我能够弄清楚如何使用自己的数据来创建用于测试的 bin 文件(并避免完全使用 url_lists
)。
这会很有帮助 - https://github.com/dondon2475848/make_datafiles_for_pgn
一旦我弄清楚如何为此修复 ROGUE 评分,就会更新答案。
我已经能够成功运行 TextSum (Tensorflow 1.2.1) 的预训练模型。输出包括 CNN 和 Dailymail 文章的摘要(在测试之前被分块成 bin 格式)。
我还能够为 CNN/Dailymail 篇文章和词汇文件创建上述 bin 格式测试数据(根据说明 here)。但是,我无法创建自己的测试数据来检查摘要的质量。我尝试修改 make_datafiles.py
代码以删除已编码的值。我能够创建标记化文件,但下一步似乎失败了。如果有人可以帮助我了解 url_lists
的用途,那就太好了。根据 github 自述文件 -
"对于每个 url 列表 all_train.txt、all_val.txt 和 all_test.txt,相应的标记化故事从文件中读取,小写和写入序列化二进制文件 train.bin、val.bin 和 test.bin。这些将被放置在新创建的 finished_files 目录中。"
如何将 URL(例如 http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/)映射到我的数据文件夹中的相应故事?如果有人在这方面取得了成功,请让我知道如何去做。提前致谢!
更新:我能够弄清楚如何使用自己的数据来创建用于测试的 bin 文件(并避免完全使用 url_lists
)。
这会很有帮助 - https://github.com/dondon2475848/make_datafiles_for_pgn
一旦我弄清楚如何为此修复 ROGUE 评分,就会更新答案。