如何获取 .html 网页中使用的数据?

How to get the data used in a .html web page?

我想在 .html 页面上获取游戏中使用的问题。 游戏在这个link:http://www.tv5monde.com/TV5Site/qpuc/qpuc_frameset.html 这是一个著名的电视节目,类似于法国的 Jeopardy,并且有一个随机提问的在线版本。我想知道是否有可能获得此页面中使用的问题和答案的列表,如果由于 link 或其他原因而有某种数据库文件可用?

我不太擅长那些东西,所以如果你能帮忙就太好了。

提前致谢

除非有官方文档way/api,否则您需要发挥创意。对于这些类型的数据抓取任务,用于端到端测试的相同工具可能很有用。例如。柏树可用于此。当然你需要考虑你想做的事情实际上是不合法的,你需要谨慎行事。

"I want to know if it's possible to get the list of the questions and answers that are used in this page, if there is a sort of database file available "

您可以使用浏览器自带的"Developer Tools"(例如:在Chrome中使用ctrl+shift+i打开该工具)。从那里您可以看到通过 http 请求访问的所有文件。

  • 查看是否正在访问 .txt.xml.json 等文件,

  • 在新选项卡中查看内容,其中可能包含问题。

对于这个问题,问题存储在文件 gameXXX.txt 中,其中 XXX1200[=48 之间的数字=].

http://www.tv5monde.com/TV5Site/qpuc/games/game1.txt

示例:

http://www.tv5monde.com/TV5Site/qpuc/games/game1.txt

http://www.tv5monde.com/TV5Site/qpuc/games/game85.txt

http://www.tv5monde.com/TV5Site/qpuc/games/game200.txt