尝试使用 HtmlUnit 解析 ember 应用程序时出错
Errors while trying to parse ember app with HtmlUnit
所以我有一个 Ember 应用程序,我需要拍摄快照以供抓取。 Ember 应用程序使用 Google+ API 来唱歌。它还在索引页面中嵌入了一个 Youtube 视频。我使用 HtmlUnit v2.15
.
我正在使用以下代码来初始化 HtmlUnit:
// use the headless browser to obtain an HTML snapshot
final WebClient webClient = new WebClient(BrowserVersion.CHROME);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setActiveXNative(true);
webClient.getOptions().setAppletEnabled(true);
webClient.getOptions().setCssEnabled(true);
webClient.getOptions().setUseInsecureSSL(true);
webClient.getOptions().setThrowExceptionOnScriptError(false);
HtmlPage page = webClient.getPage(originalUrl);
// important! Give the headless browser enough time to execute JavaScript
// The exact time to wait may depend on your application.
webClient.waitForBackgroundJavaScript(5000);
// return the snapshot
logger.info("Writing snapshot for URL: " + originalUrl);
response.getWriter().write(page.asXml());
webClient.closeAllWindows();
现在,所有 3 个主要浏览器版本(CHROME、INTERNET_EXPLORER_11、FIREFOX_24):
runtimeError: message=[An invalid or illegal selector was specified (selector: '*,:x' error: Invalid selector: *:x).] sourceName=[http://www.domain.com/assets/vendor.js] line=[1351] lineSource=[null] lineOffset=[0]
来自 vendor.js 的片段:
// Opera 10-11 does not throw on post-comma invalid pseudos
div.querySelectorAll("*,:x"); // line 1351 is the problem
rbuggyQSA.push(",.*:");
然后,我只有 FIREFOX_24 和 INTERNET_EXPLORER_11[=77 才会出现以下类型的错误=]:
Invalid rpc message origin. https://accounts.google.com vs http://www.domain.com
Invalid rpc message origin. https://apis.google.com vs http://www.domain.com
这只发生在 INTERNET_EXPLORER_11:
runtimeError: message=[Automation server can't create object for 'ShockwaveFlash.ShockwaveFlash.7'.] sourceName=[https://s.ytimg.com/yts/jsbin/www-embed-player-vflWiCusa/www-embed-player.js] line=[59] lineSource=[null] lineOffset=[0]
最后,这只发生在 CHROME:
[com.gargoylesoftware.htmlunit.javascript.host.xml.XMLHttpRequest.open(XMLHttpRequest.java:534)]Unable to initialize XMLHttpRequest using malformed URL 'chrome-extension://boadgeojelhgndaghljhdicfkmllpafd/cast_sender.js'.
此外,如果我想在网络浏览器中检查 HtmlUnit 处理的结果(Chrome Linux 在这种情况下),生成的页面不会呈现,它只是:
This page contains the following errors:
error on line 23 at column 5: Encoding error
Below is a rendering of the page up to the first error.
embed[type*="application/x-shockwave-flash"],embed[src*=".swf"],object[type*="application/x-shockwave-flash"],object[codetype*="application/x-shockwave-flash"],object[src*=".swf"],object[codebase*="swflash.cab"],object[classid*="D27CDB6E-AE6D-11cf-96B8-444553540000"],object[classid*="d27cdb6e-ae6d-11cf-96b8-444553540000"],object[classid*="D27CDB6E-AE6D-11cf-96B8-444553540000"]{ display: none !important;}
更新:
我刚刚将 HtmlUnit
更新为 v2.16
。
页面根本不呈现的部分原因是 flash 插件集成(如下面所述,它似乎已在 v2.16 中修复)以及索引页面中存在的非 UTF-8 字符。所以部分是我的坏处。因此,页面现在按预期呈现,没有问题。尽管如此,仍然存在一些解析问题,如下所述。
- 未使用 CHROME 或 FIREFOX_31 修复。 已修复 INTERNET_EXPLORER_11
- 未修复。除了 FIREFOX_31,现在还出现在 CHROME 中。 已在 IE_11.
中修复
- 已在 IE_11.
中修复
- 已在 CHROME.
中修复
- 新 CHROME 问题,FIREFOX_31:
Rhino runtime detected object
com.gargoylesoftware.htmlunit.ScriptException: Exception invoking
resolve of class com.gargoylesoftware.htmlunit.ScriptException where
it expected String, Number, Boolean or Scriptable instance. Please
check your code for missing Context.javaToJS() call.
- 新问题 IE_11:
runtimeError: message=[An invalid or illegal selector was specified
(selector: ':enabled' error: Syntax Error).]
sourceName=[http://www.domain.com/assets/vendor.js] line=[1346]
lineSource=[null] lineOffset=[0]
第 1346 行的代码段:
// FF 3.5 - :enabled/:disabled and hidden elements (hidden elements are still enabled)
// IE8 throws error here and will not see later tests
if ( !div.querySelectorAll(":enabled").length ) {
rbuggyQSA.push( ":enabled", ":disabled" );
}
综上所述,在最新版本的HtmlUnit v2.16中,IE_11只有1个错误,而CHROME和FIREFOX_31有3个错误。因此,我将切换使用 IE_11 并将 HtmlUnit 的日志阈值更改为 FATAL 而不是 ERROR,以免被第 1 个问题的错误电子邮件所淹没。更好,我会给你,但仍然不完美。也许明年的更新? :)
为了解决上述大部分问题,将 HtmlUnit
更新为 v2.16
并将浏览器版本设置为 INTERNET_EXPLORER_11
。在我的例子中,只剩下 1 个错误。为了从我们的邮件程序日志中消除这个错误,我将日志级别阈值设置为 FATAL
而不是 ERROR
。为此,请在 log4j.properties
文件中添加以下行。
log4j.logger.com.gargoylesoftware.htmlunit=FATAL
还要确保并仔细检查结果 XML 中的所有字符是否都经过 UTF-8
编码。
所以我有一个 Ember 应用程序,我需要拍摄快照以供抓取。 Ember 应用程序使用 Google+ API 来唱歌。它还在索引页面中嵌入了一个 Youtube 视频。我使用 HtmlUnit v2.15
.
我正在使用以下代码来初始化 HtmlUnit:
// use the headless browser to obtain an HTML snapshot
final WebClient webClient = new WebClient(BrowserVersion.CHROME);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setActiveXNative(true);
webClient.getOptions().setAppletEnabled(true);
webClient.getOptions().setCssEnabled(true);
webClient.getOptions().setUseInsecureSSL(true);
webClient.getOptions().setThrowExceptionOnScriptError(false);
HtmlPage page = webClient.getPage(originalUrl);
// important! Give the headless browser enough time to execute JavaScript
// The exact time to wait may depend on your application.
webClient.waitForBackgroundJavaScript(5000);
// return the snapshot
logger.info("Writing snapshot for URL: " + originalUrl);
response.getWriter().write(page.asXml());
webClient.closeAllWindows();
现在,所有 3 个主要浏览器版本(CHROME、INTERNET_EXPLORER_11、FIREFOX_24):
runtimeError: message=[An invalid or illegal selector was specified (selector: '*,:x' error: Invalid selector: *:x).] sourceName=[http://www.domain.com/assets/vendor.js] line=[1351] lineSource=[null] lineOffset=[0]
来自 vendor.js 的片段:
// Opera 10-11 does not throw on post-comma invalid pseudos
div.querySelectorAll("*,:x"); // line 1351 is the problem
rbuggyQSA.push(",.*:");
然后,我只有 FIREFOX_24 和 INTERNET_EXPLORER_11[=77 才会出现以下类型的错误=]:
Invalid rpc message origin. https://accounts.google.com vs http://www.domain.com Invalid rpc message origin. https://apis.google.com vs http://www.domain.com
这只发生在 INTERNET_EXPLORER_11:
runtimeError: message=[Automation server can't create object for 'ShockwaveFlash.ShockwaveFlash.7'.] sourceName=[https://s.ytimg.com/yts/jsbin/www-embed-player-vflWiCusa/www-embed-player.js] line=[59] lineSource=[null] lineOffset=[0]
最后,这只发生在 CHROME:
[com.gargoylesoftware.htmlunit.javascript.host.xml.XMLHttpRequest.open(XMLHttpRequest.java:534)]Unable to initialize XMLHttpRequest using malformed URL 'chrome-extension://boadgeojelhgndaghljhdicfkmllpafd/cast_sender.js'.
此外,如果我想在网络浏览器中检查 HtmlUnit 处理的结果(Chrome Linux 在这种情况下),生成的页面不会呈现,它只是:
This page contains the following errors:
error on line 23 at column 5: Encoding error
Below is a rendering of the page up to the first error.
embed[type*="application/x-shockwave-flash"],embed[src*=".swf"],object[type*="application/x-shockwave-flash"],object[codetype*="application/x-shockwave-flash"],object[src*=".swf"],object[codebase*="swflash.cab"],object[classid*="D27CDB6E-AE6D-11cf-96B8-444553540000"],object[classid*="d27cdb6e-ae6d-11cf-96b8-444553540000"],object[classid*="D27CDB6E-AE6D-11cf-96B8-444553540000"]{ display: none !important;}
更新:
我刚刚将 HtmlUnit
更新为 v2.16
。
页面根本不呈现的部分原因是 flash 插件集成(如下面所述,它似乎已在 v2.16 中修复)以及索引页面中存在的非 UTF-8 字符。所以部分是我的坏处。因此,页面现在按预期呈现,没有问题。尽管如此,仍然存在一些解析问题,如下所述。
- 未使用 CHROME 或 FIREFOX_31 修复。 已修复 INTERNET_EXPLORER_11
- 未修复。除了 FIREFOX_31,现在还出现在 CHROME 中。 已在 IE_11. 中修复
- 已在 IE_11. 中修复
- 已在 CHROME. 中修复
- 新 CHROME 问题,FIREFOX_31:
Rhino runtime detected object com.gargoylesoftware.htmlunit.ScriptException: Exception invoking resolve of class com.gargoylesoftware.htmlunit.ScriptException where it expected String, Number, Boolean or Scriptable instance. Please check your code for missing Context.javaToJS() call.
- 新问题 IE_11:
runtimeError: message=[An invalid or illegal selector was specified (selector: ':enabled' error: Syntax Error).] sourceName=[http://www.domain.com/assets/vendor.js] line=[1346] lineSource=[null] lineOffset=[0]
第 1346 行的代码段:
// FF 3.5 - :enabled/:disabled and hidden elements (hidden elements are still enabled)
// IE8 throws error here and will not see later tests
if ( !div.querySelectorAll(":enabled").length ) {
rbuggyQSA.push( ":enabled", ":disabled" );
}
综上所述,在最新版本的HtmlUnit v2.16中,IE_11只有1个错误,而CHROME和FIREFOX_31有3个错误。因此,我将切换使用 IE_11 并将 HtmlUnit 的日志阈值更改为 FATAL 而不是 ERROR,以免被第 1 个问题的错误电子邮件所淹没。更好,我会给你,但仍然不完美。也许明年的更新? :)
为了解决上述大部分问题,将 HtmlUnit
更新为 v2.16
并将浏览器版本设置为 INTERNET_EXPLORER_11
。在我的例子中,只剩下 1 个错误。为了从我们的邮件程序日志中消除这个错误,我将日志级别阈值设置为 FATAL
而不是 ERROR
。为此,请在 log4j.properties
文件中添加以下行。
log4j.logger.com.gargoylesoftware.htmlunit=FATAL
还要确保并仔细检查结果 XML 中的所有字符是否都经过 UTF-8
编码。