HTMLUnit input.click() 不返回点击应该加载的网站
HTMLUnit input.click() not returning the site which the click should have made load
我正在尝试让机器人使用 HTMLUnit 随机填写表单。
到目前为止我得到了什么:
WebClient client = new WebClient(BrowserVersion.CHROME);
client.getOptions().setTimeout(60000);
client.getOptions().setRedirectEnabled(true);
client.getOptions().setJavaScriptEnabled(true);
client.getOptions().setThrowExceptionOnFailingStatusCode(false);
client.getOptions().setThrowExceptionOnScriptError(false);
client.getOptions().setCssEnabled(false);
client.getOptions().setUseInsecureSSL(true);
client.setAjaxController(new NicelyResynchronizingAjaxController());
最后一行应该让 AJAX 在后台工作,剩下的就是简单的浏览器配置。
我已经编写了一种方法来正确执行对 DOMElement 的点击,并在后台进行日志记录和适当的等待执行:
public static HtmlPage clickCorrectly(DomElement e, WebClient client) throws IOException {
Main_Win.log("-------------------------------------");
Main_Win.log("Clicking correctly: " + e);
Main_Win.log("Background JS: " + client.waitForBackgroundJavaScript(30000));
Main_Win.log("Click return: " + e.click());
Main_Win.log("Background JS: " + client.waitForBackgroundJavaScript(30000));
WebWindow tmpWebWindow = client.getCurrentWindow();
Main_Win.log("Current Window: " + tmpWebWindow);
Main_Win.log("Returning Enclosed Page: " + tmpWebWindow.getEnclosedPage());
Main_Win.log("Parent Page: " + tmpWebWindow.getParentWindow());
Main_Win.log("Top level Page: " + tmpWebWindow.getTopWindow());
Main_Win.log("-------------------------------------");
return (HtmlPage) tmpWebWindow.getEnclosedPage();
}
这对我的登录过程非常有用。我单击登录按钮,输入我的凭据,然后提交。页面保持不变。所以点击不会改变 page
变量后面的对象。稍后我尝试单击一个实际上是锚标记的按钮:
<a class="btn btn-primary participate-link" data-id="116582" href="javascript:;" onclick="participateSurvey(116582, 'https://www.soscisurvey.de/SprachassistentenG3B/', '')">Jetzt teilnehmen</a>
我正在通过 XPath 获取定位元素:
page.getByXPath("//a[@class='btn btn-primary participate-link']")
然后我将其转换为正确的元素:
HtmlAnchor a = (HtmlAnchor) o;
稍后我会这样调用点击:
clickCorrectly(a, client)
这工作得很好。当我在 Firefox 中手动执行此操作时,我收到了在我的浏览器中加载的页面。
现在来解决我的问题:
List<DomNode> elements = new ArrayList<DomNode>();
elements.addAll(page.getElementsByTagName("input"));
elements.addAll(page.getElementsByTagName("button"));
这些为我提供了我想要处理的所有元素。我正在检查 3 个案例:
DomNode
是属性类型为 "submit"
的 <input>
DomNode
是属性类型为 "button"
的 <input>
DomNode
是一个<button>
if(i.getTypeAttribute().equalsIgnoreCase("submit")) {
if(i.toString().contains("weiter") || i.toString().contains("Weiter")){
Main_Win.log("LOGGING BUTTON RETURN PAGE--------");
Main_Win.log("Page before click: " + page);
page = Main.clickCorrectly(i, client);
Main_Win.log("Page after click: " + page);
Main_Win.log("END LOGGING BUTTON RETURN PAGE--------");
return true;
}
}
"Weiter" 是 "continue" 的德语。我正在检查所有 3 个案例。当您查看日志时,现在发生的事情会更清楚:
如您所见,前后页面不同。
理论上,浏览器现在应该处理不同的页面,因为我将页面变量设置为点击的 return 值。
在我循环的下一次迭代中,前一个 URL 得到处理,而不是我通过单击实现的那个,尽管我将页面设置为它并且循环每次循环循环时都会重新获取所有页面内容。我不明白为什么会这样。
为了更好地理解,这里是整个class:
最终目标是获取调查的最后一页,其中没有继续按钮。
很抱歉 post,感谢您的宝贵时间!
所以实际上参考点就是问题所在。无论出于何种原因,HtmlPage OBJECT 未通过引用传递...我不知道为什么,但这确实花费了我一生的时间。我会把这个留给有同样问题的其他人。
我通过将它传递给全局静态变量来解决它:
public static HtmlPage page = null;
并且只在开始时复制一次:
AutoAnswer.page = pageCPY;
希望这会为某人节省很多时间 :D
感谢阅读!
我正在尝试让机器人使用 HTMLUnit 随机填写表单。 到目前为止我得到了什么:
WebClient client = new WebClient(BrowserVersion.CHROME);
client.getOptions().setTimeout(60000);
client.getOptions().setRedirectEnabled(true);
client.getOptions().setJavaScriptEnabled(true);
client.getOptions().setThrowExceptionOnFailingStatusCode(false);
client.getOptions().setThrowExceptionOnScriptError(false);
client.getOptions().setCssEnabled(false);
client.getOptions().setUseInsecureSSL(true);
client.setAjaxController(new NicelyResynchronizingAjaxController());
最后一行应该让 AJAX 在后台工作,剩下的就是简单的浏览器配置。
我已经编写了一种方法来正确执行对 DOMElement 的点击,并在后台进行日志记录和适当的等待执行:
public static HtmlPage clickCorrectly(DomElement e, WebClient client) throws IOException {
Main_Win.log("-------------------------------------");
Main_Win.log("Clicking correctly: " + e);
Main_Win.log("Background JS: " + client.waitForBackgroundJavaScript(30000));
Main_Win.log("Click return: " + e.click());
Main_Win.log("Background JS: " + client.waitForBackgroundJavaScript(30000));
WebWindow tmpWebWindow = client.getCurrentWindow();
Main_Win.log("Current Window: " + tmpWebWindow);
Main_Win.log("Returning Enclosed Page: " + tmpWebWindow.getEnclosedPage());
Main_Win.log("Parent Page: " + tmpWebWindow.getParentWindow());
Main_Win.log("Top level Page: " + tmpWebWindow.getTopWindow());
Main_Win.log("-------------------------------------");
return (HtmlPage) tmpWebWindow.getEnclosedPage();
}
这对我的登录过程非常有用。我单击登录按钮,输入我的凭据,然后提交。页面保持不变。所以点击不会改变 page
变量后面的对象。稍后我尝试单击一个实际上是锚标记的按钮:
<a class="btn btn-primary participate-link" data-id="116582" href="javascript:;" onclick="participateSurvey(116582, 'https://www.soscisurvey.de/SprachassistentenG3B/', '')">Jetzt teilnehmen</a>
我正在通过 XPath 获取定位元素:
page.getByXPath("//a[@class='btn btn-primary participate-link']")
然后我将其转换为正确的元素:
HtmlAnchor a = (HtmlAnchor) o;
稍后我会这样调用点击:
clickCorrectly(a, client)
这工作得很好。当我在 Firefox 中手动执行此操作时,我收到了在我的浏览器中加载的页面。
现在来解决我的问题:
List<DomNode> elements = new ArrayList<DomNode>();
elements.addAll(page.getElementsByTagName("input"));
elements.addAll(page.getElementsByTagName("button"));
这些为我提供了我想要处理的所有元素。我正在检查 3 个案例:
DomNode
是属性类型为"submit"
的 DomNode
是属性类型为"button"
的 DomNode
是一个<button>
if(i.getTypeAttribute().equalsIgnoreCase("submit")) { if(i.toString().contains("weiter") || i.toString().contains("Weiter")){ Main_Win.log("LOGGING BUTTON RETURN PAGE--------"); Main_Win.log("Page before click: " + page); page = Main.clickCorrectly(i, client); Main_Win.log("Page after click: " + page); Main_Win.log("END LOGGING BUTTON RETURN PAGE--------"); return true; } }
<input>
<input>
"Weiter" 是 "continue" 的德语。我正在检查所有 3 个案例。当您查看日志时,现在发生的事情会更清楚:
如您所见,前后页面不同。 理论上,浏览器现在应该处理不同的页面,因为我将页面变量设置为点击的 return 值。 在我循环的下一次迭代中,前一个 URL 得到处理,而不是我通过单击实现的那个,尽管我将页面设置为它并且循环每次循环循环时都会重新获取所有页面内容。我不明白为什么会这样。 为了更好地理解,这里是整个class:
最终目标是获取调查的最后一页,其中没有继续按钮。 很抱歉 post,感谢您的宝贵时间!
所以实际上参考点就是问题所在。无论出于何种原因,HtmlPage OBJECT 未通过引用传递...我不知道为什么,但这确实花费了我一生的时间。我会把这个留给有同样问题的其他人。
我通过将它传递给全局静态变量来解决它:
public static HtmlPage page = null;
并且只在开始时复制一次:
AutoAnswer.page = pageCPY;
希望这会为某人节省很多时间 :D 感谢阅读!