在后台连接到 url 并循环遍历元素
Connect to url in the background and loop through elements
是否可以使用 java 在后台连接到 url(没有可视界面)并循环遍历 link 的元素?我想制作一个供个人使用的自动搜索工具。转到特定的 url,遍历读取其文本的元素,当我找到我正在搜索的匹配项时,对匹配项执行单击类型操作以开始下载。如果 "clicking" 在一个视图上并不容易,我很乐意只获得此视图 link 的 url。
是的,这是可能的。
查找 URLConnection class 和 HttpURLConnection class。
刚刚搜索 "URLConnection example" 得到了这个:
http://www.java-samples.com/showtutorial.php?tutorialid=401
看起来很简单。
我刚刚注意到你提到你想要这个用于 Android,但这是我在 Python 3.4 中用类似方法写的东西。也许您可以在 Java 中创建类似 Android 应用程序的内容。
您将需要执行一些网络请求(在我使用 Python 的情况下,我使用的是 Requests library) and screen scraping (I am using BeautifulSoup). In this particular instance I had to navigate around some 302 redirects, so I have multiple calls to the "get" function in Session()。但是,在本示例中我不执行任何下载。
这是一个(精简的)示例,它执行导航到网站、登录("clicking" 提交按钮是通过发布表单数据完成的)、抓取屏幕数据以及将其打印到控制台。
from bs4 import BeautifulSoup
import requests
credentials = {
'field1':'valueForField1',
'field2':'valueForField2'
...
}
s = requests.Session()
r0 = s.get('http://www.foobar.com')
r1 = s.get('http://www.foobar.com/foo')
...
r21 = s.post('http://www.foobar.com/foo/bar.do', data=credentials)
...
r23 = s.get('http://www.foobar.com/foo/bar/accountinfo')
soup = BeautifulSoup(r23.text)
product = soup.find_all('td', class_='product')
print('-------------------------------------------------------------------------------')
print()
for p in product:
print(p)
print()
print('-------------------------------------------------------------------------------')
是否可以使用 java 在后台连接到 url(没有可视界面)并循环遍历 link 的元素?我想制作一个供个人使用的自动搜索工具。转到特定的 url,遍历读取其文本的元素,当我找到我正在搜索的匹配项时,对匹配项执行单击类型操作以开始下载。如果 "clicking" 在一个视图上并不容易,我很乐意只获得此视图 link 的 url。
是的,这是可能的。 查找 URLConnection class 和 HttpURLConnection class。
刚刚搜索 "URLConnection example" 得到了这个:
http://www.java-samples.com/showtutorial.php?tutorialid=401
看起来很简单。
我刚刚注意到你提到你想要这个用于 Android,但这是我在 Python 3.4 中用类似方法写的东西。也许您可以在 Java 中创建类似 Android 应用程序的内容。
您将需要执行一些网络请求(在我使用 Python 的情况下,我使用的是 Requests library) and screen scraping (I am using BeautifulSoup). In this particular instance I had to navigate around some 302 redirects, so I have multiple calls to the "get" function in Session()。但是,在本示例中我不执行任何下载。
这是一个(精简的)示例,它执行导航到网站、登录("clicking" 提交按钮是通过发布表单数据完成的)、抓取屏幕数据以及将其打印到控制台。
from bs4 import BeautifulSoup
import requests
credentials = {
'field1':'valueForField1',
'field2':'valueForField2'
...
}
s = requests.Session()
r0 = s.get('http://www.foobar.com')
r1 = s.get('http://www.foobar.com/foo')
...
r21 = s.post('http://www.foobar.com/foo/bar.do', data=credentials)
...
r23 = s.get('http://www.foobar.com/foo/bar/accountinfo')
soup = BeautifulSoup(r23.text)
product = soup.find_all('td', class_='product')
print('-------------------------------------------------------------------------------')
print()
for p in product:
print(p)
print()
print('-------------------------------------------------------------------------------')