一般爬虫都不会抓登录以后的页面,如果你只是临时抓某个站,可以模拟登录,然后拿到登录以后的Cookies,再去请求相关的页面。 追问 讲得有点玄,有没有可以参考的资料或者例子什么的 追答 你百度一下 java 模拟GET/POST请求,资料有很多,这个可以了解一下,在你以后的编程中,可能有很多地方会用得到这个东西。
1、首先抓包获取登录的url,新建post请求2、设置用户名和密码参数3、发起请求4、获取返回值和cookie5、新建抓取数据的请求6、设置请求头7、通过抓包,得知参数是通过form data方式传递还是通过request payload方式,form data方式就是通过键值对 NameValuePair、UrlEncodedFormEntity的方式,如果是request payload方式的话,则需要字符流StringEntity的方式了。8、执行请求就可以获取到我们要的数据了