是爬取内网数据(python vba都行)

具体我文字描述一下,只求思路。
网站是内网,点击登录后可以转到数据页面,但是数据需要点击查询按钮,会弹出对话框,需要选择参数,然后点击确定。对话框消失,数据可以被查询出来。点击导出按钮导出
最新回答
紫色的梦幻

2024-05-10 00:38:34

你需要安装requests库,然后给你讲一下思路。

  1. 需要登录

    登录的话又两种方法,先用requests初始化一个session,然后直接请求登录连接,传入用户名和密码,如果有其它限制,比如验证码之类的不好操作就可以使用第二种,直接使用cookies,先手动登录网站,将cookies保存下来,然后在添加到session就可以了

  2. 数据是异步加载的

    这个也是在第一步的情况下才能操作,因为进行查询可能会验证你是否登录,如果第一步成功了,那就直接请求这个查询接口,将参数传入,获取返回值进行解析即可。

下面是requests官方文档,你需要的都在这里面了


追问
urllib.request这个我会,搞不定。登录问题不大,关键是数据抓不来,找不到文件对应的url
追答
不用urllib,那个不好用,直接是requests。
抓取数据你首先要分析url。你用chrome打开开发者模式,到网络那里,然后在页面上进行查询,看看访问的哪一个url去获取数据然后传入了些什么参数,返回的数据是什么,得到这些信息就可以在编程的时候构造一个请求去获得数据了。
星恋影随

2024-05-10 00:38:31

试试用按键精灵吧,内网没人帮得了你。
追问
如果是普通网站的,有什么思路
追答
跟是不是内网无关。如果你PY有一定基础,可以去看看用selenium库,模拟浏览器操作。