python爬虫框架哪个好用

我请教下,python爬虫框架哪个好用
最新回答
消失在我眼中

2024-06-23 00:44:44

说实话感觉大同小异。各有优缺点吧~

常见python爬虫框架
1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
3)Portia:可视化爬取网页内容
4)newspaper:提取新闻、文章以及内容分析
5)python-goose:java写的文章提取工具
6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。
7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

资料来源:

希望我的回答对你有帮助~

听闻国民小仙女

2024-06-23 10:18:53

1、Scrapy
是用纯 Python 实现一个为了爬取网站数据、提取结构性数据而编写的应用框架, 用途非常广泛。
可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
奇葩奇葩蹦擦擦

2024-06-23 09:35:42

request 库 简单易用