python基础:数据分析常用包

兄弟姐妹们在线求帮请分析下,python基础:数据分析常用包
最新回答
余安

2024-05-03 10:45:54

本文重点介绍pyhon最常用的几个库:

SymPy是python一个科学计算库,有一套强大的科学计算体系,覆盖了从基本的符号运算到计算数学、代数学、离散数学、量子物理等多个领域。可以完成诸如多项式求值、求极限、解方程、微分方程、级数展开、矩阵运算等等计算问题。

虽然Matlab的类似科学计算能力也很强大,但是Python以其语法简单、易上手、异常丰富的三方库生态,个人认为可以更优雅地解决日常遇到的各种计算问题。

Numpy是用于数据分析、机器学习、科学计算的重要软件包。它极大的简化了向量矩的操作及处理。Python的不少数据处理软件包依赖于Numpy作为其基础架构的核心部分(如Scikit-learn, Scipy, Pandas和tensflow等)

Scipy是一个科学计算工具包,可以处理插值、积分、优化、图像处理、常微分方程数据解的求解、信息处理等问题。它是基于Numpy搭建的。可用于有效计算Numpy矩阵,使Numpy和Scipy协同工作,高效解决问题

Sklearn是一个机器学习包,它是基于Numpy, Scipy和matplotlib搭建。它的主要功能分为六大部分:分类、回归、聚类、数据降维、模型选择和数据预处理,性能也很不错。

不过,sklearn不支持深度学习和强化学习,不支持图模型和序列预测,同时也不支持python之外的语言,不支持PyPy也不支持GPU加速。

常用子模块有:

Statsmodels用于拟合统计模型、参数据估计、假设检验、不确定性评估以及数据探索和可视化。相比sklearn,statsmodels更侧重于统计推理、p值和不确定性评价。常用子模块包括:

Matplotlib是python中类似于matlab的绘图工具,实际上matplotlib有一套完全依照MATLAB的函数形式的绘图接口,在matplot.pyplot模块中,这套函数接口方便MATLAB用户过度到matplotlib

Seaborn在matplotlib基础上进行封装的,但seaborn是针对统计绘图的。一般来说,seaborn能满足数据分析90%的的绘图需求。

Seaborn旨在使可视化成为探索和理解数据的核心部分。其面向数据集的绘图功能对包含整个数据集的数据框和数据组进行操作,并在内部执行必要的语义映射和统计聚合,以生成信息图。

Seaborn可以做热力图、散点图、直方图、箱形图、树形图、热点图等等

Pandas是基于Numpy数组构建的,专门为处理表格和混杂数据设的,而Numpy更适合处理统一的数据数组数据。

参考资料:
小乀奶嘴

2024-05-03 05:43:05

1. Numpy
Python没有提供数组功能,Numpy可以提供数组支持以及相应的高效处理函数,是Python数据分析的基础,也是SciPy、Pandas等数据处理和科学计算库最基本的函数功能库,且其数据类型对Python数据分析十分有用。
2. Pandas
Pandas是Python强大、灵活的数据分析和探索工具,包含Series、DataFrame等高级数据结构和工具,安装Pandas可使Python中处理数据非常快速和简单。
3. SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等,这些对数据分析和挖掘十分有用。
4. Matplotlib
Matplotlib是强大的数据可视化工具和作图库,是主要用于绘制数据图表的Python库,提供了绘制各类可视化图形的命令字库、简单的接口,可以方便用户轻松掌握图形的格式,绘制各类可视化图形。
5. Scikit-Learn
Scikit-Learn是Python常用的机器学习工具包,提供了完善的机器学习工具箱,支持数据预处理、分类、回归、聚类、预测和模型分析等强大机器学习库,其依赖于Numpy、Scipy和Matplotlib等。
6. Keras
Keras是深度学习库,人工神经网络和深度学习模型,基于Theano之上,依赖于Numpy和Scipy,利用它可以搭建普通的神经网络和各种深度学习模型,如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。
7. Gensim
Gensim是用来做文本主题模型的库,常用于处理语言方面的任务,支持TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算、信息检索等一些常用任务的API接口。
8. Scrapy
Scrapy是专门为爬虫而生的工具,具有URL读取、HTML解析、存储数据等功能,可以使用Twisted异步网络库来处理网络通讯,架构清晰,且包含了各种中间件接口,可以灵活的完成各种需求。更多python技术,推荐关注老男孩教育。