python数据分析pandas库
前言
为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。
提示:以下是本篇文章正文内容,下面案例可供参考
1.4分组和聚合计算
1.4.1分组方式
问题一,如何计算数据集中每年的平均预期寿命?
答:需要先从数据按年划分割,接着获取lifeExp列,最后计算平均值。代码如下:
import pandas as pd
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.groupby('year')['lifeExp'].mean())
结果如下:
year
1952 49.057620
1957 51.507401
1962 53.609249
1967 55.678290
1972 57.647386
1977 59.570157
1982 61.533197
1987 63.212613
1992 64.160338
1997 65.014676
2002 65.694923
2007 67.007423
Name: lifeExp, dtype: float64
问题二:如何使用多个变量对数据进行分组和分层?这里是按年和地区划分,如何求某年某地区的人口平均预期寿命以及GDP。代码如下:
multi_group_var=df.\
groupby(['year','continent'])\
[['lifeExp','gdpPercap']].\
mean()
print(multi_group_var)
结果如下:
lifeExp gdpPercap
year continent
1952 Africa 39.135500 1252.572466
Americas 53.279840 4079.062552
Asia 46.314394 5195.484004
Europe 64.408500 5661.057435
Oceania 69.255000 10298.085650
1957 Africa 41.266346 1385.236062
Americas 55.960280 4616.0

本文介绍了Python数据分析中使用Pandas库进行分组和聚合计算的方法。内容包括如何按照年份计算数据集中的平均预期寿命,如何进行多变量分组并求特定年份地区的平均预期寿命和GDP,以及如何计算某个国家中不同大陆的数量。同时,文章提到了使用iloc而非loc避免获取数据时的错误,并提醒读者注意Python版本和编译器的选择。

368

被折叠的 条评论
为什么被折叠?



