python数据分析3

最新推荐文章于 2025-05-31 07:20:54 发布

原创

最新推荐文章于 2025-05-31 07:20:54 发布 · 1.4k 阅读

本文介绍了Python数据分析中使用Pandas库进行分组和聚合计算的方法。内容包括如何按照年份计算数据集中的平均预期寿命，如何进行多变量分组并求特定年份地区的平均预期寿命和GDP，以及如何计算某个国家中不同大陆的数量。同时，文章提到了使用iloc而非loc避免获取数据时的错误，并提醒读者注意Python版本和编译器的选择。

python数据分析pandas库

文章目录

python数据分析pandas库
前言
1.4分组和聚合计算
- 1.4.1分组方式
1.4.2分组频率计算

前言

为啥要用python中的pandas库进行数据分析，用excel不可以吗？不可以，excel处理上万条数据时通常会死机或者出错，python不会有这种问题。相信鲤鱼学长，在学习乃至日后工作中，pandas库将会风靡相当长一段时间。

提示：以下是本篇文章正文内容，下面案例可供参考

1.4分组和聚合计算

1.4.1分组方式

问题一，如何计算数据集中每年的平均预期寿命？
答：需要先从数据按年划分割，接着获取lifeExp列，最后计算平均值。代码如下：

import pandas as pd
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.groupby('year')['lifeExp'].mean())

结果如下：

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64

问题二：如何使用多个变量对数据进行分组和分层？这里是按年和地区划分，如何求某年某地区的人口平均预期寿命以及GDP。代码如下：

multi_group_var=df.\
    groupby(['year','continent'])\
    [['lifeExp','gdpPercap']].\
    mean()
print(multi_group_var)

结果如下：

                  lifeExp     gdpPercap
year continent                         
1952 Africa     39.135500   1252.572466
     Americas   53.279840   4079.062552
     Asia       46.314394   5195.484004
     Europe     64.408500   5661.057435
     Oceania    69.255000  10298.085650
1957 Africa     41.266346   1385.236062
     Americas   55.960280   4616.0