python数据化分析之分组统计_python中对按照数据集中的两个变量进行分类统计-CSDN博客

本文介绍了大数据分组分析的概念、在营销和金融领域的应用，详细讲解了Python中实现分组分析的步骤，包括确定分组变量、聚合变量和指定聚合函数。同时探讨了多变量分组和多变量分组聚合的方法，通过实例展示了如何使用pandas进行性别和年龄分组后的成绩平均值计算。

一、分组分析的相关概念

大数据分组分析是指在大数据中，根据特定的属性或规则将数据划分为不同的组或类别，并对每个组进行分析和比较。这种分析方法可以帮助人们发现数据中的模式、趋势和关联性，从而更好地理解和利用大数据。

在大数据分组分析中，通常会根据某些特定的属性或规则将数据进行分组。这些属性或规则可以是数值型的，如年龄、收入等，也可以是分类型的，如性别、地区等。分组后，可以对每个组进行统计分析，比较不同组之间的差异和相似性。常用的分析方法包括描述性统计、频率分析、关联规则挖掘等。

大数据分组分析可以应用于多个领域和行业。在营销领域，可以根据消费者的购买历史和行为习惯将消费者分为不同的群体，以便更好地推送个性化的营销策略。在金融领域，可以根据客户的风险偏好和投资目标将投资者分为不同的风险等级，在风险管理中提供有针对性的建议和服务。

总之，大数据分组分析是利用大数据中的属性或规则对数据进行分类和分析的方法，可以帮助人们更好地理解和利用大数据，从而做出更准确的决策。

二、实现分组分析的步骤

一般分为三步走

第一步：确定分组的变量(基于哪列的数组分组）

一般用类别型变量来分组

语法：表格对象.groupby（‘分组变量’)

import pandas as pd

data = pd.DataFrame({
   'group': ['A', 'B', 'A', 'B', 'A', 'B'],
   'value': [1, 2, 3, 4, 5, 6]
})

grouped_data = data.groupby('group')['value'].sum()

print(grouped_data)

第二步：确定聚合变量（指定要聚合的数据是哪列）

一般用数字型数据来聚合

语法：表格对象.groupy（‘分组变量’）【‘聚合变量’】

fruits = ["apple", "banana", "orange"]

第三步指定聚合函数（确定聚合数据的计算逻辑

聚合函数即统计相关函数

语法:表格对象:groupy(‘分组变量’)['聚合变量‘].聚合函数（）

import pandas as pd

# 创建一个示例数据集
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50],
        'C': [100, 200, 300, 400, 500]}

df = pd.DataFrame(data)

# 指定聚合函数为sum
result = df.groupby('A').agg({'B': 'sum', 'C': 'sum'})

print(result)

三、多变量分组——多重分组

Python中多变量分组是指将多个变量按照一定的规则或条件进行分组。

一般情况下，可以使用列表、字典或者类来实现多变量分组。

以下是多重分组的例子:

1.使用列表实现多变量分组。可以将多个变量放入一个列表中，然后根据某个条件对列表进行划分，可以使用列表推导式或者循环来实现。

data = [1, 2, 3, 4, 5, 6, 7, 8, 9]
group1 = [x for x in data if x % 2 == 0]  # 将data中的偶数分组到group1中
group2 = [x for x in data if x % 2 != 0]  # 将data中的奇数分组到group2中
print(group1)  # 输出：[2, 4, 6, 8]
print(group2)  # 输出：[1, 3, 5, 7, 9]

2.使用字典实现多变量分组。可以使用字典来存储分组的结果，其中键表示分组的标识，值表示属于该分组的变量。

data = [1, 2, 3, 4, 5, 6, 7, 8, 9]
groups = {}
for x in data:
    if x % 2 == 0:
        if 'group1' not in groups:
            groups['group1'] = []
        groups['group1'].append(x)
    else:
        if 'group2' not in groups:
            groups['group2'] = []
        groups['group2'].append(x)
print(groups)  # 输出：{'group1': [2, 4, 6, 8], 'group2': [1, 3, 5, 7, 9]}

3.使用类实现多变量分组。可以定义一个类来表示分组，然后根据某个条件将变量分别添加到不同的分组中。

class Group:
    def __init__(self, name):
        self.name = name
        self.members = []

    def add_member(self, member):
        self.members.append(member)

data = [1, 2, 3, 4, 5, 6, 7, 8, 9]
groups = []
for x in data:
    if x % 2 == 0:
        group1 = None
        for group in groups:
            if group.name == 'group1':
                group1 = group
                break
        if group1 is None:
            group1 = Group('group1')
            groups.append(group1)
        group1.add_member(x)
    else:
        group2 = None
        for group in groups:
            if group.name == 'group2':
                group2 = group
                break
        if group2 is None:
            group2 = Group('group2')
            groups.append(group2)
        group2.add_member(x)
for group in groups:
    print(group.name, group.members)

以上是常见的实现多变量分组的方法，具体选择哪种方法取决于实际需求和场景。

四、多变量分组聚合

概念：

多变量分组聚合是指在数据分析中，将数据按照多个变量进行分组，并进行相应的聚合操作。通常情况下，聚合操作可以是求和、计数、平均值等。

多变量分组聚合的目的是通过对数据进行分组和聚合操作，从而得到对数据的整体特征和总体趋势的认识。通过多变量分组聚合，我们可以对数据进行更细粒度的分析，了解各个维度的数据特征以及它们之间的关系。

在实际应用中，多变量分组聚合可以有多种用途。例如，在市场营销中，可以通过将客户按照不同的维度进行分组，如地理位置、购买行为等，然后对每个组进行聚合分析，从而了解不同组的特征、需求和偏好，制定更精准的市场策略。

在金融领域，可以将资产按照不同的属性进行分组，如行业、风险等级等，然后对每个组进行聚合分析，从而了解不同组的投资收益、风险等指标，制定更优化的投资策略。

总之，多变量分组聚合通过将数据按照不同的维度进行分组，并对每个组进行聚合操作，可以帮助我们更好地了解数据的特征和趋势，从而做出更明智的决策。

以下是多变量分组聚合的实例：

假设我们有一组学生的数据，包括学生的姓名、年龄、性别和成绩。我们想要按照性别和年龄分组，计算每个组内学生的平均成绩。

首先，我们可以创建一个包含学生数据的DataFrame对象：

import pandas as pd

data = {
    '姓名': ['小明', '小红', '小刚', '小李', '小丽', '小王'],
    '年龄': [18, 19, 20, 19, 20, 18],
    '性别': ['男', '女', '男', '女', '女', '男'],
    '成绩': [80, 85, 90, 95, 88, 92]
}

df = pd.DataFrame(data)

接下来，我们可以使用groupby()函数将数据按照性别和年龄进行分组，然后使用mean()函数计算每个组内学生的平均成绩：

grouped = df.groupby(['性别', '年龄'])
result = grouped['成绩'].mean()
print(result)

运行以上代码，我们可以得到如下的结果：

性别  年龄
女   19    95.0
    20    88.0
男   18    86.0
    20    90.0
Name: 成绩, dtype: float64

这表示女性学生的平均成绩在19岁时为95分，在20岁时为88分；男性学生的平均成绩在18岁时为86分，在20岁时为90分。