一、目的
当我们面对如下数据时,想要将每个客户的物品用一个一行来存储,物品间使用“,”分隔,如何才能做到?
| id | consumer | content | number |
|---|---|---|---|
| 1 | A | 电脑 | 2 |
| 2 | A | 手机 | 1 |
| 3 | B | 电视 | 3 |
二、解决方法
2.1 Mysql
2.1.1 分组合并字符串
SELECT consumer, GROUP_CONCAT(content) AS content FROM table GROUP BY consumer;
当我们用上面的sql语句时,就可以得到如下数据:
| consumer | content |
|---|---|
| A | 电脑,手机 |
| B | 电视 |
2.1.2 分组合并取最大的一行
延伸一下,当我们想要每个客户number最大的这一行怎么办?
除了用partition加上rownumber的方法,我们还可以这样:
SELECT consumer,
SUBSTRING_INDEX(GROUP_CONCAT(content ORDER BY number DESC),',',1),
max(number) AS number
FROM
table
GROUP BY consumer;
就可以得到结果:
| consumer | content | number |
|---|---|---|
| A | 电脑 | 2 |
| B | 电视 | 3 |
2.2 Hive
使用hive语言,若要实现2.1.1中的功能,我们可以这样做:
SELECT consumer,
concat_ws(',', collect_list(content))
FROM table
GROUP BY consumer;
注意:collect_list 只能返回带重复的集合
若要返回不重复的集合要用collect_set
本文介绍如何使用SQL及Hive进行分组合并操作,包括字符串的合并及按条件选取最大值行的合并。通过具体案例展示了Mysql与Hive中GROUP_CONCAT与concat_ws函数的使用方法。

2104

被折叠的 条评论
为什么被折叠?



