pandas.merge()本质：数据关系建模而非表格拼接

原创于 2026-06-19 09:50:35 发布 · 428 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#pandas #merge #DataFrame

1. 这不是“拼接”，而是数据关系的精确手术：merge() 的本质定位

很多人第一次看到 pandas.merge() ，下意识就把它当成 pd.concat() 的兄弟——不就是把两个表“粘”在一起吗？我当年在金融风控团队做用户行为宽表时，也这么想。结果上线第三天，报表里多出37万条“幽灵订单”，业务方打电话来质问，我盯着屏幕里那行 pd.merge(df_user, df_order, on='user_id') 发了五分钟呆，才意识到： merge 不是粘合，是关系建模；它不负责“加法”，只负责“求交集”或“补全集”。 这个认知偏差，几乎贯穿了所有初学者踩坑的起点。

核心关键词 pandas 、 merge() 、 DataFrame 、 how 、 on ，每一个都不是孤立符号。 pandas 是整个生态的基石，它让 Python 具备了处理结构化数据的工业级能力； merge() 是这个生态里最常被调用、也最容易被误用的核心函数； DataFrame 是它的操作对象，但绝非普通二维数组——它自带索引体系、列名语义、类型推断和缺失值逻辑； how 参数决定了你是在做数学意义上的集合运算（inner/outer/left/right），而 on 则是你向 pandas 明确声明：“请以这一列（或这几列）为‘主键’，严格比对两表中对应位置的值是否相等”。这不是编程指令，这是在给数据世界立下契约。

为什么必须从这个角度理解？因为网络热词里反复出现的 refusing to merge unrelated histories 、 divergent branches 、 untracked files prevent merge ，虽然来自 Git，但其底层逻辑惊人地一致： merge 的前提是存在可识别的、稳定的、双方都承认的“锚点”（anchor point） 。Git 用 commit hash 和分支拓扑做锚点，pandas 用 on 指定的列值做锚点。当你忽略 on 或传入一个在两表中都不存在的列名时，pandas 不会报错，它会默默执行一个 how='inner' 的笛卡尔积——也就是把左表每一行，和右表每一行，无差别地配对组合。这正是那37万条幽灵订单的来源：用户表有1000人，订单表有370条记录，1000×370=370,000。它没做错，它只是忠实地执行了你没说清楚的指令。

所以， merge() 的第一课，不是语法，而是思维范式转换：你不是在“合并表格”，你是在 定义两个数据集之间的关联规则 。这个规则由 on 锚定，由 how 约束，由 DataFrame 的内在结构（索引、dtype、空值处理）承载。接下来的所有细节——为什么 left_on 和 right_on 能解决列名不一致的痛点，为什么 indicator=True 是排查数据质量的黄金开关，为什么 suffixes 不是锦上添花而是避免列名污染的生存必需——都源于这个根本认知。如果你跳过这一步，直接抄代码，那 merge() 对你而言，永远是一把钝刀，切不开数据的硬核，只会留下毛边和错误。

2. `on` ：那个被低估的“数据宪法”，以及它如何决定一切

on 参数看起来最简单，一行代码就能写完： on='user_id' 。但在我经手的200+个真实项目里，超过65%的 merge 相关故障，根源都在 on 的选型、预处理或语义理解上。它不是语法糖，它是整个 merge 操作的“宪法性条款”，规定了数据匹配的唯一合法依据。忽略它，等于在没有地图的情况下驾驶。

2.1 `on` 的三种形态：从显式到隐式，从安全到危险

on 支持三种传参方式，每一种背后都是不同的数据治理哲学：

字符串形式 on='col_name' ：这是最常见、也最“危险”的用法。它要求左表和右表 必须存在同名列 。问题在于，“同名”不等于“同义”。比如，用户表里 user_id 是字符串类型（ 'U12345' ），订单表里 user_id 却是整数（ 12345 ）。pandas 不会自动类型转换，它会把 'U12345' 和 12345 当作完全不同的值，导致所有匹配失败，最终 how='inner' 下返回空 DataFrame。我见过最惨的一次，是某电商公司把用户ID存成带前缀的字符串，而订单系统用纯数字，线上跑了一周才发现所有用户画像都为空。
列表形式 on=['col1', 'col2'] ：这是处理复合主键的唯一正解。比如，要关联“用户-商品-购买时间”三元组，单列无法唯一标识，必须用 ['user_id', 'item_id', 'purchase_date'] 。这里的关键陷阱是 顺序无关，但值必须完全一致 。 ['A', 'B'] 和 ['B', 'A'] 是两组完全不同的键。更隐蔽的是时区问题： purchase_date 在用户表是 UTC ，在订单表是 Asia/Shanghai ，表面看值一样，实际是不同时间点。 on 不会帮你做时区归一化，它只做字面量比对。
字典形式 left_on='l_col', right_on='r_col' ：这是最灵活、也最推荐的生产环境用法。它明确解耦了“逻辑关联字段”和“物理列名”，彻底规避了列名不一致的烦恼。例如，用户表叫 cust_no ，订单表叫 customer_id ，你只需 left_on='cust_no', right_on='customer_id' 。这不仅是语法便利，更是数据契约的显性化——你在代码里白纸黑字写明：“这两个不同名字的列，在业务语义上是等价的”。这对后期维护、跨团队协作、甚至审计溯源，价值巨大。

提示：永远优先使用 left_on / right_on 。即使两表列名碰巧一致，也显式写出。这能让你的 merge 逻辑自解释，避免未来某天有人 rename 了其中一列，导致静默失败。

2.2 `on` 的前置生死线：数据清洗与类型对齐

on 的匹配是严格、逐字节的。这意味着，在调用 merge() 之前，你必须完成三项不可妥协的清洗：

空值（NaN）处理 ： NaN != NaN 是 pandas 的铁律。如果 on 指定的列里有空值，这些行将 永远无法匹配 ，无论 how 设为何值。 how='left' 下，它们会保留，但右表所有字段全为 NaN； how='inner' 下，它们直接被丢弃。解决方案不是 fillna() （填什么？填0？填'UNKNOWN'？这会污染业务语义），而是 明确业务规则 ：空 user_id 的订单，是脏数据还是特殊场景（如游客下单）？如果是脏数据，应在 merge 前 dropna(subset=['user_id']) ；如果是特殊场景，则需在 merge 后单独处理。
数据类型强制统一 ：这是最常被忽视的。用 df.dtypes 检查 on 列的 dtype。字符串列要 .str.strip() 去除首尾空格；数字列要 .astype('int64') 统一；日期列必须 .dt.tz_localize(None) 或 .dt.tz_convert('UTC') 归一化时区。我有个血泪教训：某次处理银行流水， transaction_id 在源系统是 object （字符串），但部分值被 pandas 自动识别为 float64 （因为含小数点）， '12345.0' 和 12345.0 在 on 匹配时是两个世界。
编码与大小写标准化 ：中文字符的全角/半角、英文的大小写，都会导致匹配失败。 on 列如果是用户名，务必 .str.upper().str.strip() 。对于中文， .str.normalize('NFKC') 可以处理全角数字、字母、标点的标准化。

注意： on 的清洗必须在 merge 之前完成，并且要对左右两表 分别、独立、同步 执行。不能只清洗左表，指望右表“配合”。

2.3 `on` 的终极验证：用 `indicator=True` 做一次“X光扫描”

pandas.merge() 提供了一个被严重低估的参数： indicator=True 。它会在结果 DataFrame 中增加一列 _merge ，其值为 'both' （两表都有）、 'left_only' （仅左表有）、 'right_only' （仅右表有）。这相当于给你的 merge 操作拍了一张 X 光片，能瞬间暴露所有潜在问题。

result = pd.merge(
    df_user,
    df_order,
    left_on='cust_no',
    right_on='customer_id',
    how='left',
    indicator=True
)

# 查看匹配情况
print(result['_merge'].value_counts())
# both         98500   <- 理想状态：大部分都能匹配
# left_only     1500   <- 用户表有，但订单表没找到：可能是新注册用户，或订单数据延迟
# right_only       0   <- 订单表有，但用户表没找到：这是严重问题！说明订单表里有非法 user_id

这个简单的统计，能立刻告诉你：

数据覆盖是否完整（ right_only 非零？赶紧查上游ETL）
业务逻辑是否合理（ left_only 比例过高？是不是用户注册后还没下单？）
清洗是否到位（ both 比例远低于预期？回头检查 on 列的清洗步骤）

indicator=True 不是调试选项，是生产环境的必备开关。 我现在所有 merge 操作，第一行必加它，第二步必做 value_counts() 分析。这比任何日志打印都直观、都可靠。

3. `how` ：四种集合运算，四种业务现实

how 参数只有四个取值： 'inner' 、 'left' 、 'right' 、 'outer' 。它们不是抽象的数学概念，而是映射着四种截然不同的业务场景和数据现状。选错 how ，轻则结果集缩水，重则业务指标失真。下面我用一个贯穿始终的电商案例，拆解每一种 how 的真实含义和适用边界。

假设我们有：

df_users : 10,000 行，包含所有注册用户信息（ user_id , name , reg_date ）
df_orders : 8,500 行，包含所有已支付订单（ order_id , user_id , amount , order_date ）

3.1 `how='inner'` ：寻找“交集”，即“有行为的活跃用户”

active_users = pd.merge(df_users, df_orders, on='user_id', how='inner')

结果行数 ：取决于两表 user_id 的共同交集。如果所有订单都来自注册用户，则结果为 8,500 行。
业务含义 ：这是最严格的筛选。它回答的问题是：“哪些用户既在我们的用户库里，又产生了有效订单？” 它天然过滤掉了所有“僵尸用户”（注册未下单）和所有“脏订单”（ user_id 无效）。
典型场景 ：计算“付费用户转化率”、生成“高价值客户名单”、训练“用户复购预测模型”。此时，你只关心有真实交易行为的群体，噪声越少越好。
风险提示 ：如果 df_orders 里有大量 user_id 为空或格式错误， inner 会把这些订单全部丢弃，导致你低估了真实的订单总量。所以， inner 前必须确保 df_orders['user_id'] 的数据质量。

3.2 `how='left'` ：以“主表”为绝对中心，即“用户全景视图”

user_full_view = pd.merge(df_users, df_orders, on='user_id', how='left')

结果行数 ：恒等于 df_users 的行数（10,000 行）。每个用户都有一行，无论他有没有下单。
业务含义 ：这是构建“用户宽表”的标准姿势。它保证了主表（ df_users ）的完整性，将右表（ df_orders ）的信息作为“可选属性”附着上去。没有订单的用户，其 order_id , amount 等字段全为 NaN。
典型场景 ：用户画像（User Profile）、CRM 系统、个性化推荐（需要知道用户是否有历史行为）。你可以轻松计算“用户下单率”： user_full_view['order_id'].notna().mean() 。
关键技巧 ： left 模式下， suffixes 参数变得至关重要。如果两表都有 name 列（用户姓名 vs 订单收货人姓名），不指定 suffixes=('_user', '_order') ，pandas 会报错 ValueError: columns overlap 。这是 left 模式下最常遇到的“拦路虎”。

3.3 `how='right'` ：以“事实表”为绝对中心，即“订单溯源分析”

order_with_user = pd.merge(df_users, df_orders, on='user_id', how='right')

结果行数 ：恒等于 df_orders 的行数（8,500 行）。
业务含义 ：这是 left 的镜像。它保证了右表（ df_orders ）的完整性，将左表（ df_users ）的信息作为“可选补充”附着。如果某笔订单的 user_id 在 df_users 中找不到，那么该订单的用户信息（ name , reg_date ）全为 NaN。
典型场景 ：订单异常分析、财务对账、风控审计。你需要确保每一笔订单都能被追踪，哪怕用户信息缺失，也要把这笔“问题订单”保留下来，以便人工核查。
致命陷阱 ： right 模式下， df_users 的索引会被丢弃，结果 DataFrame 的索引将继承 df_orders 的索引。如果你依赖 df_users 的索引做后续操作（比如 loc 查询），这会导致静默错误。解决方案是： how='right' 时，务必先 df_users = df_users.reset_index(drop=True) ，或者 merge 后再 reset_index() 。

3.4 `how='outer'` ：追求“并集”，即“全量数据探查”

all_data = pd.merge(df_users, df_orders, on='user_id', how='outer')

结果行数 ：等于 df_users 和 df_orders 中 user_id 的并集。理论上最多为 10,000 + 8,500 = 18,500 行，但实际会去重。
业务含义 ：这是最“宽容”的模式，旨在捕获所有可能的数据点。它既包含所有注册用户，也包含所有订单，无论它们是否能相互关联。
典型场景 ：数据质量审计、ETL 流程监控、探索性数据分析（EDA）。你想知道：“用户库和订单库，各自的 user_id 分布是什么样的？有哪些 ID 是对方没有的？” 这是发现上游数据管道断裂的最快方法。
性能警告 ： outer 是计算开销最大的模式，因为它需要构建完整的哈希表来查找所有可能的键。当两表都超千万行时， outer merge 可能比 left 慢 3-5 倍。生产环境慎用，除非你明确需要这份“全量”。

总结一张决策表，帮你快速选择 how ：

业务目标推荐 how 关键原因
计算精准的转化率、漏斗分析 inner 严格保证数据有效性，排除所有噪声
构建用户宽表，支持画像与推荐 left 保证主表（用户）完整性，行为信息为可选
追踪每一笔订单，进行风控与审计 right 保证事实表（订单）完整性，用户信息为可选
探查数据质量，监控ETL健康度 outer 获取全量键空间，发现数据断层

业务目标	推荐 `how`	关键原因
计算精准的转化率、漏斗分析	`inner`	严格保证数据有效性，排除所有噪声
构建用户宽表，支持画像与推荐	`left`	保证主表（用户）完整性，行为信息为可选
追踪每一笔订单，进行风控与审计	`right`	保证事实表（订单）完整性，用户信息为可选
探查数据质量，监控ETL健康度	`outer`	获取全量键空间，发现数据断层

4. 实战排雷：从 `concat merge` 到 `fatal: refusing to merge` 的深度类比

网络热词里频繁出现 concat merge 、 fatal: refusing to merge unrelated histories 、 divergent branches ，这些看似属于 Git 的术语，却与 pandas.merge() 的底层逻辑有着惊人的同构性。理解这种类比，能让你一眼看穿 merge 失败的本质，而不是在报错信息里盲目搜索。

4.1 `concat` vs `merge` ：追加与关联，是两种完全不同的数据操作范式

很多新手会混淆 pd.concat() 和 pd.merge() ，甚至试图用 concat 来“实现 merge 的效果”。这是方向性错误。让我们用一个生活化比喻：

pd.concat() 就像“叠砖块” ：你有两摞砖（两个 DataFrame）， concat 就是把它们上下（ axis=0 ）或左右（ axis=1 ）堆在一起。它不关心砖块上的编号（索引）是否重复，也不关心砖块的尺寸（列名）是否一致。它只负责物理拼接。 concat 的核心是“增加维度”，结果集的行数或列数必然变大。
pd.merge() 就像“配对钥匙” ：你有两串钥匙（两个 DataFrame）， merge 就是拿着一串钥匙（ left ）上的齿形（ on 列的值），去匹配另一串钥匙（ right ）上完全相同的齿形。匹配成功，就把这两把钥匙“锁”在一起（形成一行新数据）；匹配失败，就按 how 规则处理（丢弃、保留、留空）。 merge 的核心是“建立关系”，结果集的行数由匹配逻辑决定，可能变大、变小，甚至为零。

提示：当你看到 concat merge 这个词，基本可以判定提问者正在用错误的工具解决错误的问题。如果目标是“根据用户ID把用户信息和订单信息关联起来”，答案永远是 merge ，不是 concat 。 concat 的正确场景是：“把今天和昨天的销售日报合并成一份总表”，这时你不需要 on ，只需要 ignore_index=True 。

4.2 `refusing to merge unrelated histories` ：pandas 版的“拒绝无锚点关联”

Git 报错 fatal: refusing to merge unrelated histories ，意思是：你试图合并的两个分支，没有任何共同的祖先提交（commit），它们的历史是完全割裂、互不相干的。Git 拒绝这种“无根之木”式的合并，因为这极大概率是操作失误（比如错误地初始化了一个新仓库）。

pandas.merge() 虽然不会报这个错，但它有完全对应的“静默失败”模式：

# 假设 df_a 的 'id' 列全是字符串: ['A1', 'A2', 'A3']
# 假设 df_b 的 'id' 列全是整数: [1, 2, 3]
result = pd.merge(df_a, df_b, on='id', how='inner')
# 结果：一个空的 DataFrame！0 行。

这就是 pandas 的 refusing to merge unrelated histories 。两表的 id 列，虽然名字相同，但数据类型、值域、语义完全“不相关”。pandas 忠实地执行了 on='id' 的指令，发现 'A1' != 1 ， 'A2' != 2 …… 所有比较都为 False ，于是 inner 返回空集。它没有报错，只是给你一个“意料之外”的空结果。

如何诊断？

第一步，看 indicator ： pd.merge(..., indicator=True) 。如果 _merge 列全是 'left_only' 或 'right_only' ，说明两表的 on 列完全没有交集。
第二步，查 dtypes ： df_a['id'].dtype 和 df_b['id'].dtype 是否一致？
第三步，抽样比对 ： df_a['id'].head(5).tolist() 和 df_b['id'].head(5).tolist() ，肉眼看看值是否真的能对得上。

4.3 `divergent branches` ：pandas 版的“数据漂移”与“列名冲突”

Git 的 divergent branches 指两个分支各自提交了不同的更改，导致它们的最新状态出现了分歧（divergence）。在 pandas 里，这对应着一种更隐蔽、也更常见的问题： 数据漂移（Data Drift） 。

想象一个持续运行的 ETL 任务：

第1天， df_users 有列 ['user_id', 'name', 'email']
第30天，上游系统升级， df_users 新增了列 ['user_id', 'name', 'email', 'phone']
但你的 merge 代码没改，依然 on='user_id'

这本身没问题。但问题出在 df_orders 上：

第1天， df_orders 有列 ['order_id', 'user_id', 'amount']
第30天， df_orders 的 user_id 列被重命名为 customer_id ，但你的代码还是 on='user_id'

这时， merge() 会报错 KeyError: 'user_id' 。这就像 Git 的 divergent branches —— 两个数据源的“schema”已经分叉，不再兼容。你的代码（merge 逻辑）还活在过去，而数据已经走向了未来。

解决方案不是打补丁，而是建契约：

使用 left_on / right_on 显式声明，而非依赖列名。
在 merge 前，用 assert 'user_id' in df_users.columns 和 assert 'customer_id' in df_orders.columns 做 schema 断言。
引入数据契约（Data Contract）工具，如 Great Expectations，在数据进入 pipeline 时就校验 user_id 字段的存在性、类型、非空率。

最后分享一个我压箱底的 debug 技巧：当 merge 结果诡异时， 永远不要先看结果，而是先看中间态 。用 df_left[on_cols].nunique() 和 df_right[on_cols].nunique() 分别计算左右表 on 列的唯一值数量。如果 df_left 有 1000 个唯一 user_id ， df_right 有 500 个，但 merge 结果却有 2000 行，那一定是 how='outer' 或 on 列有重复值。这个简单的数字对比，能帮你瞬间定位 80% 的 merge 问题。

5. 进阶武器库：超越基础 `how` 和 `on` 的实战配置

当 how 和 on 已成为肌肉记忆，真正的效率提升和问题解决能力，来自于对 merge() 其他参数的深度掌握。这些参数不是锦上添花，而是应对复杂业务场景的“瑞士军刀”。下面是我从上百个项目中提炼出的、最高频、最实用的进阶配置。

5.1 `suffixes` ：列名冲突的终结者，也是数据语义的守护者

当左右两表有同名列（除了 on 列）， merge() 默认会报错 ValueError: columns overlap 。 suffixes 参数就是为此而生。它的默认值是 ('_x', '_y') ，意味着左表的同名列会变成 col_name_x ，右表的变成 col_name_y 。

但这只是起点。 suffixes 的真正价值，在于用业务语义替代技术后缀。 例如：

# 糟糕的默认后缀
result = pd.merge(df_user, df_order, on='user_id')
# 结果里会有：name_x, name_y, email_x, email_y... 你完全不知道哪个是用户注册邮箱，哪个是订单收货邮箱。

# 优秀的业务后缀
result = pd.merge(
    df_user,
    df_order,
    on='user_id',
    suffixes=('_user', '_order')  # 一目了然！
)
# 结果里是：name_user, name_order, email_user, email_order...

更进一步，如果 df_user 和 df_order 都有 status 列（用户状态 vs 订单状态），用 _user / _order 后缀，能让你在后续写 result['status_user'] == 'active' 时，逻辑清晰无比，杜绝歧义。

提示： suffixes 是一个元组 (left_suffix, right_suffix) ，必须是字符串。不要用 ('_left', '_right') 这种通用后缀，它失去了业务意义。永远用 _user , _product , _payment 这样能直接读出业务实体的后缀。

5.2 `validate` ：merge 前的“数据公证员”，预防静默灾难

validate 参数是 pandas 1.1.0 引入的“神功能”，它允许你在 merge 执行前，就对 on 列的唯一性做出强约束。这对于防止因数据质量问题导致的“爆炸性”结果，至关重要。

validate='one_to_one' ：要求 on 列在左右两表中都必须是 唯一值 。如果 df_user['user_id'] 有重复，或 df_order['user_id'] 有重复，merge 会立即报错。这适用于“一对一”关系，如用户表和用户认证表。
validate='one_to_many' ：要求左表 on 列唯一，右表 on 列可以重复。这是最常见的场景：一个用户可以下多笔订单。如果 df_user['user_id'] 有重复，会报错。
validate='many_to_one' ：要求右表 on 列唯一，左表 on 列可以重复。适用于“一对多”的反向场景，如产品表（一个产品ID对应多个SKU）。
validate='many_to_many' ：不做唯一性检查，允许两表 on 列都重复。这是默认行为，也是最危险的，因为它可能导致笛卡尔积。

# 安全的订单关联：确保每个用户ID在用户表里只出现一次
result = pd.merge(
    df_user,
    df_order,
    on='user_id',
    how='left',
    validate='one_to_many'  # 如果 df_user['user_id'] 有重复，立刻报错！
)

这个参数的价值，在于它把“事后排查”变成了“事前拦截”。我曾经在一个金融项目里，因为上游数据清洗疏漏， df_user 里混入了两条 user_id='123' 的记录（一条是测试数据，一条是正式数据）， how='left' merge 后，所有 user_id='123' 的订单都被复制了一份，导致最终的资产总额翻倍。加上 validate='one_to_many' ，这个问题在开发阶段就被扼杀。

5.3 `sort` 和 `copy` ：性能与内存的精细调控

在处理百万级以上数据时， sort 和 copy 这两个布尔参数，是影响 merge 性能和内存占用的关键开关。

sort=False （默认）：merge 结果的行序，是 左表的原始顺序 。这是最快的模式，因为它省去了排序的开销。绝大多数场景，你应该保持 sort=False 。
sort=True ：merge 结果会按照 on 列的值进行升序排序。这在你需要结果有序输出（比如生成报表）时有用，但代价是额外的排序时间。对于 100 万行数据， sort=True 可能使 merge 时间增加 20-30%。
copy=True （默认）：merge 会创建一个新的 DataFrame，不与原数据共享内存。这是最安全的，但会消耗双倍内存。
copy=False ：merge 会尝试返回一个视图（view），尽可能复用原数据的内存。这能节省大量内存，但有风险：如果你在 merge 后修改了结果 DataFrame 的某个值，它可能会意外地修改原 DataFrame 的对应值（这叫“链式赋值”问题）。 仅在你确定 merge 后不会修改结果，且内存极度紧张时，才考虑 copy=False 。

实操心得：在数据科学 notebook 里，用默认值（ sort=False , copy=True ）即可，安全第一。在生产环境的 ETL 任务中，如果内存是瓶颈，且你确认结果只读，可以大胆设置 copy=False ；如果下游明确要求 on 列有序，再开启 sort=True ，并做好性能压测。

5.4 `how='cross'` ：笛卡尔积的显式宣言，告别“幽灵行”

how='cross' 是 pandas 1.2.0 引入的参数，它提供了一种 显式、安全、可读 的方式来执行笛卡尔积（Cartesian Product），即左表每一行与右表每一行的全量组合。

为什么需要它？因为传统的 merge 如果 on 列为空或不匹配，会静默地产生笛卡尔积，这是灾难性的。而 how='cross' 是一个“光明正大”的声明：“我就是要全量组合，请给我一个干净的结果。”

# 传统方式（危险！）
# df_a 和 df_b 都没有 'key' 列，或 'key' 列全为 NaN
# result = pd.merge(df_a, df_b, on='key', how='inner') # 结果是笛卡尔积，但你浑然不知

# 现代方式（安全、明确）
result = pd.merge(df_a, df_b, how='cross') # 代码即文档！

how='cross' 的结果 DataFrame，会自动添加一个 __index_level_0__ 和 __index_level_1__ 的 MultiIndex，清晰地标记了每一行来自左表的哪一行、右表的哪一行。这比静默的笛卡尔积，要可控、要透明得多。

最后一个硬核技巧： merge() 的底层是基于哈希表（Hash Table）实现的，所以 on 列的值必须是 可哈希的 （hashable）。这意味着 on 列不能是 list 、 dict 、 set 等可变类型。如果你的 on 列是 list （比如 ['tag1', 'tag2'] ），merge 会报错 TypeError: unhashable type: 'list' 。解决方案是：先用 df['tags_str'] = df['tags'].apply(lambda x: '|'.join(sorted(x))) 把 list 转成可哈希的字符串。这是处理嵌套数据时的必备技能。