GPT-4数据可视化提示工程：17个翻车场景与三步校准法-CSDN博客

1. 项目概述：这不是“画图翻车合集”，而是一份GPT-4时代的数据可视化提示工程诊断手册

你有没有试过这样写提示词：“请用柱状图展示2023年各季度销售额，颜色要专业，加标题和坐标轴标签”——按下回车后，GPT-4（或接入它的工具如Copilot、Cursor、Code Interpreter）返回的不是一张图，而是一段Python代码？更糟的是，这段代码里pandas读取的CSV路径是 /tmp/data.csv ，但你根本没上传任何文件；或者它调用了 plt.style.use('seaborn-v0_8') ，而你的环境里压根没装seaborn；又或者它生成了带中文标签的图表，却忘了设置中文字体，结果满屏方块……这不是模型“不听话”，而是你正在用Excel时代的思维，指挥一台需要手术级精度的AI显微镜。

“Data Visuals Gone Bad”这个标题，表面在调侃数据图翻车现场，实则直指当前最被低估的实操断层：绝大多数用户把GPT-4当成高级搜索引擎或自动PPT生成器，却完全忽略了它本质上是一个基于概率的文本续写引擎——它不理解“柱状图”是什么，只认识“柱状图”这个词在训练语料中高频共现的上下文模式。它不会主动校验数据结构，不会感知你的本地环境约束，更不会替你做决策权衡。所谓“prompting pitfalls”，90%以上源于三个错位：任务目标与模型能力边界的错位、自然语言描述与编程逻辑要求的错位、通用知识与你私有上下文的错位。

这篇文章面向三类人：第一类是业务分析师、运营、产品经理等非技术角色，他们想用AI快速出图但总卡在“代码跑不通”；第二类是刚接触AI编码助手的初级开发者，习惯写完整脚本却不懂如何分阶段引导模型；第三类是团队技术负责人，正为内部AI工具落地效果不及预期而困惑。全文不讲大道理，只拆解真实发生过的17个典型翻车案例，还原每一步提示词怎么写、为什么失效、如何用“三步校准法”修复，并附上可直接粘贴复用的提示词模板库。所有案例均来自我过去8个月在6个行业客户现场的实录——从快消品区域销售复盘，到医疗器械临床试验数据汇报，再到高校科研组的论文插图生成。你遇到的问题，大概率已在其中。

2. 核心设计思路：为什么“避免坑”比“教技巧”更重要？

2.1 不是教你怎么写提示词，而是帮你建立“AI执行链路”的认知地图

很多教程一上来就列“5个万能公式”“10条黄金法则”，这反而加剧新手焦虑。真实世界里，一个数据可视化任务从来不是单次提示就能闭环的。它必然经历： 原始数据输入 → 结构理解 → 分析意图确认 → 图表类型选择 → 视觉编码决策 → 环境适配 → 输出验证 这七个环节。GPT-4的每个“翻车”，都精准对应某个环节的断裂。

比如，当模型返回 KeyError: 'revenue' ，问题不在提示词“不够详细”，而在于你跳过了“结构理解”环节——你没让AI先确认数据字段名是否真叫 revenue ，就直接让它画图。再比如，它生成了带 fig.tight_layout() 的代码却报错，表面是语法问题，根源是你没在“环境适配”环节声明Python版本和matplotlib版本。我把这七个环节画成一张执行链路图（纯文字版），不是为了炫技，而是让你每次写提示词前，先问自己：“我现在卡在哪个环节？上一个环节是否已闭环？”

提示：执行链路不是线性流程，而是带反馈环的螺旋结构。例如“输出验证”失败后，必须退回“分析意图确认”重新对齐——你想要的真的是柱状图吗？还是堆叠柱状图更能说明渠道贡献度？很多翻车本质是业务目标模糊，却被误判为技术问题。

2.2 拒绝“通用最佳实践”，专注“场景化容错设计”

网上流传的“用动词开头”“加角色设定”等技巧，在可视化场景中效果极差。因为数据工作有强上下文依赖：财务部要的同比环比计算逻辑，和BI团队做的A/B测试置信区间标注，完全是两套语言体系。我采用“场景切片法”重构内容——把常见业务场景切成12个原子单元：销售复盘、用户行为漏斗、实验效果对比、地理分布热力、时间序列异常点、多维交叉分析、学术论文插图、内部汇报PPT图、实时监控看板、小样本统计推断、非结构化数据摘要图、API响应数据解析。每个单元独立分析其核心矛盾、高频翻车点、专属提示词结构。

以“销售复盘”为例，它的核心矛盾是：业务人员说“看下华东区Q3增长”，但数据里没有“华东区”字段，只有 province 列含 Jiangsu 、 Zhejiang 等英文值；也没有“Q3”字段，只有 order_date 是 2023-07-15 格式。此时通用提示词“请分析销售数据”必然失败。正确做法是构建三层提示结构：第一层让AI识别并标准化地理字段（用正则匹配+映射表），第二层提取季度并聚合（用pandas Grouper），第三层才生成图表。这种设计不是炫技，而是把人类分析师的隐性工作流，显性拆解为AI可执行的原子步骤。

2.3 所有方案均通过“最小可行环境”验证

我拒绝推荐任何需要安装额外插件、依赖特定IDE或调用私有API的方案。全文所有代码、提示词、配置，均在以下环境实测通过：

Python 3.9 + pandas 2.0 + matplotlib 3.7 + seaborn 0.12
Jupyter Notebook（本地运行）或 Google Colab（免配置）
数据输入方式仅限三种：CSV文件上传、DataFrame变量已存在、JSON格式数据字符串粘贴

这意味着你复制代码后，唯一需要做的就是替换自己的数据路径或变量名。没有“请先安装xxx库”的废话，没有“在VS Code中启用XXX扩展”的门槛。我甚至专门测试了中文Windows系统下字体渲染问题——当提示词要求“中文标题”时，模型常忽略 plt.rcParams['font.sans-serif'] 设置，导致方块乱码。解决方案不是教你怎么改系统字体，而是提供一行可粘贴的强制字体声明代码，并说明为什么必须放在 plt.show() 之前。

3. 核心细节解析：17个真实翻车现场与根因诊断

3.1 翻车现场#1：数据未加载，代码已生成（“幻觉式编码”）

典型表现 ：提示词“用折线图展示用户日活趋势”，GPT-4返回完整Python代码，包含 pd.read_csv('user_dau.csv') ，但你从未提供该文件，运行即报 FileNotFoundError 。

根因诊断 ：模型在训练中见过海量 read_csv 示例，它默认“数据文件存在”是前提条件。这不是错误，而是它的知识边界——它无法区分“你已上传数据”和“你将要上传数据”。

三步校准法 ：

强制声明数据状态 ：在提示词开头明确写“当前环境已加载名为 df 的DataFrame，包含字段：date（日期）、dau（日活跃用户数）”。不要用“假设数据包含...”，要用“已加载”。
禁用文件操作 ：添加约束“禁止使用 pd.read_csv 、 open() 等任何文件读取函数，所有数据均来自变量 df ”。
验证数据结构 ：追加指令“首先打印 df.info() 和 df.head(3) ，确认数据可用后再绘图”。

实操心得 ：我在某电商客户现场发现，92%的此类翻车发生在用户直接粘贴Excel截图后。正确做法是：先用AI把截图转成Markdown表格，再让AI把表格转成DataFrame代码（用 pd.DataFrame([...]) 格式），最后才绘图。整个过程分三步提示，而非一步到位。

3.2 翻车现场#2：坐标轴标签错位（“维度混淆”）

典型表现 ：提示词“对比北京和上海的月销售额”，生成的柱状图X轴是月份，Y轴是销售额，但图例显示“北京”“上海”，而实际数据中 city 是行索引， month 是列名——模型把行列关系彻底搞反。

根因诊断 ：GPT-4对pandas DataFrame的行列语义没有内在理解。它看到“北京”“上海”就默认是分类变量，看到“1月”“2月”就默认是X轴，完全无视数据实际存储结构。

三步校准法 ：

显式定义数据形态 ：在提示词中写明“ df 是宽格式DataFrame，索引为 city ，列为 Jan , Feb , Mar ...，值为销售额”。
指定绘图函数参数 ：明确要求“使用 df.plot(kind='bar') ，不使用 plt.bar 等底层函数”。
强制转置验证 ：追加指令“若需按城市分组，则对 df.T 操作；若需按月份分组，则直接对 df 操作。请先判断哪种方式符合需求”。

避坑技巧 ：当数据是长格式（ city , month , sales 三列）时，必须要求模型先 pivot_table 。我在医疗客户项目中，曾因未声明格式，导致模型把“患者ID”当成了X轴标签，生成了上千根柱子的灾难图。

3.3 翻车现场#3：中文乱码（“字体失语症”）

典型表现 ：提示词含“中文标题”“中文坐标轴”，生成代码含 plt.title('销售额趋势') ，但运行后标题显示为方块。

根因诊断 ：matplotlib默认字体不支持中文，而模型生成的代码几乎从不包含字体设置。这不是疏忽，是它的训练数据中，英文技术文档占绝对主流，中文渲染属于长尾需求。

三步校准法 ：

前置字体声明 ：在提示词中写“所有图表必须添加中文字体支持，使用 plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS', 'DejaVu Sans'] ”。
禁用默认样式 ：添加约束“禁止使用 plt.style.use() ，除非明确指定支持中文的样式”。
验证渲染效果 ：要求“生成代码后，用 plt.rcParams['font.sans-serif'] 检查当前字体列表”。

实操心得 ：在Mac系统上， SimHei 不可用，需替换为 'Helvetica Neue' ；Linux服务器常无GUI字体，必须用 'DejaVu Sans' 。我在某金融机构部署时，发现他们的生产服务器连中文字体包都没装，最终方案是导出SVG格式，用浏览器打开——SVG原生支持Unicode，彻底绕过字体问题。

3.4 翻车现场#4：统计陷阱（“伪精确幻觉”）

典型表现 ：提示词“计算用户留存率并用折线图展示”，模型返回代码计算 len(df[df['day1']==True])/len(df) 作为D1留存，但实际业务中留存需按首次登录日期分组计算，而非全量平均。

根因诊断 ：GPT-4擅长复现训练数据中的统计公式，但无法理解业务定义。它看到“留存率”就调用最简单的比例计算，而真正的留存分析必须处理用户生命周期的时序关系。

三步校准法 ：

定义业务指标 ：在提示词中写明“D1留存率 = 在首次登录日t激活的用户中，于t+1日仍有登录行为的人数 / t日激活总人数”。
指定计算逻辑 ：要求“使用 df.groupby('first_login_date').apply(...) 进行分组计算，不得用全局 len() ”。
验证数据粒度 ：追加指令“先用 df['first_login_date'].nunique() 确认日期数量，再决定是否需重采样”。

避坑技巧 ：我在教育科技公司做用户行为分析时，发现模型常把“7日留存”算成“任意7天内的登录比例”。正确解法是：先用 pd.date_range 生成参考日期序列，再用 merge_asof 匹配用户行为，这个逻辑必须手写提示词引导，无法靠模型自发完成。

3.5 翻车现场#5：色彩灾难（“无障碍失明”）

典型表现 ：提示词“用不同颜色区分各产品线”，生成的代码用 ['red','green','blue'] ，但色盲用户无法区分红绿，且打印稿灰度下全变黑色。

根因诊断 ：模型训练数据中，色彩理论、无障碍设计指南占比极低。它选择颜色基于常见性（red最常用），而非可访问性（colorblind-friendly palettes）。

三步校准法 ：

指定色板标准 ：写明“使用ColorBrewer 2.0的 Set2 色板，确保色盲友好且打印清晰”。
禁用RGB值 ：添加约束“禁止使用 '#FF0000' 等十六进制色值，必须用 'tab:blue' 等命名色”。
验证灰度效果 ：要求“生成代码后，用 plt.cm.Greys 模拟灰度预览，确认各色块对比度>4.5:1”。

实操心得 ：某国际药企要求所有图表通过WCAG 2.1 AA标准。我们最终方案是：让AI生成图表后，用 skimage.color.rgb2gray() 转换并计算标准差，低于阈值则自动换色。这个闭环必须人工设计，模型无法自主发起。

3.6 翻车现场#6：动态范围失控（“刻度暴政”）

典型表现 ：提示词“展示各地区销售额”，数据中广东=5000万，青海=200万，但生成图表Y轴从0到5000万，青海柱子矮如发丝，完全不可读。

根因诊断 ：模型默认Y轴从0开始（符合统计规范），但当数据量级差异过大时，这反而掩盖信息。它不会主动建议对数刻度或分面（faceting）。

三步校准法 ：

声明数据分布 ：在提示词中写“广东销售额约5000万，青海约200万，量级差异超20倍”。
指定刻度策略 ：要求“若最大值/最小值>10，则使用 plt.yscale('log') ；否则用线性刻度”。
提供备选方案 ：追加指令“若对数刻度不适用，请改用分面柱状图，按 region_group （东/中/西）分组”。

避坑技巧 ：我在某新能源车企做区域分析时，发现电池销量数据中，华东区是GWh级，西北区是MWh级。最终采用双Y轴：左轴显示绝对值（对数），右轴显示占比（线性），这个复合方案必须手动提示，模型从不主动提议。

3.7 翻车现场#7：时间序列错乱（“时序失忆”）

典型表现 ：提示词“画2023年每月销售额折线图”，数据中 date 列是 2023-01-01 格式字符串，但模型生成 plt.plot(df['date'], df['sales']) ，结果X轴按字符串字典序排序， 2023-10-01 排在 2023-01-01 前面。

根因诊断 ：模型知道 plot(x,y) ，但不知道 x 必须是数值或有序时间类型。它把日期当普通字符串处理，而pandas默认字符串排序规则与时间顺序相反。

三步校准法 ：

强制类型转换 ：在提示词中写“请先执行 df['date'] = pd.to_datetime(df['date']) ，再设为索引”。
指定索引操作 ：要求“使用 df.set_index('date').plot() ，而非 plt.plot() ”。
验证排序 ：追加指令“打印 df['date'].min() 和 df['date'].max() ，确认时间范围正确”。

实操心得 ：某零售客户的数据源是POS机导出的TXT，日期格式为 01/15/2023 。我教他们第一句提示词永远是：“请识别 date 列格式为 %m/%d/%Y ，用 pd.to_datetime(df['date'], format='%m/%d/%Y') 转换”。这步不能省，否则后续全错。

3.8 翻车现场#8：图例遮挡（“空间失能”）

典型表现 ：提示词“用折线图展示5个产品的月销量”，生成代码含 plt.legend() ，但图例盖住了关键数据点，且未指定位置。

根因诊断 ：模型生成 legend() 时，默认位置在右上角，但当线条密集时，这是最差位置。它不了解图表布局的物理约束。

三步校准法 ：

声明元素密度 ：写明“图表含5条折线，数据点密集，需避免图例遮挡”。
指定位置策略 ：要求“使用 plt.legend(loc='upper left', bbox_to_anchor=(1,1)) 将图例置于图外右侧”。
启用自动布局 ：追加指令“必须包含 plt.tight_layout() ，并在 plt.show() 前调用”。

避坑技巧 ：在学术论文场景，图例必须放底部且横向排列。我固化了一个提示词模块：“若用于论文插图，请用 plt.legend(ncol=5, loc='lower center', bbox_to_anchor=(0.5,-0.2)) ”。客户只需替换数字5，即可适配任意产品数。

3.9 翻车现场#9：缺失值黑洞（“静默吞噬”）

典型表现 ：提示词“画用户年龄分布直方图”，数据中 age 列有20%空值，模型生成 plt.hist(df['age']) ，结果直方图少画了20%的样本，且不报错、不警告。

根因诊断 ：matplotlib的 hist 函数默认 dropna=True ，但模型从不声明此参数，也不提示数据质量风险。它把缺失值处理视为“理所当然”，而非需决策的环节。

三步校准法 ：

强制缺失值审计 ：在提示词开头写“请先运行 df['age'].isnull().sum() ，报告缺失比例”。
指定处理策略 ：要求“若缺失率<5%，用 df['age'].dropna() ；若5%-30%，用 df['age'].fillna(df['age'].median()) ；若>30%，停止绘图并警告”。
验证样本量 ：追加指令“打印 len(df) 和 len(df.dropna(subset=['age'])) ，确认处理前后数量”。

实操心得 ：某银行客户的人口属性数据中，职业字段缺失率达65%。我们最终方案是：让AI先用 df['occupation'].value_counts(dropna=False) 统计，发现 NaN 本身就是一个重要类别（代表未填写），于是改为用 'Unknown' 填充并纳入分析——这个业务洞察，必须由人来定义，AI只是执行者。

3.10 翻车现场#10：过度拟合（“装饰狂魔”）

典型表现 ：提示词“简单展示销售额趋势”，模型生成代码含 plt.grid(True, alpha=0.3) , plt.xticks(rotation=45) , plt.gca().set_facecolor('#f5f5f5') , plt.title(..., fontsize=14, fontweight='bold') ，图表花哨但重点模糊。

根因诊断 ：模型在训练中见过太多“精美PPT截图”，它把“专业感”等同于“视觉元素堆砌”，而忽略了数据可视化的第一原则： 减少非数据墨水（Tufte准则） 。

三步校准法 ：

声明设计哲学 ：在提示词中写“遵循Edward Tufte的‘图表应最大化数据-墨水比’原则，禁用一切装饰性元素”。
禁用冗余函数 ：明确要求“禁止使用 plt.grid() , plt.gca().set_facecolor() , plt.xticks(rotation) 等非必要美化函数”。
指定最小集 ：追加指令“只允许使用 plt.plot() , plt.bar() , plt.title() , plt.xlabel() , plt.ylabel() ，其他函数需特别申请”。

避坑技巧 ：我在给咨询公司做高管汇报材料时，发现他们需要两种模式：给CEO看的“一页一图”极简版（无网格、无背景、无旋转标签），给执行层看的“分析版”（含网格、分位数线、异常点标注）。现在我的提示词库中，第一个指令永远是：“本次输出为[极简版/分析版]”。

3.11 翻车现场#11：坐标轴截断（“误导性缩放”）

典型表现 ：提示词“对比A/B两组转化率”，A=12.3%, B=12.8%，模型生成Y轴从12.0%到13.0%的折线图，看起来B比A高40%，实际只高0.5个百分点。

根因诊断 ：模型知道“放大差异”，但不知道这违反统计伦理。它把“突出差异”等同于“截断坐标轴”，而专业实践中，截断必须明确标注（如波浪线），且需说明理由。

三步校准法 ：

声明伦理约束 ：写明“严格遵守《统计实践道德准则》，Y轴必须从0开始，除非明确标注截断且说明业务原因”。
指定截断协议 ：要求“若需截断，请用 plt.ylim(12.0, 13.0) ，并在标题中注明‘Y轴截断：12.0%-13.0%’”。
提供替代方案 ：追加指令“若截断不被允许，请改用差值图： plt.plot(['A','B'], [0, 0.5]) ，标题为‘B组较A组提升0.5个百分点’”。

实操心得 ：某互联网公司的A/B测试报告曾因截断坐标轴被法务叫停。我们现在的标准是：所有对外报告图表，第一步就是让AI生成 plt.ylim(0, max_value*1.1) ，强制留出10%安全边距。

3.12 翻车现场#12：多图排版崩溃（“布局失重”）

典型表现 ：提示词“生成3个子图：销售额、利润率、用户数”，模型返回 plt.subplot(1,3,1) 代码，但三个子图宽度不一致，第三个被压缩成窄条。

根因诊断 ： subplot 的默认布局不考虑内容长度，当标题或标签文字较长时，会挤压绘图区。模型不会计算 figsize 和 gridspec 参数。

三步校准法 ：

声明布局需求 ：写明“三个子图水平排列，等宽，总图宽15英寸，高5英寸”。
指定高级布局 ：要求“使用 plt.subplots(1,3, figsize=(15,5), constrained_layout=True) ”。
验证子图尺寸 ：追加指令“打印 ax[0].get_position().width 等，确认三者相等”。

避坑技巧 ：在监控看板场景，我们固定用 constrained_layout=True ，它能自动调整子图间距。而 tight_layout() 在复杂布局中常失效，这个细节必须人工指定。

3.13 翻车现场#13：单位错位（“计量失范”）

典型表现 ：提示词“展示年度营收”，数据单位是“万元”，但图表Y轴标签写“Revenue (¥)”，导致读者误以为是元。

根因诊断 ：模型不理解业务单位。它看到“营收”就写“¥”，而实际报表中，“万元”是默认单位，需显式标注。

三步校准法 ：

声明数据单位 ：在提示词中写“所有金额单位为‘万元’，请在Y轴标签中明确写‘(万元)’”。
禁用默认符号 ：要求“禁止使用 '¥' 符号，必须用文字标注单位”。
验证标签内容 ：追加指令“检查 plt.ylabel() 返回值，确认含‘万元’字样”。

实操心得 ：某制造业客户的ERP系统导出数据，货币单位随国家变化（CNY/USD/EUR）。我们现在的做法是：第一句提示词永远是“请识别 currency 列，若为CNY，则所有金额单位为万元；若为USD，则为千美元”。单位管理必须前置。

3.14 翻车现场#14：交互失能（“静态暴政”）

典型表现 ：提示词“让用户能点击查看某月详情”，模型返回静态 plt.show() ，而非交互式 plotly.express.line() 。

根因诊断 ：GPT-4的训练数据中，matplotlib示例远多于Plotly，它默认选择“最熟悉”的工具，而非“最适合”的工具。

三步校准法 ：

声明交互需求 ：写明“必须生成交互式图表，支持悬停查看数值、缩放、平移”。
指定技术栈 ：要求“使用 plotly.express 而非 matplotlib ，输出 fig.show() ”。
验证交互属性 ：追加指令“检查 fig 对象是否含 hover_data 参数，是否启用 zoom 模式”。

避坑技巧 ：在内部BI系统中，我们要求所有图表必须导出HTML。因此提示词末尾固定加一句：“最后用 fig.write_html('output.html') 保存，确保离线可交互”。

3.15 翻车现场#15：版本冲突（“依赖幻影”）

典型表现 ：提示词“用seaborn画箱线图”，生成 sns.boxplot(x='category', y='value', data=df, showfliers=False) ，但在seaborn 0.11中 showfliers 参数不存在，报错。

根因诊断 ：模型的知识截止于训练时的库版本，而现实环境中版本碎片化严重。它不知道 showfliers 是0.12+新增参数。

三步校准法 ：

声明环境版本 ：在提示词中写“当前环境：seaborn 0.11.2，请勿使用0.12+新参数”。
指定兼容写法 ：要求“若需隐藏离群点，请用 sns.boxplot(..., fliersize=0) ”。
验证参数存在 ：追加指令“用 sns.boxplot.__doc__ 检查可用参数列表”。

实操心得 ：某国企客户锁定Python 3.7 + seaborn 0.11，我们建了一个“兼容参数速查表”，提示词中直接引用：“根据速查表第3条，用 fliersize=0 替代 showfliers=False ”。

3.16 翻车现场#16：隐私泄露（“数据裸奔”）

典型表现 ：提示词“分析用户数据”，模型生成代码含 print(df.head(10)) ，意外输出含手机号、身份证号的原始数据。

根因诊断 ：模型把 head() 当作调试必需步骤，却不知某些字段是PII（个人身份信息）。它没有隐私保护意识。

三步校准法 ：

声明隐私约束 ：写明“所有数据含PII字段（phone, id_card），禁止打印、显示、导出原始值”。
指定脱敏操作 ：要求“若需查看，用 df['phone'].str[:3] + '****' + df['phone'].str[-4:] 脱敏”。
验证输出安全 ：追加指令“检查所有 print() 语句，确认不含PII字段名”。

避坑技巧 ：在金融行业，我们第一步永远是让AI运行 df.columns.tolist() ，然后人工标记哪些是PII，再让AI生成脱敏映射表。这个过程不能跳过，否则就是合规风险。

3.17 翻车现场#17：意图漂移（“目标失焦”）

典型表现 ：提示词“分析Q3销售下滑原因”，模型生成销售额折线图，但未做归因分析（如渠道、产品、区域维度下钻）。

根因诊断 ：模型把“分析”理解为“可视化”，而业务中的“分析”意味着“解释现象”。它缺乏目标分层能力。

三步校准法 ：

定义分析层级 ：写明“第一层：确认下滑事实（折线图）；第二层：定位主因（按渠道分组柱状图）；第三层：验证假设（相关性热力图）”。
指定输出结构 ：要求“生成3个图表，编号为Fig1/Fig2/Fig3，标题明确对应三层目标”。
验证目标对齐 ：追加指令“检查每个图表标题，确认含‘确认’‘定位’‘验证’关键词”。

实操心得 ：我在某快消品公司做季度复盘时，把“分析”拆解为7个原子动作：确认现象→描述程度→定位维度→归因假设→数据验证→影响量化→建议生成。每个动作对应一个提示词，形成流水线。这才是AI时代的分析工作流。

4. 实操全流程：从原始数据到交付图表的六步提示链

4.1 第一步：数据探查与结构声明（耗时30秒，决定80%成败）

不要跳过这一步！我见过太多人直接写“画图”，结果在第五步才发现字段名拼错了。正确做法是：把你的数据（CSV/Excel/JSON）上传后，第一句提示词永远是：

请执行以下操作：
1. 加载数据到DataFrame，命名为`df`
2. 运行`df.info()`，报告字段数、行数、各字段非空值数量、数据类型
3. 运行`df.describe(include='all')`，报告数值型字段统计量、字符型字段频次
4. 运行`df.isnull().sum()`，报告各字段缺失值数量
5. 运行`df.head(3)`，显示前3行样例
6. 根据以上结果，用一句话总结数据核心特征（如：含12个字段，10万行，`order_date`为日期型，`amount`有5%缺失）

为什么必须做 ：这步看似慢，实则最快。它把隐性知识（你知道但没说的）变成显性输出（AI确认并复述）。我在某物流客户项目中，发现 delivery_time 字段实际是字符串 "3 days" ，而非数值，若跳过此步，后续所有计算全错。

4.2 第二步：业务目标对齐与指标定义（防止“画了图，但没答问题”）

拿到数据特征后，别急着画图。用第二句提示词，把业务语言翻译成数据语言：

根据上一步结论，我们需回答：“华东区Q3销售额为何环比下降15%？”
请确认：
- “华东区”对应字段：`province`，值为`Jiangsu`, `Zhejiang`, `Shanghai`, `Anhui`, `Jiangxi`, `Fujian`
- “Q3”指`2023-07-01`至`2023-09-30`
- “销售额”对应字段：`revenue`（单位：万元）
- “环比”指与Q2（2023-04-01至2023-06-30）比较
请输出：确认上述定义，或指出不一致处。

实操心得 ：这步我称为“契约签订”。必须让AI复述你的定义，而不是直接执行。某次客户说“Q3是7-9月”，但数据中订单日期是发货日期，而财务关账是开票日期——这个差异必须在此步暴露，否则图表再美也是废图。

4.3 第三步：数据清洗与特征工程（宁可多问，不可猜错）

确认定义后，进入清洗。不要写“请清洗数据”，要具体：

请执行以下清洗：
1. 将`province`字段标准化：`Jiangsu`→`江苏`，`Zhejiang`→`浙江`...（提供完整映射表）
2. 将`order_date`转为datetime，并提取`quarter`字段（值为'Q1','Q2','Q3','Q4'）
3. 对`revenue`字段：缺失值用该省Q3均值填充（先分组再填充）
4. 生成新字段`region`：若`province`在华东列表，则`region`='华东'，否则='其他'
5. 输出清洗后`df.shape`和`df['region'].value_counts()`

避坑技巧 ：映射表必须提供，不要让AI自己猜。我曾因没给 Shanghai → 上海 映射，导致模型把 Shanghai 当新省份，单独分组。

4.4 第四步：可视化方案设计（用文字画蓝图，再让AI实现）

这步最关键：用自然语言描述你想要的图，而非直接要代码。例如：

我们需要一个双Y轴图表：
- 左Y轴：华东区Q3 vs Q2销售额（柱状图，蓝色），标题“销售额（万元）”
- 右Y轴：华东区Q3 vs Q2订单量（柱状图，橙色），标题“订单量（单）”
- X轴：省份（江苏、浙江...），