Claude 零基础入门数据分析全攻略
共三部,第一部分:数据描述与验证 – 用DIG方法论的前20分钟节省几小时返工时间
第一部分:核心提纲
🎯 DIG方法论:三步走框架
DIG = Description + Introspection + Goal Setting
- D = Description(数据描述) – 让你和AI都看清数据的真实面貌
- I = Introspection(数据内省) – 让AI证明它真的理解了数据结构
- G = Goal Setting(目标设定) – 在开始分析前确保方向正确
方法论的本质:
传统方法是拿到数据直接做图表,几小时后发现方向错了;DIG方法用前20分钟走完框架,在启动阶段就发现问题、确认方向,节省几小时的返工时间。这是探索性数据分析(EDA)的AI版本。
⚙️ 功能激活(2025年11月重要更新)
在开始数据分析前,需要先了解Claude的功能变化:
版本变化说明
- 旧版激活方式(已废弃): 左下角 → Feature Preview → Analysis Tool
- 新版激活方式: 功能已整合到 Claude Code 或 Artifacts
- 如何确认已激活: 侧边栏有Claude Code或Artifacts菜单即代表已升级
Jeff Su的评论:
“以前没有这个选项” – 这是从纯文本AI到代码执行AI的质变。现在Claude可以直接运行Python代码来处理和分析数据,而不仅仅是给你建议。
📊 第一步:Description(数据描述)- 启动与验证
这一步的核心目标是在投入大量时间分析前,先用20分钟验证数据质量。许多严重问题会在这个阶段暴露,避免后期返工。
📋 步骤1:上传数据 + 初步查看
实战案例数据集介绍:
- Jeff Su的Apple TV Plus数据集 – 来源:Kaggle免费公开数据集,包含《降世神通》《教父》《神探夏洛克》等真实节目数据,维度包括片名、类型、体裁、IMDb ID、发布年份、可播放国家等
- Tina的薪资数据集 – 包含职位薪资范围、部门、支付周期、货币类型等职场数据
上传数据后,使用第一个提示词进行初步检查:
列出附件电子表格中的所有列,并展示每列的一个数据样本
Jeff案例的实际输出(以Forest Gump为样本):
| 列名 | 样本数据 | 说明 |
|---|---|---|
| Title(片名) | Forest Gump | 电影标题 |
| Type(类型) | Movie | 电影/剧集分类 |
| Genre(体裁) | Drama, Romance | 体裁标签(逗号分隔) |
| Release Year(发布年份) | 1994 | 上线年份 |
| IMDb ID | tt0109830 | IMDb唯一标识符 |
| Available Countries(可播放国家) | [空值] | ⚠️ 第一个危险信号 |
Tina的薪资数据样本:
| 列名 | 样本数据 | 说明 |
|---|---|---|
| salary_ID(薪资ID) | 12345 | 薪资记录唯一标识 |
| job_ID(职位ID) | J-678 | 职位唯一标识 |
| max_salary(最高薪资) | nan | ⚠️ 显示缺失 |
| min_salary(最低薪资) | nan | ⚠️ 显示缺失 |
| pay_period(支付周期) | Monthly | 按月支付 |
| currency(货币类型) | USD | 美元 |
立即发现的问题:
- Jeff案例:Available Countries(可播放国家)列是空的
- Tina案例:max_salary和min_salary显示为nan(not available,数据不可用)
🔍 步骤2:多次抽样验证
为什么需要这一步?
- 单个样本可能是特例或离群值
- 需要通过多次随机抽样来确认数据模式
- Jeff原话:”Forest Gump是经典,但不代表所有数据都这样”
再随机抽取五个数据样本,以确保你理解每列的格式和信息类型
Jeff的Apple TV数据多次抽样结果:
| 样本编号 | Title(片名) | Type(类型) | Genre(体裁) | Available Countries |
|---|---|---|---|---|
| 1 | 神探夏洛克 | TV Show | Crime, Drama, Mystery | [空] |
| 2 | 教父 | Movie | Crime, Drama | [空] |
| 3 | 某美剧 | TV Show | Comedy | USA |
| 4 | 某电影 | Movie | Action | [空] |
| 5 | 某纪录片 | Movie | Documentary | [空] |
通过多次抽样识别出的模式:
- Genre(体裁)数量不固定:有的节目有3个体裁,有的只有1-2个
- Type(类型)包含Movie和TV Show两种
- Available Countries几乎都是空的 – 问题的严重性开始显现
- 只有极少数条目包含国家数据
Tina案例的发现:
- 部门名称拼写混乱:Engineering / Enginering / Eng(不一致会影响统计)
- Currency(货币类型)全是USD,但AI最初没有注意到这个模式
⚠️ 步骤3:数据质量检查(最关键的一步!)
这是整个Description阶段的核心,可以发现致命的数据问题。
对每列运行数据质量检查。具体查找: - 缺失或空值 - 意外的格式或数据类型 - 离群值或可疑值
Jeff案例:震撼发现
AI返回的数据质量分析报告:
| 列名 | 总条目数 | 缺失数量 | 缺失比例 | 问题严重性 |
|---|---|---|---|---|
| Title(片名) | 19,000 | 589 | 3.1% | ⚪ 可接受 |
| Type(类型) | 19,000 | 0 | 0% | ✅ 良好 |
| Genre(体裁) | 19,000 | 0 | 0% | ✅ 良好 |
| Release Year(发布年份) | 19,000 | 57 | 0.3% | ⚪ 可接受 |
| Available Countries(可播放国家) | 19,000 | 18,943 | 99.7% | 🚨 致命问题! |
Jeff的震惊反应:
“等等…99.7%?这意味着我完全不能做任何地理分析!我原本计划分析’不同地区用户喜欢什么类型的内容’,现在这个方向必须全部放弃。”
立即验证:
- Jeff打开原始Excel表格进行手动确认
- 结果:确认大部分行的Available Countries确实是空的
- 结论: 任何”按地区分析内容偏好”的分析计划都必须立即调整
Tina案例:NaN的严肃警告
发现的问题:
- max_salary和min_salary列显示为 nan
- 需要确认:这是AI解析错误,还是数据本身就缺失?
Tina的严肃警告(来自Meta数据科学家的经验):
“幻觉往往发生在缺失数据或格式错误的地方。如果你跳过这一步,错误会像病毒一样传播到整个分析链条。”
“即使我在Meta当数据科学家时,也会花大量时间做这个检查。我知道如果急着做漂亮的图表而跳过验证,犯错会很尴尬…最坏的情况是因为让公司损失很多钱而被fired。”
💡 Description阶段的关键收获
- 时间投资回报: 花20分钟做这三步检查,可以避免几小时甚至几天的无效分析
- 发现致命问题: 99.7%的缺失率意味着整个分析方向需要调整
- 验证AI理解: 通过多次抽样确保AI真正理解了数据结构
- 建立信任基础: 只有在确认数据质量后,才能信任后续的分析结果
第二部分:资源索引
📝 核心提示词模板
提示词1:初步数据查看
列出附件电子表格中的所有列,并展示每列的一个数据样本
使用时机: 上传数据后的第一步,快速了解数据结构
预期输出: 列名列表 + 每列的单个样本值
提示词2:多次抽样验证
再随机抽取五个数据样本,以确保你理解每列的格式和信息类型
使用时机: 看完第一个样本后,避免被特例误导
预期输出: 5个随机样本的完整数据行
提示词3:数据质量检查(最重要)
对每列运行数据质量检查。具体查找: - 缺失或空值 - 意外的格式或数据类型 - 离群值或可疑值
使用时机: 在开始任何分析前,强制执行
预期输出: 每列的缺失率、数据类型、异常值报告
📊 实战数据集信息
Jeff Su的Apple TV Plus数据集
- 数据来源: Kaggle免费公开数据集
- 数据规模: 约19,000条记录
- 包含内容: 影视节目信息(《降世神通》《教父》《神探夏洛克》等)
- 核心字段: Title(片名)、Type(类型)、Genre(体裁)、Release Year(发布年份)、IMDb ID、Available Countries(可播放国家)
- 已知问题: Available Countries字段99.7%缺失,不适合做地理分析
Tina的薪资数据集
- 数据类型: 职场薪资信息
- 核心字段: salary_ID、job_ID、max_salary、min_salary、pay_period、currency、部门信息
- 已知问题:
- max_salary和min_salary显示为nan(需验证是否真的缺失)
- 部门名称拼写不一致(Engineering / Enginering / Eng)
- 货币类型单一(全部为USD)
⚙️ 技术配置要点
Claude功能激活检查清单
- ✅ 确认侧边栏有 Claude Code 或 Artifacts 菜单
- ✅ 上传CSV或Excel文件后,Claude会自动识别为数据分析任务
- ✅ 可以看到代码执行结果(不仅是文字建议)
- ❌ 如果没有这些功能,需要联系管理员或升级账户
🚨 常见陷阱与规避方法
| 常见陷阱 | 后果 | 规避方法 |
|---|---|---|
| 只看一个样本就下结论 | 被特例或离群值误导 | 始终进行多次随机抽样(至少5次) |
| 跳过数据质量检查 | 在错误数据上浪费几小时分析 | 将质量检查作为强制第一步,不可跳过 |
| 相信AI的第一次输出 | AI可能在缺失数据处产生幻觉 | 手动打开原始文件验证关键发现 |
| 忽略高缺失率字段 | 基于不完整数据得出错误结论 | 如果字段缺失率>30%,考虑放弃相关分析 |
| 急于做可视化 | 漂亮但无意义的图表 | 完成DIG三步后再开始制图 |
第三部分:总结与行动
💡 关键要点总结(TL;DR)
- DIG方法论是EDA的AI版本 – 用结构化框架替代传统的”做了再说”模式
- 前20分钟的验证能节省几小时返工 – Description阶段可以发现99.7%这样的致命问题
- 多次抽样是必须的 – 单个样本可能是特例,至少要看5个随机样本
- 数据质量检查不可跳过 – 缺失率、格式错误、离群值都要在开始前识别
- 手动验证关键发现 – AI可能在数据缺失处产生幻觉,打开原始文件确认
来自Meta数据科学家Tina的金句:
“即使在大科技公司,数据科学家也会花30-50%的时间在数据清理和验证上。不是因为我们不够聪明,而是因为我们知道:在糟糕的数据上建立的任何模型都是危险的。”
—— Tina Huang, 前Meta数据科学家