Claude 零基础入门数据分析全攻略 – 第一部分：数据描述与验证

Claude 零基础入门数据分析全攻略

共三部，第一部分：数据描述与验证 – 用DIG方法论的前20分钟节省几小时返工时间

视频来源： Jeff Su × Tina Huang 联合教程

核心定位： 探索性数据分析（EDA）的AI增强版本，通过结构化框架避免传统分析中”做了几小时发现方向错了”的陷阱

适用人群： 数据分析零基础者、需要快速上手AI工具的职场人士、希望提升数据分析效率的专业人员

第一部分：核心提纲

🎯 DIG方法论：三步走框架

DIG = Description + Introspection + Goal Setting

D = Description（数据描述） – 让你和AI都看清数据的真实面貌
I = Introspection（数据内省） – 让AI证明它真的理解了数据结构
G = Goal Setting（目标设定） – 在开始分析前确保方向正确

方法论的本质：

传统方法是拿到数据直接做图表，几小时后发现方向错了；DIG方法用前20分钟走完框架，在启动阶段就发现问题、确认方向，节省几小时的返工时间。这是探索性数据分析（EDA）的AI版本。

⚙️ 功能激活（2025年11月重要更新）

在开始数据分析前，需要先了解Claude的功能变化：

版本变化说明

旧版激活方式（已废弃）： 左下角 → Feature Preview → Analysis Tool
新版激活方式： 功能已整合到 Claude Code 或 Artifacts
如何确认已激活： 侧边栏有Claude Code或Artifacts菜单即代表已升级

Jeff Su的评论：

“以前没有这个选项” – 这是从纯文本AI到代码执行AI的质变。现在Claude可以直接运行Python代码来处理和分析数据，而不仅仅是给你建议。

📊 第一步：Description（数据描述）- 启动与验证

这一步的核心目标是在投入大量时间分析前，先用20分钟验证数据质量。许多严重问题会在这个阶段暴露，避免后期返工。

📋 步骤1：上传数据 + 初步查看

实战案例数据集介绍：

Jeff Su的Apple TV Plus数据集 – 来源：Kaggle免费公开数据集，包含《降世神通》《教父》《神探夏洛克》等真实节目数据，维度包括片名、类型、体裁、IMDb ID、发布年份、可播放国家等
Tina的薪资数据集 – 包含职位薪资范围、部门、支付周期、货币类型等职场数据

上传数据后，使用第一个提示词进行初步检查：

列出附件电子表格中的所有列，并展示每列的一个数据样本

Jeff案例的实际输出（以Forest Gump为样本）：

列名	样本数据	说明
Title（片名）	Forest Gump	电影标题
Type（类型）	Movie	电影/剧集分类
Genre（体裁）	Drama, Romance	体裁标签（逗号分隔）
Release Year（发布年份）	1994	上线年份
IMDb ID	tt0109830	IMDb唯一标识符
Available Countries（可播放国家）	[空值]	⚠️ 第一个危险信号

Tina的薪资数据样本：

列名	样本数据	说明
salary_ID（薪资ID）	12345	薪资记录唯一标识
job_ID（职位ID）	J-678	职位唯一标识
max_salary（最高薪资）	nan	⚠️ 显示缺失
min_salary（最低薪资）	nan	⚠️ 显示缺失
pay_period（支付周期）	Monthly	按月支付
currency（货币类型）	USD	美元

立即发现的问题：

Jeff案例：Available Countries（可播放国家）列是空的
Tina案例：max_salary和min_salary显示为nan（not available，数据不可用）

🔍 步骤2：多次抽样验证

为什么需要这一步？

单个样本可能是特例或离群值
需要通过多次随机抽样来确认数据模式
Jeff原话：”Forest Gump是经典，但不代表所有数据都这样”

再随机抽取五个数据样本，以确保你理解每列的格式和信息类型

Jeff的Apple TV数据多次抽样结果：

样本编号	Title（片名）	Type（类型）	Genre（体裁）	Available Countries
1	神探夏洛克	TV Show	Crime, Drama, Mystery	[空]
2	教父	Movie	Crime, Drama	[空]
3	某美剧	TV Show	Comedy	USA
4	某电影	Movie	Action	[空]
5	某纪录片	Movie	Documentary	[空]

通过多次抽样识别出的模式：

Genre（体裁）数量不固定：有的节目有3个体裁，有的只有1-2个
Type（类型）包含Movie和TV Show两种
Available Countries几乎都是空的 – 问题的严重性开始显现
只有极少数条目包含国家数据

Tina案例的发现：

部门名称拼写混乱：Engineering / Enginering / Eng（不一致会影响统计）
Currency（货币类型）全是USD，但AI最初没有注意到这个模式

⚠️ 步骤3：数据质量检查（最关键的一步！）

这是整个Description阶段的核心，可以发现致命的数据问题。

对每列运行数据质量检查。具体查找：
- 缺失或空值
- 意外的格式或数据类型
- 离群值或可疑值

Jeff案例：震撼发现

AI返回的数据质量分析报告：

列名	总条目数	缺失数量	缺失比例	问题严重性
Title（片名）	19,000	589	3.1%	⚪ 可接受
Type（类型）	19,000	0	0%	✅ 良好
Genre（体裁）	19,000	0	0%	✅ 良好
Release Year（发布年份）	19,000	57	0.3%	⚪ 可接受
Available Countries（可播放国家）	19,000	18,943	99.7%	🚨 致命问题！

Jeff的震惊反应：

“等等…99.7%？这意味着我完全不能做任何地理分析！我原本计划分析’不同地区用户喜欢什么类型的内容’，现在这个方向必须全部放弃。”

立即验证：

Jeff打开原始Excel表格进行手动确认
结果：确认大部分行的Available Countries确实是空的
结论： 任何”按地区分析内容偏好”的分析计划都必须立即调整

Tina案例：NaN的严肃警告

发现的问题：

max_salary和min_salary列显示为 nan
需要确认：这是AI解析错误，还是数据本身就缺失？

Tina的严肃警告（来自Meta数据科学家的经验）：

“幻觉往往发生在缺失数据或格式错误的地方。如果你跳过这一步，错误会像病毒一样传播到整个分析链条。”

“即使我在Meta当数据科学家时，也会花大量时间做这个检查。我知道如果急着做漂亮的图表而跳过验证，犯错会很尴尬…最坏的情况是因为让公司损失很多钱而被fired。”

💡 Description阶段的关键收获

时间投资回报： 花20分钟做这三步检查，可以避免几小时甚至几天的无效分析
发现致命问题： 99.7%的缺失率意味着整个分析方向需要调整
验证AI理解： 通过多次抽样确保AI真正理解了数据结构
建立信任基础： 只有在确认数据质量后，才能信任后续的分析结果

第二部分:资源索引

📝 核心提示词模板

提示词1：初步数据查看

列出附件电子表格中的所有列，并展示每列的一个数据样本

使用时机： 上传数据后的第一步，快速了解数据结构

预期输出： 列名列表 + 每列的单个样本值

提示词2：多次抽样验证

再随机抽取五个数据样本，以确保你理解每列的格式和信息类型

使用时机： 看完第一个样本后，避免被特例误导

预期输出： 5个随机样本的完整数据行

提示词3：数据质量检查（最重要）

对每列运行数据质量检查。具体查找：
- 缺失或空值
- 意外的格式或数据类型
- 离群值或可疑值

使用时机： 在开始任何分析前，强制执行

预期输出： 每列的缺失率、数据类型、异常值报告

📊 实战数据集信息

Jeff Su的Apple TV Plus数据集

数据来源： Kaggle免费公开数据集
数据规模： 约19,000条记录
包含内容： 影视节目信息（《降世神通》《教父》《神探夏洛克》等）
核心字段： Title（片名）、Type（类型）、Genre（体裁）、Release Year（发布年份）、IMDb ID、Available Countries（可播放国家）
已知问题： Available Countries字段99.7%缺失，不适合做地理分析

Tina的薪资数据集

数据类型： 职场薪资信息
核心字段： salary_ID、job_ID、max_salary、min_salary、pay_period、currency、部门信息
已知问题：
- max_salary和min_salary显示为nan（需验证是否真的缺失）
- 部门名称拼写不一致（Engineering / Enginering / Eng）
- 货币类型单一（全部为USD）

⚙️ 技术配置要点

Claude功能激活检查清单

✅ 确认侧边栏有 Claude Code 或 Artifacts 菜单
✅ 上传CSV或Excel文件后，Claude会自动识别为数据分析任务
✅ 可以看到代码执行结果（不仅是文字建议）
❌ 如果没有这些功能，需要联系管理员或升级账户

🚨 常见陷阱与规避方法

常见陷阱	后果	规避方法
只看一个样本就下结论	被特例或离群值误导	始终进行多次随机抽样（至少5次）
跳过数据质量检查	在错误数据上浪费几小时分析	将质量检查作为强制第一步，不可跳过
相信AI的第一次输出	AI可能在缺失数据处产生幻觉	手动打开原始文件验证关键发现
忽略高缺失率字段	基于不完整数据得出错误结论	如果字段缺失率>30%，考虑放弃相关分析
急于做可视化	漂亮但无意义的图表	完成DIG三步后再开始制图

第三部分：总结与行动

💡 关键要点总结（TL;DR）

DIG方法论是EDA的AI版本 – 用结构化框架替代传统的”做了再说”模式
前20分钟的验证能节省几小时返工 – Description阶段可以发现99.7%这样的致命问题
多次抽样是必须的 – 单个样本可能是特例，至少要看5个随机样本
数据质量检查不可跳过 – 缺失率、格式错误、离群值都要在开始前识别
手动验证关键发现 – AI可能在数据缺失处产生幻觉，打开原始文件确认

来自Meta数据科学家Tina的金句：

“即使在大科技公司，数据科学家也会花30-50%的时间在数据清理和验证上。不是因为我们不够聪明，而是因为我们知道：在糟糕的数据上建立的任何模型都是危险的。”

—— Tina Huang, 前Meta数据科学家