Claude 零基础入门数据分析全攻略 – 第一部分:数据描述与验证

Claude 零基础入门数据分析全攻略

共三部,第一部分:数据描述与验证 – 用DIG方法论的前20分钟节省几小时返工时间

视频来源: Jeff Su × Tina Huang 联合教程

核心定位: 探索性数据分析(EDA)的AI增强版本,通过结构化框架避免传统分析中”做了几小时发现方向错了”的陷阱

适用人群: 数据分析零基础者、需要快速上手AI工具的职场人士、希望提升数据分析效率的专业人员

第一部分:核心提纲

🎯 DIG方法论:三步走框架

DIG = Description + Introspection + Goal Setting

  • D = Description(数据描述) – 让你和AI都看清数据的真实面貌
  • I = Introspection(数据内省) – 让AI证明它真的理解了数据结构
  • G = Goal Setting(目标设定) – 在开始分析前确保方向正确

方法论的本质:

传统方法是拿到数据直接做图表,几小时后发现方向错了;DIG方法用前20分钟走完框架,在启动阶段就发现问题、确认方向,节省几小时的返工时间。这是探索性数据分析(EDA)的AI版本。

⚙️ 功能激活(2025年11月重要更新)

在开始数据分析前,需要先了解Claude的功能变化:

版本变化说明

  • 旧版激活方式(已废弃): 左下角 → Feature Preview → Analysis Tool
  • 新版激活方式: 功能已整合到 Claude CodeArtifacts
  • 如何确认已激活: 侧边栏有Claude Code或Artifacts菜单即代表已升级

Jeff Su的评论:

“以前没有这个选项” – 这是从纯文本AI到代码执行AI的质变。现在Claude可以直接运行Python代码来处理和分析数据,而不仅仅是给你建议。

📊 第一步:Description(数据描述)- 启动与验证

这一步的核心目标是在投入大量时间分析前,先用20分钟验证数据质量。许多严重问题会在这个阶段暴露,避免后期返工。

📋 步骤1:上传数据 + 初步查看

实战案例数据集介绍:

  • Jeff Su的Apple TV Plus数据集 – 来源:Kaggle免费公开数据集,包含《降世神通》《教父》《神探夏洛克》等真实节目数据,维度包括片名、类型、体裁、IMDb ID、发布年份、可播放国家等
  • Tina的薪资数据集 – 包含职位薪资范围、部门、支付周期、货币类型等职场数据

上传数据后,使用第一个提示词进行初步检查:

列出附件电子表格中的所有列,并展示每列的一个数据样本

Jeff案例的实际输出(以Forest Gump为样本):

列名 样本数据 说明
Title(片名) Forest Gump 电影标题
Type(类型) Movie 电影/剧集分类
Genre(体裁) Drama, Romance 体裁标签(逗号分隔)
Release Year(发布年份) 1994 上线年份
IMDb ID tt0109830 IMDb唯一标识符
Available Countries(可播放国家) [空值] ⚠️ 第一个危险信号

Tina的薪资数据样本:

列名 样本数据 说明
salary_ID(薪资ID) 12345 薪资记录唯一标识
job_ID(职位ID) J-678 职位唯一标识
max_salary(最高薪资) nan ⚠️ 显示缺失
min_salary(最低薪资) nan ⚠️ 显示缺失
pay_period(支付周期) Monthly 按月支付
currency(货币类型) USD 美元

立即发现的问题:

  • Jeff案例:Available Countries(可播放国家)列是空的
  • Tina案例:max_salary和min_salary显示为nan(not available,数据不可用)

🔍 步骤2:多次抽样验证

为什么需要这一步?

  • 单个样本可能是特例或离群值
  • 需要通过多次随机抽样来确认数据模式
  • Jeff原话:”Forest Gump是经典,但不代表所有数据都这样”
再随机抽取五个数据样本,以确保你理解每列的格式和信息类型

Jeff的Apple TV数据多次抽样结果:

样本编号 Title(片名) Type(类型) Genre(体裁) Available Countries
1 神探夏洛克 TV Show Crime, Drama, Mystery [空]
2 教父 Movie Crime, Drama [空]
3 某美剧 TV Show Comedy USA
4 某电影 Movie Action [空]
5 某纪录片 Movie Documentary [空]

通过多次抽样识别出的模式:

  • Genre(体裁)数量不固定:有的节目有3个体裁,有的只有1-2个
  • Type(类型)包含Movie和TV Show两种
  • Available Countries几乎都是空的 – 问题的严重性开始显现
  • 只有极少数条目包含国家数据

Tina案例的发现:

  • 部门名称拼写混乱:Engineering / Enginering / Eng(不一致会影响统计)
  • Currency(货币类型)全是USD,但AI最初没有注意到这个模式

⚠️ 步骤3:数据质量检查(最关键的一步!)

这是整个Description阶段的核心,可以发现致命的数据问题。

对每列运行数据质量检查。具体查找:
- 缺失或空值
- 意外的格式或数据类型
- 离群值或可疑值

Jeff案例:震撼发现

AI返回的数据质量分析报告:

列名 总条目数 缺失数量 缺失比例 问题严重性
Title(片名) 19,000 589 3.1% ⚪ 可接受
Type(类型) 19,000 0 0% ✅ 良好
Genre(体裁) 19,000 0 0% ✅ 良好
Release Year(发布年份) 19,000 57 0.3% ⚪ 可接受
Available Countries(可播放国家) 19,000 18,943 99.7% 🚨 致命问题!

Jeff的震惊反应:

“等等…99.7%?这意味着我完全不能做任何地理分析!我原本计划分析’不同地区用户喜欢什么类型的内容’,现在这个方向必须全部放弃。”

立即验证:

  • Jeff打开原始Excel表格进行手动确认
  • 结果:确认大部分行的Available Countries确实是空的
  • 结论: 任何”按地区分析内容偏好”的分析计划都必须立即调整

Tina案例:NaN的严肃警告

发现的问题:

  • max_salary和min_salary列显示为 nan
  • 需要确认:这是AI解析错误,还是数据本身就缺失?

Tina的严肃警告(来自Meta数据科学家的经验):

“幻觉往往发生在缺失数据或格式错误的地方。如果你跳过这一步,错误会像病毒一样传播到整个分析链条。”

“即使我在Meta当数据科学家时,也会花大量时间做这个检查。我知道如果急着做漂亮的图表而跳过验证,犯错会很尴尬…最坏的情况是因为让公司损失很多钱而被fired。”

💡 Description阶段的关键收获

  • 时间投资回报: 花20分钟做这三步检查,可以避免几小时甚至几天的无效分析
  • 发现致命问题: 99.7%的缺失率意味着整个分析方向需要调整
  • 验证AI理解: 通过多次抽样确保AI真正理解了数据结构
  • 建立信任基础: 只有在确认数据质量后,才能信任后续的分析结果

第二部分:资源索引

📝 核心提示词模板

提示词1:初步数据查看

列出附件电子表格中的所有列,并展示每列的一个数据样本

使用时机: 上传数据后的第一步,快速了解数据结构

预期输出: 列名列表 + 每列的单个样本值

提示词2:多次抽样验证

再随机抽取五个数据样本,以确保你理解每列的格式和信息类型

使用时机: 看完第一个样本后,避免被特例误导

预期输出: 5个随机样本的完整数据行

提示词3:数据质量检查(最重要)

对每列运行数据质量检查。具体查找:
- 缺失或空值
- 意外的格式或数据类型
- 离群值或可疑值

使用时机: 在开始任何分析前,强制执行

预期输出: 每列的缺失率、数据类型、异常值报告

📊 实战数据集信息

Jeff Su的Apple TV Plus数据集

  • 数据来源: Kaggle免费公开数据集
  • 数据规模: 约19,000条记录
  • 包含内容: 影视节目信息(《降世神通》《教父》《神探夏洛克》等)
  • 核心字段: Title(片名)、Type(类型)、Genre(体裁)、Release Year(发布年份)、IMDb ID、Available Countries(可播放国家)
  • 已知问题: Available Countries字段99.7%缺失,不适合做地理分析

Tina的薪资数据集

  • 数据类型: 职场薪资信息
  • 核心字段: salary_ID、job_ID、max_salary、min_salary、pay_period、currency、部门信息
  • 已知问题:
    • max_salary和min_salary显示为nan(需验证是否真的缺失)
    • 部门名称拼写不一致(Engineering / Enginering / Eng)
    • 货币类型单一(全部为USD)

⚙️ 技术配置要点

Claude功能激活检查清单

  • ✅ 确认侧边栏有 Claude CodeArtifacts 菜单
  • ✅ 上传CSV或Excel文件后,Claude会自动识别为数据分析任务
  • ✅ 可以看到代码执行结果(不仅是文字建议)
  • ❌ 如果没有这些功能,需要联系管理员或升级账户

🚨 常见陷阱与规避方法

常见陷阱 后果 规避方法
只看一个样本就下结论 被特例或离群值误导 始终进行多次随机抽样(至少5次)
跳过数据质量检查 在错误数据上浪费几小时分析 将质量检查作为强制第一步,不可跳过
相信AI的第一次输出 AI可能在缺失数据处产生幻觉 手动打开原始文件验证关键发现
忽略高缺失率字段 基于不完整数据得出错误结论 如果字段缺失率>30%,考虑放弃相关分析
急于做可视化 漂亮但无意义的图表 完成DIG三步后再开始制图

第三部分:总结与行动

💡 关键要点总结(TL;DR)

  • DIG方法论是EDA的AI版本 – 用结构化框架替代传统的”做了再说”模式
  • 前20分钟的验证能节省几小时返工 – Description阶段可以发现99.7%这样的致命问题
  • 多次抽样是必须的 – 单个样本可能是特例,至少要看5个随机样本
  • 数据质量检查不可跳过 – 缺失率、格式错误、离群值都要在开始前识别
  • 手动验证关键发现 – AI可能在数据缺失处产生幻觉,打开原始文件确认

来自Meta数据科学家Tina的金句:

“即使在大科技公司,数据科学家也会花30-50%的时间在数据清理和验证上。不是因为我们不够聪明,而是因为我们知道:在糟糕的数据上建立的任何模型都是危险的。”

—— Tina Huang, 前Meta数据科学家

Claude 数据分析系列 · 第一部分:数据描述与验证 · DIG方法论 · Jeff Su × Tina Huang