人工智能与数据分析学习日记：第二天的 Pandas 实操进阶-CFANZ编程社区

如果说第一天的学习是 “推开 AI 与数据分析的大门”，那第二天就是 “迈进门内，拿起第一个工具尝试干活”。今天的核心目标很明确 —— 搞定数据分析领域最常用的 Python 库 “Pandas”，从 “只会打印文字” 升级到 “能处理真实表格数据”。一整天下来，从踩坑安装到成功清洗数据，每一步都充满成就感，这篇博客就记录我第二天的实操历程与思考。

一、学习目标：为什么第二天聚焦 Pandas？

第一天用基础 Python 代码处理 “奶茶销量数据” 时，我就发现了问题：如果数据有几十行、十几列，手动写循环统计不仅麻烦，还容易出错。查资料后得知，Pandas 是专门为 “表格数据处理” 设计的工具 —— 它能像 Excel 一样轻松筛选、排序、计算数据，但速度更快、支持的数据量更大，是数据分析的 “入门必备利器”。所以我给第二天定了两个小目标：一是学会 Pandas 的基础安装与环境配置；二是能用 Pandas 处理一份真实的销售数据，完成 “数据读取 - 清洗 - 简单分析” 的全流程。

二、实操第一步：踩坑与解决 ——Pandas 安装与环境测试

上午的首要任务是给 Jupyter Notebook 装上 Pandas 库，原以为和第一天装 Jupyter 一样简单，结果还是遇到了小插曲：

安装 Pandas：打开 cmd 命令行，输入教程里的 “pip install pandas”，但进度条卡在 50% 就不动了。查了原因才知道，默认的下载源在国外，速度太慢，于是换了国内的阿里云源，输入 “pip install pandas -i https://mirrors.aliyun.com/pypi/simple/”，不到 1 分钟就安装完成；
测试环境：打开 Jupyter Notebook，新建 Python 文件，输入 “import pandas as pd”（“pd” 是 Pandas 的常用简称，方便后续调用），点击运行后没有报错，说明环境配置成功。这一步让我明白，遇到安装问题时，“换源” 是 Python 工具安装的常用小技巧，记下来以后肯定用得上。

三、核心实操：用 Pandas 处理 “真实销售数据”

下午我找了一份真实的 “小型超市 3 天销售数据”（包含 “商品名称、类别、单价、销量、日期”5 列，共 20 行数据），保存为 Excel 文件，跟着教程一步步用 Pandas 处理，每一步都像 “解锁新技能”：

1. 读取 Excel 数据 —— 让表格 “搬进” 代码里

以前看 Excel 表格只能在软件里翻页，用 Pandas 只需一行代码就能读取：

py取消自动换行复制

import pandas as pd

# 读取Excel文件，“sales_data.xlsx”是我保存在Jupyter同级目录下的文件名

df = pd.read_excel("sales_data.xlsx")

# 查看前5行数据，避免一次性输出所有内容

print(df.head())

运行后，屏幕上清晰显示出表格的前 5 行数据，列名、数值一目了然 —— 原来代码也能 “看懂” Excel，这比手动复制数据到代码里方便太多。

2. 数据清洗 —— 给数据 “挑错、补漏”

拿到数据后，我发现有 2 行 “销量” 是空值，还有 1 行 “单价” 明显填错（比如 “可乐” 单价写成了 “100”，明显不合理）。用 Pandas 处理这些问题很高效：

pyt取消自动换行复制

# 1. 查看是否有缺失值（空值），返回每列的缺失值数量

print("缺失值统计：")

print(df.isnull().sum())

# 2. 填充销量的空值——用该商品类别的平均销量填充（比如“饮料类”平均销量是20，就用20补空）

df["销量"] = df.groupby("类别")["销量"].transform(lambda x: x.fillna(x.mean()))

# 3. 修正错误的单价——把“单价>50”的异常值，替换成该商品类别的平均单价

df.loc[df["单价"] > 50, "单价"] = df.groupby("类别")["单价"].transform(lambda x: x.mean())

# 4. 查看清洗后的数据

print("\n清洗后的数据：")

print(df.head(10))

处理完后，原本的空值和异常值都被合理修正，数据变得 “干净” 了。这一步让我理解：数据分析的前提是 “数据准确”，Pandas 就是帮我们快速 “修正数据” 的工具。

3. 简单分析 —— 从数据里 “找结论”

数据清洗完，就可以做简单分析了。我试着计算 “每个类别的总销售额”（总销售额 = 单价 × 销量），并找出 “销量最高的商品”：

pyt取消自动换行复制

# 1. 新增“总销售额”列

df["总销售额"] = df["单价"] * df["销量"]

# 2. 按“类别”分组，计算每个类别的总销售额

category_sales = df.groupby("类别")["总销售额"].sum().reset_index()

print("各品类总销售额：")

print(category_sales)

# 3. 找出销量最高的商品

top_sales_product = df.loc[df["销量"].idxmax(), "商品名称"]

top_sales_num = df["销量"].max()

print(f"\n销量最高的商品：{top_sales_product}，销量：{top_sales_num}件")

运行结果显示：“零食类” 总销售额最高，“矿泉水” 销量最高（35 件）。这些结论如果用 Excel 算，需要手动筛选、求和，而用 Pandas 几行代码就能搞定，效率提升不止一倍。

四、第二天总结：从 “会写代码” 到 “能解决问题”

回顾第二天的学习，最大的突破不是学会了 Pandas 的几个函数，而是体会到 “技术工具的价值”——Pandas 不是一堆冰冷的代码，而是能帮我们快速处理数据、得出结论的 “助手”。当然也有没搞懂的地方，比如 “groupby 分组后的数据结构” 还不太理解，明天计划深入学习 Pandas 的分组统计逻辑，再试着用 Matplotlib 给今天的分析结果画个图表，让结论更直观。

如果屏幕前的你也在学数据分析，建议第二天就从 “处理一份自己熟悉的数据” 开始（比如自己的账单、工作报表），因为当代码能解决你身边的实际问题时，学习的动力会更足 —— 毕竟，技术的本质就是 “服务生活、解决问题”。