Python学习(十四)pandas库入门手册

[复制链接]
发表于 2025-10-20 16:28:57 | 显示全部楼层 |阅读模式


  • 官网所在: https://pandas.pydata.org/
什么是pandas?
pandas 是 Python 中一个强盛的 数据处置处罚和分析库,广泛应用于 数据洗濯转换分析可视化 等范畴。它提供了搞笑的数据布局(如 DataFrame 和 Series),使得处置处罚布局化数据变得简单而高效。本文将具体先容 pandas 的核心功能和使用方法,资助你快速把握这一工具。
pandas 的特点如下:


  • 高效的数据布局: Series 和 DataFrame 提供了机动的数据使用方式。
  • 强盛的数据处置处罚本领: 支持数据洗濯、转换、分析和可视化。
  • 丰富的文件格式支持: 可以轻松读取和写入 CSV、Excel、JSON 等文件格式。

一、安装与导入

安装:
在开始使用 pandas 之前,须要先举行安装。可以通过以下下令安装:
  1. pip install pandas
复制代码
导入:
安装完成后,在代码中导入 pandas:
  1. import pandas as pd
复制代码

二、核心数据布局

pandas 的紧张数据布局是:Series(一维数据) 和 DataFrame(二维数据)。
2.1 Series 范例(一维数组)

Series 是一个一维数组,可以 存储恣意范例的数据(如整数、字符串、浮点数等),并带有索引。
创建 Series:


  • 语法:pandas.Series([对象1, 对象2])
  1. import pandas as pd
  2. # 从列表创建 Seriess = pd.Series([1, 3, 5, 7, 9])print(s)
复制代码
实验效果:

访问 Series:
  1. # 通过索引访问数据
  2. print(s[0]) # 输出 1
  3. # 通过位置访问数据
  4. print(s.iloc[1]) # 输出 3
复制代码
实验效果:

2.2 DataFrame 范例(二维数组)

DataFrame 是一个二维表格数据布局,类似于 Excel 表格或 SQL 表。它由行和列构成,每列可以是差别的数据范例。
创建 DataFrame:
  1. # 从字典创建 DataFrame
  2. data = {
  3.     "Name": ["Alice", "Bob", "Charlie"],
  4.     "Age": [25, 30, 35],
  5.     "City": ["New York", "Los Angeles", "Chicago"]
  6. }
  7. df = pd.DataFrame(data)
  8. print(df)
复制代码
实验效果:

访问 DataFrame:
  1. # 访问列
  2. print(df["Name"]) # 输出 Name 列
  3. print("==============")
  4. # 访问行
  5. print(df.iloc[0]) # 输出第一行
复制代码
实验效果:


三、数据读取与写入

pandas 支持从多种文件格式读取数据,并将数据写入这些格式。
3.1 读取 CSV 和 Excel 文件

读取 CSV 文件:
  1. df = pd.read_csv("data.csv")
  2. print(df.head())
复制代码
csv内容如下:
  1. "Name","Age","City"
  2. Alice,25,New York
  3. Bob,30,Los Angeles
  4. Charlie,35,Chicago
复制代码
实验效果:

读取 Excel 文件:
  1. df = pd.read_excel("data.xlsx", sheet_name="Sheet1")
  2. print(df.head())
复制代码
Excel 内容如下:

实验效果:

3.2 写入数据

写入 CSV 文件:
  1. df.to_csv("output.csv", index=False)
复制代码
写入 Excel 文件:
  1. df.to_excel("output.xlsx", sheet_name="Sheet1", index=False)
复制代码

四、数据洗濯与处置处罚

4.1 处置处罚缺失值

  1. # 检查缺失项
  2. print(df.isnull())
  3. # 填充缺失值
  4. df_filled = df.fillna(0) # 用 0 填充缺失值
  5. # 删除包含缺失值的行
  6. df_dropped = df.ropna()
复制代码
4.2 数据筛选

  1. # 筛选 Age 大于 30 的行
  2. df_filtered = df[df["Age"] > 30]
  3. print(df_filtered)
复制代码
实验效果:

4.3 数据排序

  1. # 按 Age 列升序排序
  2. df_sorted = df.sort_values(by="Age")
  3. print(df_sorted)
复制代码
实验效果:


五、数据分析

5.1 统计形貌

  1. # 查看数据的基本统计信息
  2. print(df.describe())
复制代码
实验效果:

5.2 分组聚合

  1. # 按 City 分组并计算平均年龄
  2. df_grouped = df.groupby("City")["Age"].mean()
  3. print(df_grouped)
复制代码
实验效果:

5.3 数据透视表

  1. # 创建数据透视表
  2. df_pivot = df.pivot_table(index="City", values="Age", aggfunc="mean")
  3. print(df_pivot)
复制代码
实验效果:


六、数据可视化

pandas 联合 matplotlib 可以方便地举行数据可视化。
安装下令:
  1. pip install matplotlib
复制代码
示例:绘制柱状图
  1. import matplotlib.pyplot as plt
  2. # 绘制 Age 列地柱状图
  3. df["Age"].plot(kind="bar")
  4. plt.show()
复制代码
实验效果:


七、高级功能

7.1 归并数据

  1. # 合并两个 DataFrame
  2. df1 = pd.DataFrame({"A": [1, 2], "B": [3, 4]})
  3. df2 = pd.DataFrame({"A": [5, 6], "B": [7, 8]})
  4. df_merged = pd.concat([df1, df2])
  5. print(df_merged)
复制代码
实验效果:

7.2 处置处罚时间序列

  1. # 创建时间序列
  2. dates = pd.date_range("20230101", periods=6)
  3. df_time = pd.DataFrame({"Date": dates, "Value": [1, 2, 3, 4, 5, 6]})
  4. print(df_time)
复制代码
实验效果:

整理完毕,完结撒花~ 🌻





参考所在:
1.pandas用法-全网最具体教程,https://blog.csdn.net/Strive_For_Future/article/details/126710810

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表