Pandas简单操作(学习总结)

打印 上一主题 下一主题

主题 861|帖子 861|积分 2583

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),是一个提供高性能、易于使用的数据结构和数据分析工具。

接下来查看Pandas的基本使用:
 
  1. # 导入模块
  2. import pandas as pd
  3. import numpy as np
复制代码
 
  1. # 读取文件
  2. stu = pd.read_excel('./stu_data.xlsx')
  3. stu.head()
复制代码

 
 
  1. # 查看数据 (数据类型,是否有空值)
  2. stu.info()
复制代码

 
 
  1. # 转换数据类型
  2. stu['日期'] = stu['日期'].astype('str')
  3. stu.info()
复制代码

 
 切片操作
  1. # iloc or loc切片 (学号,身高,体重)
  2. stu.iloc[:,[0,2,3]]  # 获取学号,身高,体重,所有行信息
  3. stu.loc[5:10,['学号','身高','体重'] ]
复制代码

 
 
查询操作
  1. # sql查询语言 身高高于170   性别是女
  2. stu.query('身高 > 170 and 性别 == "女"')
  3. # pandas查询
  4. stu[ (stu['身高'] > 170) & (stu['性别'] ==  "女") ]
复制代码

 
 
  1. # 通过索引号获取信息
  2. stu.query('10')
复制代码

 
 
排序操作
  1. stu['身高'].sort_values() # 默认正序
  2. stu['身高'].sort_values(ascending=False) # 默认正序
复制代码

 
 
 
分组操作
  1. # 按课程分组,查看分组里面的数据
  2. stu = stu.groupby('课程')
  3. stu.groups
复制代码

 
 
  1. # 查看分组描述
  2. stu.describe()
复制代码

 
 
  1. # 分组汇总
  2. # stu.agg(['mean','std']) # 分组后每一列的均值和标准差
  3. print(stu.身高.agg(max))
复制代码

 
 
数值变量分段
  1. stu = pd.read_excel('./stu_data.xlsx')
  2. stu['新体重'] = pd.cut(stu.体重,bins=[40,50,60,70,80,90],right=False)
  3. stu.head()
复制代码

 
 
时间拆分
  1. # stu.日期
  2. stu['年份'] = stu.日期.dt.year
  3. stu['月份'] = stu.日期.dt.month
  4. stu['天数'] = stu.日期.dt.day
  5. stu.head()
复制代码

 
 
表连接
  1. # 创建新Series对象
  2. stu1 = pd.Series(np.arange(12345678900,12345678952),name='手机号')
  3. stu1
复制代码

 
 
  1. # 合并表<br>stu3 = pd.concat([stu,stu1],axis=1)
  2. stu3.head()
复制代码

 
 
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

渣渣兔

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表