ToB企服应用市场:ToB评测及商务社交产业平台

标题: Pandas简单操作(学习总结) [打印本页]

作者: 来自云龙湖轮廓分明的月亮    时间: 2022-9-2 01:11
标题: Pandas简单操作(学习总结)
Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),是一个提供高性能、易于使用的数据结构和数据分析工具。

接下来查看Pandas的基本使用:
 
  1. # 导入模块
  2. import pandas as pd
  3. import numpy as np
复制代码
 
  1. # 读取文件
  2. stu = pd.read_excel('./stu_data.xlsx')
  3. stu.head()
复制代码

 
 
  1. # 查看数据 (数据类型,是否有空值)
  2. stu.info()
复制代码

 
 
  1. # 转换数据类型
  2. stu['日期'] = stu['日期'].astype('str')
  3. stu.info()
复制代码

 
 切片操作
  1. # iloc or loc切片 (学号,身高,体重)
  2. stu.iloc[:,[0,2,3]]  # 获取学号,身高,体重,所有行信息
  3. stu.loc[5:10,['学号','身高','体重'] ]
复制代码

 
 
查询操作
  1. # sql查询语言 身高高于170   性别是女
  2. stu.query('身高 > 170 and 性别 == "女"')
  3. # pandas查询
  4. stu[ (stu['身高'] > 170) & (stu['性别'] ==  "女") ]
复制代码

 
 
  1. # 通过索引号获取信息
  2. stu.query('10')
复制代码

 
 
排序操作
  1. stu['身高'].sort_values() # 默认正序
  2. stu['身高'].sort_values(ascending=False) # 默认正序
复制代码

 
 
 
分组操作
  1. # 按课程分组,查看分组里面的数据
  2. stu = stu.groupby('课程')
  3. stu.groups
复制代码

 
 
  1. # 查看分组描述
  2. stu.describe()
复制代码

 
 
  1. # 分组汇总
  2. # stu.agg(['mean','std']) # 分组后每一列的均值和标准差
  3. print(stu.身高.agg(max))
复制代码

 
 
数值变量分段
  1. stu = pd.read_excel('./stu_data.xlsx')
  2. stu['新体重'] = pd.cut(stu.体重,bins=[40,50,60,70,80,90],right=False)
  3. stu.head()
复制代码

 
 
时间拆分
  1. # stu.日期
  2. stu['年份'] = stu.日期.dt.year
  3. stu['月份'] = stu.日期.dt.month
  4. stu['天数'] = stu.日期.dt.day
  5. stu.head()
复制代码

 
 
表连接
  1. # 创建新Series对象
  2. stu1 = pd.Series(np.arange(12345678900,12345678952),name='手机号')
  3. stu1
复制代码

 
 
  1. # 合并表<br>stu3 = pd.concat([stu,stu1],axis=1)
  2. stu3.head()
复制代码

 
 
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4