Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),是一个提供高性能、易于使用的数据结构和数据分析工具。
接下来查看Pandas的基本使用:
- # 导入模块
- import pandas as pd
- import numpy as np
复制代码 - # 读取文件
- stu = pd.read_excel('./stu_data.xlsx')
- stu.head()
复制代码
- # 查看数据 (数据类型,是否有空值)
- stu.info()
复制代码
- # 转换数据类型
- stu['日期'] = stu['日期'].astype('str')
- stu.info()
复制代码
切片操作- # iloc or loc切片 (学号,身高,体重)
- stu.iloc[:,[0,2,3]] # 获取学号,身高,体重,所有行信息
- stu.loc[5:10,['学号','身高','体重'] ]
复制代码
查询操作- # sql查询语言 身高高于170 性别是女
- stu.query('身高 > 170 and 性别 == "女"')
- # pandas查询
- stu[ (stu['身高'] > 170) & (stu['性别'] == "女") ]
复制代码
- # 通过索引号获取信息
- stu.query('10')
复制代码
排序操作- stu['身高'].sort_values() # 默认正序
- stu['身高'].sort_values(ascending=False) # 默认正序
复制代码
分组操作- # 按课程分组,查看分组里面的数据
- stu = stu.groupby('课程')
- stu.groups
复制代码

- # 分组汇总
- # stu.agg(['mean','std']) # 分组后每一列的均值和标准差
- print(stu.身高.agg(max))
复制代码
数值变量分段- stu = pd.read_excel('./stu_data.xlsx')
- stu['新体重'] = pd.cut(stu.体重,bins=[40,50,60,70,80,90],right=False)
- stu.head()
复制代码
时间拆分- # stu.日期
- stu['年份'] = stu.日期.dt.year
- stu['月份'] = stu.日期.dt.month
- stu['天数'] = stu.日期.dt.day
- stu.head()
复制代码
表连接- # 创建新Series对象
- stu1 = pd.Series(np.arange(12345678900,12345678952),name='手机号')
- stu1
复制代码
- # 合并表<br>stu3 = pd.concat([stu,stu1],axis=1)
- stu3.head()
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |