马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
一、根本统计量
1、df.info()函数
info()函数展示数据表根本信息:
- index
- 列名
- 每列不是空值的计数
- 每列数据类型
- 占用内存
接下来通过代码进行展示,先生成一份数据,便于展示。
- import pandas as pd
- data = {
- "name":['张三',"李四","王二","周六"],
- "age":[20,19,23,22],
- "hometown":["Anhui","Jiangsu","Zhejiang","Hunan"],
- }
- df = pd.DataFrame(data)
- df.info()
复制代码 输出效果如下:- <class 'pandas.core.frame.DataFrame'>
- RangeIndex: 4 entries, 0 to 3
- Data columns (total 3 columns):
- # Column Non-Null Count Dtype
- --- ------ -------------- -----
- 0 name 4 non-null object
- 1 age 4 non-null int64
- 2 hometown 4 non-null object
- dtypes: int64(1), object(2)
- memory usage: 228.0+ bytes
复制代码- DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)
复制代码 info函数一共有6个函数。
- verbose默以为Ture,控制函数是否展示表格具体的信息。
- buf:假如提供可写入对象,输出将被写入这个对象而不是打印到标准输出。这对于捕获输出到字符串或文件中很有用。
- max_cols:指定要显示的列的最大数量。假如DataFrame的列数超过这个值,则只显示前max_cols列的信息,其余列的信息将被省略,并在输出中注明。默以为None显示全部信息。
- memory_usage
- 控制是否显示内存使用情况以及显示的具体程度。
- True或'deep':显示DataFrame元素占用的内存(可能较慢,由于需要深入检查每个元素)。
- False或'shallow':仅显示对象本身的内存占用(不包罗元素)。
- 默以为'deep'。
- show_counts
- 当设置为True时,显示每列的非空值数量。
- 当设置为False时,不显示每列的非空值数量。
2、df.describe()展示数据统计量
函数主要展示计数、平均值、标准差、最小值、四分之一分位点、二分之分位点、四分之三分位点、最大值。效果如下:- |age|
- |---|
- |count|4.000000|
- |mean|21.000000|
- |std|1.825742|
- |min|19.000000|
- |25%|19.750000|
- |50%|21.000000|
- |75%|22.250000|
- |max|23.000000|
复制代码
- percentiles:指定要包罗的其他百分位数,比方percentiles=[.25, .5, .75]将返回第一、第二和第三四分位数。
- include:指定要包罗的数据类型,默以为'all',可以设置为'all', 'nums', 或 'object'。
- exclude:指定要排除的数据类型。
比如输出一个混乱的分位数[.45,.65,.87,.96,.99]f- df.describe(percentiles=[.45,.65,.87,.96,.99])
复制代码 输出效果:- |age|
- |---|
- |count|4.000000|
- |mean|21.000000|
- |std|1.825742|
- |min|19.000000|
- |45%|20.700000|
- |50%|21.000000|
- |65%|21.900000|
- |87%|22.610000|
- |96%|22.880000|
- |99%|22.970000|
- |max|23.000000|
复制代码 3、其他函数
pandas还拥有众多展示根本信息的函数,这里展示一部分:
- df.sum 求和
- df.median 中位数
- df.mean 平均值
- df.min 最小值
- df.max 最大值
- df.idxmin 返回最小值列名和index,参数axis
- df.idxmax 返回最大值列名和index,参数axis
- df.corr 相干系数
- df.cov 协方差
- df['column'].unique() 找出唯一值
- df['column'].nunique() 找出唯一值的数量
- df.sort_index 按照index排序
- df.sort_values 按照值排序,参数key可以使用函数
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |