ToB企服应用市场:ToB评测及商务社交产业平台

标题: pandas 笔记crosstab [打印本页]

作者: 科技颠覆者    时间: 2024-8-17 19:08
标题: pandas 笔记crosstab
用来计算两个(或更多)因子的交织表(即频率表、列联表或透视表)。这个功能特别适用于统计分析和数据探索阶段,帮助理解差异变量之间的关系
1 基本用法

  1. pd.crosstab(index,
  2.     columns,
  3.     values=None,
  4.     rownames=None,
  5.     colnames=None,
  6.     aggfunc=None,
  7.     margins=False,
  8.     margins_name='All',
  9.     dropna=True,
  10.     normalize=False)
复制代码
2 参数说明

index用作表的行标签的数组、序列或数组列表
columns用作表的列标签的数组、序列或数组列表
values可选,数组或序列,当利用 aggfunc 不为空时,这个参数用来计算聚合值
rownames用于结果DataFrame的行标签的名称列表
colnames用于结果DataFrame的列标签的名称列表
aggfunc可选,用于聚合的函数或函数列表。如果提供了 values,则必要这个参数
margins布尔值,是否添加行/列边际小计或总计
margins_name边际的名称,默认是 'All
dropna布尔值,是否删除全部条目都为NaN的列
normalize布尔值或 {'all', 'index', 'columns'},用于规范化频率表的总和
3 举例

3.1 基本例子

假设有一个关于人口的数据集,我们有性别和职业两个列
  1. import pandas as pd
  2. data = {
  3.     'Sport': ['Soccer', 'Soccer', 'Tennis', 'Soccer', 'Tennis', 'Basketball', 'Basketball'],
  4.     'Age Group': ['Youth', 'Adult', 'Adult', 'Youth', 'Youth', 'Adult', 'Youth']
  5. }
  6. df = pd.DataFrame(data)
  7. df
复制代码

现在我们想要检察差异职业中性别的分布情况:
  1. ct = pd.crosstab(index=df['Age Group'], columns=df['Sport'])
  2. ct
复制代码

3.2 聚合函数 values,aggfunc

如果你有一个包含多个雷同记录的数据集,而且你想要计算某些数值的总和或平均值,你可以利用 values 和 aggfunc 参数
  1. data = pd.DataFrame({
  2.     'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male', 'Male'],
  3.     'Occupation': ['Engineer', 'Doctor', 'Engineer', 'Artist', 'Doctor', 'Artist', 'Engineer'],
  4.     'Salary': [1000, 1500, 900, 1100, 1700, 1200, 1300]
  5. })
  6. data
复制代码

不用聚合函数的情况:
  1. pd.crosstab(data['Gender'], data['Occupation'])
复制代码

利用聚合函数的情况
  1. pd.crosstab(data['Gender'], data['Occupation'], values=data['Salary'], aggfunc='mean')
复制代码

3.3 margins

利用 margins=True 可以快速获得每一行和每一列的总计,以及整个表的总计。
  1. pd.crosstab(data['Gender'],
  2.     data['Occupation'],
  3.     values=data['Salary'],
  4.     aggfunc='mean',
  5.     margins=True)
复制代码

3.4 normalize

用于标准化交织表的数据

  1. pd.crosstab(data['Gender'],
  2.             data['Occupation'],
  3.             values=data['Salary'],
  4.             aggfunc='mean',
  5.             normalize='columns',
  6.             margins=True)
复制代码

  1. pd.crosstab(data['Gender'], `
  2.             data['Occupation'],
  3.             values=data['Salary'],
  4.             aggfunc='mean',
  5.             normalize='columns',
  6.             margins=True)
复制代码
 
  1. pd.crosstab(data['Gender'],
  2.             data['Occupation'],
  3.             values=data['Salary'],
  4.             aggfunc='mean',
  5.             normalize='index',
  6.             margins=True)
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4