马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
用来计算两个(或更多)因子的交织表(即频率表、列联表或透视表)。这个功能特别适用于统计分析和数据探索阶段,帮助理解差异变量之间的关系
1 基本用法
- pd.crosstab(index,
- columns,
- values=None,
- rownames=None,
- colnames=None,
- aggfunc=None,
- margins=False,
- margins_name='All',
- dropna=True,
- normalize=False)
复制代码 2 参数说明
index | 用作表的行标签的数组、序列或数组列表 | columns | 用作表的列标签的数组、序列或数组列表 | values | 可选,数组或序列,当利用 aggfunc 不为空时,这个参数用来计算聚合值 | rownames | 用于结果DataFrame的行标签的名称列表 | colnames | 用于结果DataFrame的列标签的名称列表 | aggfunc | 可选,用于聚合的函数或函数列表。如果提供了 values,则必要这个参数 | margins | 布尔值,是否添加行/列边际小计或总计 | margins_name | 边际的名称,默认是 'All | dropna | 布尔值,是否删除全部条目都为NaN的列 | normalize | 布尔值或 {'all', 'index', 'columns'},用于规范化频率表的总和 | 3 举例
3.1 基本例子
假设有一个关于人口的数据集,我们有性别和职业两个列
- import pandas as pd
- data = {
- 'Sport': ['Soccer', 'Soccer', 'Tennis', 'Soccer', 'Tennis', 'Basketball', 'Basketball'],
- 'Age Group': ['Youth', 'Adult', 'Adult', 'Youth', 'Youth', 'Adult', 'Youth']
- }
- df = pd.DataFrame(data)
- df
复制代码
现在我们想要检察差异职业中性别的分布情况:
- ct = pd.crosstab(index=df['Age Group'], columns=df['Sport'])
- ct
复制代码
3.2 聚合函数 values,aggfunc
如果你有一个包含多个雷同记录的数据集,而且你想要计算某些数值的总和或平均值,你可以利用 values 和 aggfunc 参数
- data = pd.DataFrame({
- 'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male', 'Male'],
- 'Occupation': ['Engineer', 'Doctor', 'Engineer', 'Artist', 'Doctor', 'Artist', 'Engineer'],
- 'Salary': [1000, 1500, 900, 1100, 1700, 1200, 1300]
- })
- data
复制代码
不用聚合函数的情况:
- pd.crosstab(data['Gender'], data['Occupation'])
复制代码
利用聚合函数的情况
- pd.crosstab(data['Gender'], data['Occupation'], values=data['Salary'], aggfunc='mean')
复制代码
3.3 margins
利用 margins=True 可以快速获得每一行和每一列的总计,以及整个表的总计。
- pd.crosstab(data['Gender'],
- data['Occupation'],
- values=data['Salary'],
- aggfunc='mean',
- margins=True)
复制代码
3.4 normalize
用于标准化交织表的数据
- False (默认): 不举行任何标准化,表现原始的频数数据。
- True: 将全部的频数转换为表中全部元素的比例。全部表格中的数值加起来即是 1。
- 'all': 同 True,将全部频数转换为表中全部元素的比例。
- 'index': 按行举行标准化。每一行的数值将会除以该行的总和,使得每一行的总和为 1。
- 'columns': 按列举行标准化。每一列的数值将会除以该列的总和,使得每一列的总和为 1。
- pd.crosstab(data['Gender'],
- data['Occupation'],
- values=data['Salary'],
- aggfunc='mean',
- normalize='columns',
- margins=True)
复制代码
- pd.crosstab(data['Gender'], `
- data['Occupation'],
- values=data['Salary'],
- aggfunc='mean',
- normalize='columns',
- margins=True)
复制代码
- pd.crosstab(data['Gender'],
- data['Occupation'],
- values=data['Salary'],
- aggfunc='mean',
- normalize='index',
- margins=True)
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |