IT评测·应用市场-qidao123.com

标题: pandas 笔记crosstab [打印本页]

作者: 科技颠覆者 时间: 2024-8-17 19:08
标题: pandas 笔记crosstab
用来计算两个（或更多）因子的交织表（即频率表、列联表或透视表）。这个功能特别适用于统计分析和数据探索阶段，帮助理解差异变量之间的关系
1 基本用法

复制代码

2 参数说明

index	用作表的行标签的数组、序列或数组列表
columns	用作表的列标签的数组、序列或数组列表
values	可选，数组或序列，当利用 aggfunc 不为空时，这个参数用来计算聚合值
rownames	用于结果DataFrame的行标签的名称列表
colnames	用于结果DataFrame的列标签的名称列表
aggfunc	可选，用于聚合的函数或函数列表。如果提供了 values，则必要这个参数
margins	布尔值，是否添加行/列边际小计或总计
margins_name	边际的名称，默认是 'All
dropna	布尔值，是否删除全部条目都为NaN的列
normalize	布尔值或 {'all', 'index', 'columns'}，用于规范化频率表的总和

3 举例

3.1 基本例子

假设有一个关于人口的数据集，我们有性别和职业两个列

import pandas as pd
data = {
'Sport': ['Soccer', 'Soccer', 'Tennis', 'Soccer', 'Tennis', 'Basketball', 'Basketball'],
'Age Group': ['Youth', 'Adult', 'Adult', 'Youth', 'Youth', 'Adult', 'Youth']
}
df = pd.DataFrame(data)
df

复制代码

现在我们想要检察差异职业中性别的分布情况：

复制代码

3.2 聚合函数 values,aggfunc

如果你有一个包含多个雷同记录的数据集，而且你想要计算某些数值的总和或平均值，你可以利用 values 和 aggfunc 参数

data = pd.DataFrame({
'Gender': ['Male', 'Female', 'Female', 'Male', 'Female', 'Male', 'Male'],
'Occupation': ['Engineer', 'Doctor', 'Engineer', 'Artist', 'Doctor', 'Artist', 'Engineer'],
'Salary': [1000, 1500, 900, 1100, 1700, 1200, 1300]
})
data

复制代码