ToB企服应用市场:ToB评测及商务社交产业平台

标题: 借助Numpy，优化Pandas的条件检索代码 [打印本页]

作者: 商道如狼道 时间: 2024-5-14 22:38
标题: 借助Numpy，优化Pandas的条件检索代码
Numpy着实是最早的处置惩罚数据的Python库，它的焦点ndarray对象，是一个高效的n维数组结构。
通过这个库，可以高效的完成向量和矩阵运算，由于其出色的性能，很多其他的数据分析，科学计算或者机器学习相关的Python库都或多或少的依靠于它。
Pandas就是其中之一，Pandas充分使用了NumPy的数组运算功能，使得数据处置惩罚和分析更加高效。
比如，Pandas中最重要的两个数据结构Series和DataFrame在内部就使用了NumPy的ndarray来存储数据。
在使用Pandas进行数据分析的过程中，按条件检索和过滤数据是最频繁的操作。
本文介绍两种通过结合Numpy，一方面让Pandas的检索过滤代码更加简洁易懂，另一方面还能保障检索过滤的高性能。
1. 准备数据

第一步，先准备数据，这次使用二手房交易数据，可从 https://databook.top/lianjia/nj 下载。

import pandas as pd
import numpy as np
# 这个路径替换成自己的路径
fp = r'D:\data\南京二手房交易\南京江宁区.csv'
df = pd.read_csv(fp)
df.head()

复制代码

2. 一般条件判定（np.where）

比如，买房前我们想先分析下已有的成交信息，对于房价能有个大致的印象。
下面，按照总价和单价，先挑选总价200~300万之间，或者单价1万以下的成交信息。
符合条件返回“OK”，否则返回“NG”。

def filter_data(row):
if row["totalPrice"] > 200 and row["totalPrice"] < 300:
return "OK"
if row["unitPrice"] < 10000:
return "OK"
return "NG"
df["评估"] = df.apply(filter_data, axis=1)
df[df["评估"] == "OK"].head()

复制代码

上面的过滤数据写法是使用Pandas时用的比力多的方式，也就是将过滤条件封装到一个自定义函数（filter_data）中，然后通过 apply 函数来完成数据过滤。
下面我们用Numpy的 np.where 接口来改造上面的代码。
np.where雷同Python编程语言中的if-else判定，基本语法：

import numpy as np
np.where(condition[, x, y])

复制代码

其中：

condition：条件表达式，返回布尔数组。
x 和 y：可选参数，condition为True，返回x，反之，返回y。

如果未提供x 和 y，则函数仅返回满足条件的元素的索引。
改造后的代码如下：

# 根据单价过滤
cond_unit_price = np.where(
df["unitPrice"] < 10000,
"OK",
"NG",
)
# 先根据总价过滤，不满足条件再用单价过滤
cond_total_price = np.where(
(df["totalPrice"] > 200) & (df["totalPrice"] < 300),
"OK",
cond_unit_price,
)
df["评估"] = cond_total_price
df[df["评估"] == "OK"].head()

复制代码

运行之后返回的结果是一样的，但是性能提升很多。
如果数据量是几十万量级的话，你会发现改造之后的代码运行效率提高了几百倍。
3. 复杂多条件判定（np.select）

上面的示例中，判定还比力简朴，属于if-else，也就是是与否的判定。
下面设计一种更复杂的判定，将成交信息评估为“精良中差”4个等级，而不仅仅是“OK”和“NG”。
我们假设：
<ol>优：房屋精装，且位于中楼层，且近地铁
良：总价

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)