我们将从美国燃油经济性网站提取数据。该网站拥有自1984年以来在美国贩卖的汽车品牌和型号的效率数据。
read_csv函数不但可以接受URL,还可以接受ZIP文件。因为这个ZIP文件只包含一个文件,所以我们可以使用这个函数。如果它是一个包含多个文件的 ZIP 文件,我们就必要解压数据,取出我们感兴趣的文件。
我们要研究的数据集中的第一列是city08和highway08,它们分别提供了在都会和高速公路上行驶时每加仑英里数的信息:
对标量进行数学运算时,pandas会将运算结果广播给所有值。在上述情况中,这些值是相加的。这样就可以轻松编写数学运算。这也使代码易于阅读。
广播另有另一个好处。对于许多数学运算,CPU会对其进行优化并快速执行。这就是所谓的矢量化。(数字pandas系列是一个内存块,今世 CPU 利用一种称为单指令/多数据(SIMD)的技术将数学运算应用于内存块)。
.add等操作方法的一个优点是可以指定添补值。在执行操作前,索引项仍将对齐。
可用的操作包括
+、-、/、//(地板除)、%(模)、@(矩阵乘法)、**(幂)、、&(二进制和)、^(二进制 xor)、|(二进制或)。
序列也有.iter 方法,您可以循环遍历数列中的项目。不过,我建议避免在系列中使用 for 循环。你正在去掉 pandas 的一个优点--矢量化和C级操作。
参考资料