在读取数据之后,让我们浏览一下对dataframe实行的一些常见操作。 转换和操作
现在,在内存中有了一个由San Francisco Fire Department调用构成的分布式DataFrame,作为开辟人员,要做的第一件事就是检查数据,看看列是什么样子。它们是正确的类型吗?有必要转换成差异类型的吗?它们有空值吗? 投影和过滤
关系术语中的投影是一种方法,通过使用过滤器只返回与特定关系条件匹配的行。在Spark中,投影是用select()方法完成的,而过滤器可以用filter()或where()方法表现。我们可以使用这种技术来查询数据集的特定信息: