spark提供的DSL方法和sql的关键词一样,利用方式与sql基本类似,在进行数据处置惩罚时,要按照SQL的的执行顺序去思索怎样处置惩罚数据
from join 知道数据在哪 df本身就是要处置惩罚的数据 df.join(df2)
where 过滤需要处置惩罚的数据 df.join(df2).where()
group by 聚合 数据的盘算 df.join(df2).where().groupby().sum()
having 盘算后的数据进行过滤 df.join(df2).where().groupby().sum().where()
select 展示数据的字段 df.join(df2).where().groupby().sum().where().select()
order by 展示数据的排序 df.join(df2).where().groupby().sum().where().select().orderBy()
limit 展示数据的数量 df.join(df2).where().groupby().sum().where().select().orderBy().limit() DSL方法之后完成后回得到一个处置惩罚后的新的df