spark functions函数合集（无示例）

十念 · 2025-1-10 06:28:17

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

ctrl+F举行页面查找

没有示例，仅用于查询，具体用法自行搜索
函数名称作用avg计算指定列的匀称值count计算指定列或所有行的数目countDistinct计算指定列中不同值的数目corr计算两个列之间的干系系数covar_pop计算两个列之间的总体协方差covar_samp计算两个列之间的样本协方差first返回指定列的第一个值（可选地忽略空值）last返回指定列的最后一个值（可选地忽略空值）max返回指定列的最大值mean计算指定列的匀称值（与 avg 雷同）min返回指定列的最小值sum计算指定列的总和sumDistinct计算指定列中不同值的总和（已弃用，保举利用 sum_distinct）variance计算指定列的方差stddev计算指定列的标准差kurtosis计算指定列的峰度skewness计算指定列的偏度percentile_approx计算指定列的近似百分位数abs计算指定列的绝对值acos计算指定列的反正弦值asin计算指定列的反正弦值atan计算指定列的反正切值atan2计算两个列值的反正切值cbrt计算指定列的立方根ceil计算指定列的最小整数（向上取整）cos计算指定列的余弦值cosh计算指定列的双曲余弦值exp计算指定列的指数值（e 的幂）factorial计算指定列的阶乘floor计算指定列的最大整数（向下取整）hex将指定列的二进制值转换为十六进制字符串hypot计算两个列值的欧几里得范数（平方和的平方根）log计算指定列的天然对数（以 e 为底）log10计算指定列的以 10 为底的对数log1p计算指定列的值加 1 后的天然对数log2计算指定列的以 2 为底的对数pmod计算两个列值的正模（取余）pow计算指定列的幂（第一个参数的第二个参数的幂）rand生成一个随机浮点数（0.0 到 1.0 之间）randn生成一个符合标准正态分布的随机浮点数round将指定列的值四舍五入到最靠近的整数shiftLeft将指定列的二进制表现向左移动指定的位数shiftRight将指定列的二进制表现向右移动指定的位数（带符号）shiftRightUnsigned将指定列的二进制表现向右移动指定的位数（无符号）signum计算指定列的符号函数（-1, 0, 1）sin计算指定列的正弦值sinh计算指定列的双曲正弦值sqrt计算指定列的平方根tan计算指定列的正切值tanh计算指定列的双曲正切值degrees将指定列的弧度值转换为角度radians将指定列的角度值转换为弧度md5计算指定列的 MD5 哈希值sha1计算指定列的 SHA-1 哈希值sha2计算指定列的 SHA-2 哈希值crc32计算指定列的 CRC-32 哈希值concat连接多个列的值concat_ws利用指定的分隔符连接多个列的值decode利用指定的字符集解码列的值encode利用指定的字符集编码列的值format_number将数字格式化为指定的小数位数format_string利用指定的格式字符串格式化多个列的值initcap将每个单词的首字母大写instr返回子字符串在字符串中第一次出现的位置length返回字符串的长度lower将字符串转换为小写lpad用指定的填充字符串在左侧填充字符串，直到达到指定的长度ltrim去除字符串左侧的空白字符或指定字符regexp_extract利用正则表达式从字符串中提取匹配的子字符串regexp_replace利用正则表达式替换字符串中的匹配部分rpad用指定的填充字符串在右侧填充字符串，直到达到指定的长度repeat重复字符串指定的次数rtrim去除字符串右侧的空白字符或指定字符soundex计算字符串的 SOUNDEX 编码split利用指定的分隔符拆分字符串substring提取字符串的子字符串translate将字符串中的字符替换为指定的字符trim去除字符串两侧的空白字符或指定字符upper将字符串转换为大写add_months向日期添加指定的月份数current_date返回当前日期current_timestamp返回当前时间戳date_add向日期添加指定的天数date_sub从日期减去指定的天数datediff计算两个日期之间的天数差year提取日期的年份部分month提取日期的月份部分dayofmonth提取日期的月份中的天数部分dayofweek提取日期是一周中的第几天（1=周日）dayofyear提取日期是一年中的第几天hour提取时间的小时部分minute提取时间的分钟部分second提取时间的秒部分weekofyear提取日期是一年中的第几周from_unixtime将 Unix 时间戳转换为日期时间格式unix_timestamp将日期时间字符串转换为 Unix 时间戳to_timestamp将日期时间字符串转换为时间戳类型to_date将日期时间字符串转换为日期类型trunc将日期时间截断到指定的单元（如年、月、日）from_utc_timestamp将 UTC 时间戳转换为指定时区的本地时间to_utc_timestamp将本地时间转换为 UTC 时间戳array_contains查抄数组是否包含指定的元素arrays_overlap查抄两个数组是否有重叠的元素slice提取数组的指定部分（子数组）array_join将数组的元素连接成一个字符串，利用指定的分隔符array_position返回数组中指定元素的位置（索引）element_at返回数组中指定索引位置的元素array_sort对数组举行排序array_remove从数组中移除指定的元素array_distinct返回数组中不同的元素（去重）array_intersect返回两个数组的交集array_union返回两个数组的并集array_except返回第一个数组中存在但第二个数组中不存在的元素transform对数组的每个元素应用指定的函数exists查抄数组中是否存在满足条件的元素forall查抄数组中的所有元素是否都满足条件filter过滤数组中的元素，只保存满足条件的元素aggregate对数组的元素举行聚合计算zip_with将两个数组的元素组合成一个新的数组，利用指定的函数处理对应的元素transform_keys对 Map 的每个键应用指定的函数transform_values对 Map 的每个值应用指定的函数map_filter过滤 Map 中的键值对，只保存满足条件的键值对map_zip_with将两个 Map 的键值对组合成一个新的 Map，利用指定的函数处理对应的键值对explode将数组或 Map 展开为多行explode_outer将数组或 Map 展开为多行，包罗空数组或空 Map 的环境posexplode将数组展开为多行，同时保存元素的索引posexplode_outer将数组展开为多行，同时保存元素的索引，包罗空数组的环境get_json_object从 JSON 字符串中提取指定的 JSON 对象json_tuple将 JSON 字符串解析为多个字段from_json将 JSON 字符串解析为 Spark SQL 的数据结构to_json将 Spark SQL 的数据结构转换为 JSON 字符串size返回数组或 Map 的大小（元素数目）sort_array对数组举行排序（可选地指定升序或降序）array_min返回数组中的最小值array_max返回数组中的最大值shuffle随机打乱数组中的元素序次reverse反转数组中的元素序次flatten将嵌套数组展平为一个单层数组sequence生成一个由起始值到结束值的序列，可选地指定步长array_repeat将数组重复指定的次数map_keys返回 Map 中的所有键map_values返回 Map 中的所有值map_entries返回 Map 中的所有键值对（作为元组）map_from_entries将包含键值对的数组转换为 Maparrays_zip将多个数组的元素组合成一个新的数组，每个元素是一个包含对应位置元素的元组map_concat将多个 Map 合并为一个新的 Mapfrom_csv将 CSV 字符串解析为 Spark SQL 的数据结构to_csv将 Spark SQL 的数据结构转换为 CSV 字符串years提取时间间隔中的年纪months提取时间间隔中的月数days提取时间间隔中的天数hours提取时间间隔中的小时数bucket根据指定的列和桶数，将行分配到不同的桶中udaf定义一个用户定义的聚合函数（UDAF）udf定义一个用户定义的函数（UDF）greatest返回一组表达式中的最大值least返回一组表达式中的最小值bitwiseNOT对数值举行按位取反操作（已弃用，保举利用 bitwise_not）bitwise_not对数值举行按位取反操作bitwiseAND对两个数值举行按位与操作bitwiseOR对两个数值举行按位或操作bitwiseXOR对两个数值举行按位异或操作bitwiseAND (Column, Column)对两个枚举行按位与操作bitwiseOR (Column, Column)对两个枚举行按位或操作bitwiseXOR (Column, Column)对两个枚举行按位异或操作levenshtein计算两个字符串之间的莱文斯坦间隔（编辑间隔）overlay用一个字符串覆盖另一个字符串的指定部分sentences将文本拆分为句子toDegrees将弧度转换为角度（已弃用，保举利用 degrees）toRadians将角度转换为弧度（已弃用，保举利用 radians）unbase64解码 Base64 编码的字符串ascii返回字符串中第一个字符的 ASCII 码base64对字符串举行 Base64 编码locate返回子字符串在字符串中第一次出现的位置（可选地指定起始位置）lpad (Column, Int, Column)用指定的填充字符串在左侧填充列，直到达到指定的长度rpad (Column, Int, Column)用指定的填充字符串在右侧填充列，直到达到指定的长度sentences (Column, Column, Column)利用指定的语言和国家/地区设置将文本拆分为句子timestamp_seconds将 Unix 时间戳（以秒为单元）转换为时间戳类型bucket (Column, Int)根据指定的列和桶数，将行分配到不同的桶中（利用哈希函数）window定义一个时间窗口，用于窗口函数计算session_window定义一个会话窗口，用于会话窗口函数计算map_keys (Column)返回 Map 列中的所有键map_values (Column)返回 Map 列中的所有值map_entries (Column)返回 Map 列中的所有键值对（作为元组）map_from_entries (Column)将包含键值对的数组列转换为 Map 列array_remove (Column, Column)从数组中移除指定的列元素array_distinct (Column)返回数组列中的不同元素（去重）array_intersect (Column, Column)返回两个数组列的交集array_union (Column, Column)返回两个数组列的并集array_except (Column, Column)返回第一个数组列中存在但第二个数组列中不存在的元素map_filter (Column, (Column, Column) => Column)过滤 Map 列中的键值对，只保存满足条件的键值对map_zip_with (Column, Column, (Column, Column, Column) => Column)将两个 Map 列的键值对组合成一个新的 Map 列，利用指定的函数处理对应的键值对explode (Column)将数组或 Map 列展开为多行explode_outer (Column)将数组或 Map 列展开为多行，包罗空数组或空 Map 的环境posexplode (Column)将数组列展开为多行，同时保存元素的索引posexplode_outer (Column)将数组列展开为多行，同时保存元素的索引，包罗空数组的环境cume_dist计算累积分布值，用于窗口函数dense_rank计算麋集排名，用于窗口函数lag访问窗口函数中的前一行的值（可选地指定偏移量和默认值）lead访问窗口函数中的后一行的值（可选地指定偏移量和默认值）nth_value访问窗口函数中的第 N 个值（可选地忽略空值）ntile将窗口中的行划分为 N 个桶，并返回每行所属的桶号percent_rank计算百分比排名，用于窗口函数rank计算排名，用于窗口函数（可能有空缺）row_number计算行号，用于窗口函数（没有空缺）asc指定排序序次为升序（用于窗口函数或 orderBy）asc_nulls_first指定排序序次为升序，空值排在前面（用于窗口函数或 orderBy）asc_nulls_last指定排序序次为升序，空值排在后面（用于窗口函数或 orderBy）desc指定排序序次为降序（用于窗口函数或 orderBy）desc_nulls_first指定排序序次为降序，空值排在前面（用于窗口函数或 orderBy）desc_nulls_last指定排序序次为降序，空值排在后面（用于窗口函数或 orderBy）approx_count_distinct计算近似唯一值的数目，与 approxCountDistinct 雷同但保举利用approxCountDistinct (已弃用)计算近似唯一值的数目（已弃用，保举利用 approx_count_distinct）collect_list将分组中的行收集到一个列表中collect_set将分组中的不同行收集到一个聚集中covar_pop (Column, Column)计算两个列之间的总体协方差（与之前的函数雷同，但参数情势不同）covar_samp (Column, Column)计算两个列之间的样本协方差（与之前的函数雷同，但参数情势不同）grouping指示指定的列是否在 GROUP BY 子句中（用于窗口函数或聚合查询）grouping_id计算 GROUP BY 子句中指定列的分组 ID（用于窗口函数或聚合查询）percentile_approx (Column, Column, Column)计算指定列的近似百分位数（与之前的函数雷同，但参数情势不同）expr执行 SQL 表达式并返回结果列case_when实现条件逻辑，雷同于 SQL 中的 CASE WHEN 语句when (与 case_when 结合利用)定义 CASE WHEN 语句中的条件分支otherwise (与 case_when 结合利用)定义 CASE WHEN 语句中的默认分支input_file_name返回处理当前行的输入文件的名称isnan查抄指定列的值是否为 NaN（非数字）isnull查抄指定列的值是否为 NULLmonotonically_increasing_id生成一个单调递增的唯一 ID（在分布式环境中唯一）nanvl如果指定列的值为 NaN，则返回另一个列的值，否则返回指定列的值negate对数值取反not对布尔值取反sqrt (Column)计算指定列的平方根（与之前的函数雷同，但参数情势不同）struct将多个列组合成一个结构体（雷同于元组）struct (Column, Column, …)将多个列组合成一个结构体（雷同于元组）array (Column, Column, …)将多个列组合成一个数组map (Column, Column, …)将多个键值对列组合成一个 Mapbroadcast将数据集广播到所有节点，以便在执行连接操作时进步效率coalesce (Column, Column, …)返回第一个非 NULL 的列值spark_partition_id返回当前行地点的 Spark 分区 ID
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

spark functions函数合集（无示例）

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块