属性名称Default Value备注max-concurrent-file-group-rewrites5同时重写的最大文件组数partial-progress.enabledfalse是否“分步提交”,允许在完成整个重写之前提交文件组partial-progress.max-commits10如果启用了部分进度,允许此重写产生的最大提交次数use-starting-sequence-numbertrue使用压缩开始时快照的序列号,而不是新天生快照的序列号rewrite-job-ordernonetarget-file-size-bytes536870912 (512 MB, default value of write.target-file-size-bytes from table properties)重写输出文件大小min-file-size-bytes75% of target file size低于此阈值的文件将被思量重写,而不思量任何其他标准max-file-size-bytes180% of target file size文件大小超过此阈值时,将思量重写,而不思量任何其他标准min-input-files5任何文件组的文件数超过这个数量,都将被重写,而不思量其他标准rewrite-allfalse逼迫重写全部提供的文件,优先于其他选项max-file-group-size-bytes107374182400 (100GB)单个文件组中应重写的最大数据量。整个重写操纵会根据分区和分区内文件组的大小分成多少块。这有助于分解超大分区的重写,否则由于群集的资源限制,这些分区大概无法重写。delete-file-threshold2147483647思量重写数据文件所需的最少删除次数 Options for sort strategy
属性名称Default Value备注compression-factor1.0shuffle 分区的数量以及 Spark 排序创建的输出文件数量取决于文件重写器使用的输入数据文件的大小。由于压缩,磁盘文件大小大概无法准确代表输出文件的大小。该参数允许用户调解用于估算实际输出数据大小的文件大小。系数大于 1.0 会天生比我们根据磁盘文件大小所预期的更多的文件。如果数值小于 1.0,根据磁盘上的文件大小,天生的文件将比我们预期的少shuffle-partitions-per-file1每个输出文件要使用的分区数量。iceberg会使用自界说的归并操纵,将这些已排序的分区拼接成一个已排序的文件。 Options for sort strategy with zorder sort_order
属性名称Default Value备注max-concurrent-file-group-rewrites5同时重写的最大文件组数partial-progress.enabledfalse是否“分步提交”,允许在完成整个重写之前提交文件组partial-progress.max-commits10如果启用了部分进度,允许此重写产生的最大提交次数rewrite-job-ordernonetarget-file-size-bytes67108864 (64MB, default value of write.delete.target-file-size-bytes from table properties)重写输出文件大小min-file-size-bytes75% of target file size低于此阈值的文件将被思量重写,而不思量任何其他标准max-file-size-bytes180% of target file size文件大小超过此阈值时,将思量重写,而不思量任何其他标准min-input-files5任何文件组的文件数超过这个数量,都将被重写,而不思量其他标准rewrite-allfalse逼迫重写全部提供的文件,优先于其他选项max-file-group-size-bytes107374182400 (100GB)单个文件组中应重写的最大数据量。整个重写操纵会根据分区和分区内文件组的大小分成多少块。这有助于分解超大分区的重写,否则由于群集的资源限制,这些分区大概无法重写。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。