spark数据帧非常缓慢地保存为分区表

apache-spark

1636 观看

1回复

315 作者的声誉

df.write.partitionBy("par").format("orc").saveAsTable("mytable")

大家好,当我将spark数据帧保存为分区的蜂巢表时,该过程非常缓慢,有人知道为什么吗?是否有任何需要调整的参数?

作者: shengshan zhang 的来源 发布者: 2017 年 9 月 15 日

回应 1


1

14887 作者的声誉

我猜问题是数据框分区未与配置单元分区“对齐”。这将为每个配置单元分区创建许多小文件。这是因为数据数据帧的每个分区都包含配置单元分区的一些数据。

尝试首先在同一列上对数据框重新分区:

df.repartition("par").write.partitionBy("par").format("orc")‌​.saveAsTable("mytabl‌​e")
作者: Raphael Roth 发布者: 2017 年 9 月 18 日
32x32