반응형
Pyspark export to delimited file
def myConcat(*cols):
concat_columns = []
for c in cols[:-1]:
concat_columns.append(F.coalesce(c, F.lit("*")))
concat_columns.append(F.lit("\t"))
concat_columns.append(F.coalesce(cols[-1], F.lit("*")))
return F.concat(*concat_columns)
# combined column 에 모든 변수를 \t 로 concat 한 값 저장
data_text = data.withColumn("combined", myConcat(*data.columns)).select("combined")
data_text.coalesce(1).write.format("text").option("header", "false").mode("overwrite").save(path)
출처 : https://stackoverflow.com/questions/17837871/how-to-copy-file-from-hdfs-to-the-local-file-system
반응형
'Tools > Python' 카테고리의 다른 글
Jupyter notebook에서 외부 파일을 자동으로 갱신하는 방법 (0) | 2022.10.19 |
---|---|
Pyspark MLlib 를 활용한 모델링 기초 (w/ Random Forest) (0) | 2022.09.20 |
PySpark DataFrame 을 이용한 탐색적 데이터 분석 및 처리 (0) | 2022.08.26 |
PySpark DataFrame 을 사용하는 이유와 pandas 와의 차이점 (0) | 2022.08.26 |
아나콘다 python 3 가상환경 세팅하기 (0) | 2022.06.12 |