우리는 우리를 업데이트해야 하는 열에 의하여,하나는 열 B 또는 C 열 또는 열 D. 는 열을 사용에 의해 결정됩니다 열 X 포함하는 세포으로 값"B"or"C"또는"열 D"
에서 이러한 요건이 충족되어야 합 pyspark dataframes
우리는 우리를 업데이트해야 하는 열에 의하여,하나는 열 B 또는 C 열 또는 열 D. 는 열을 사용에 의해 결정됩니다 열 X 포함하는 세포으로 값"B"or"C"또는"열 D"
에서 이러한 요건이 충족되어야 합 pyspark dataframes
당신이 사용할 수 있는 when
이를 달성하기 위해.
변수 possible_values
안 derive_column_A()
컨트롤이 가능한 모든 열의 값입니다. 이것이 우리가 동적으로 생성하는 조건을 선택합이 열립니다.
from pyspark.sql import functions as F
data = [("B1", "C1", "D1", "column C"),
("B2", "C2", "D2", "column D"),
("B3", "C3", "D3", "column B"),
("B4", "C4", "D4", "column D")]
df = spark.createDataFrame(data, ("B", "C", "D", "X"))
def derive_column_A():
possible_values = ["column B", "column C", "column D"]
column_mapping = [{col, col.split(" ")[1]} for col in possible_values]
condition = F
for possible_value in possible_values:
condition = condition.when(F.col("X") == possible_value, F.col(possible_value.split(" ")[1]))
return condition
df.withColumn("A", derive_column_A()).show()
+---+---+---+--------+---+
| B| C| D| X| A|
+---+---+---+--------+---+
| B1| C1| D1|column C| C1|
| B2| C2| D2|column D| D2|
| B3| C3| D3|column B| B3|
| B4| C4| D4|column D| D4|
+---+---+---+--------+---+