나는 다음과 같은 코드를 사용:
random = [("ABC",xx, 1),
("DEF",yy,1),
("GHI",zz, 0)
]
randomColumns = ["name","id", "male"]
randomDF = spark.createDataFrame(data=random, schema = randomColumns)
test_df = randomDF.select("name", "id")
test_df.filter(f.col("male") == '1').show()
위의 코드를 것으로 예상 결과에 오류가 있기 때문에 test_df 라 선택하는 남성에서 열 원본 데이터 프레임. 놀랍게도 위의 쿼리가 실행 없이도 잘 어떤 오류가 및 출력을 다음과 같다:
+---------+-------+
|name | id|
+---------+-------+
| abc| xx|
| def| yy|
+---------+-------+
내가 원하는 논리를 이해하기 위해 무엇 뒤에 불꽃이 하고 있습니다. 당 spark 문서를 선택합 반환하는 새로운 데이터 프레임. 그런 다음 그것은 왜 아직도 사용할 수 있는 남성 컬럼 부모로부터 데이터 프레임.