최 pratices 에 액세스하에서 대용량 데이터 Azure Databricks R

Question 1

에서 새로운 Azure 고 Databricks가,나스에 액세스하려는 대량의 데이터에서 나는 실행하는 프로세스(에 기록 data.table 고 실행되는 글로컬).

나는 편안한 바로 약관이나 어떻게 전체 Azure 환경,작동 하지만 지금은,나의 데이터가 존재하에서 3 포맷:

첫 번째 시도 (및 논리적이 나를 위해):클래식 fread csv 파일이 있습니다. 에 작은 파일,모든 것은 괜찮습니다. 에'빅'파일(3Go),그것은 많은,몇 분 동안,로컬 그것은 단지 소수의 초입니다.

왜 그것보다 훨씬 더컬?

두 번째 시도 와 함께 SparkR 에는 csv 파일 collect() 과 작업 data.table

지 collect() 는 오류를 반환합니다.

내가 할 수 있는 이?

세 번째 시도 :위와 동일 델타에서 파일과 같은 유형의 오류

넷째도 :SQL 요청 SparkR 지 collect 여전히 동일한 오류

나 시도보다 더 나은 다른? 내가 오른쪽에는 트랙? 나는 뭔가?

어떤 도움 또는 통보는 매우 도움이 될 것입니다.

Question 2

에 관한 적재에서 DBFS 그것은 개체는 클라우드 저장소에 저장하지 않 로컬 저장소에서 로딩 시간을 자연스럽게이 훨씬 더 길어질 수 있습니다.

에 대한 오류를 조정할 수 있습 불꽃을 구성 하지만 사용하지 않는 것이 좋습니다 당신이 얻을 수 있는 메모리 오류가:

spark.driver.maxResultSize <X>g

당신은 그것을 조정할 수 있습니다에서 클러스터 촉발 config

최고의 솔루션을 사용하는 것 이상의 인스턴스(있을 수 있도록 자동으로 더 많은 파티션-이 제한 적용 파티션,인스턴스 RAM 메모리 크기는 것도 중요하지만 더 나은 일반적으로 다만 더 추가 인스턴스는 규모의 수평). 설정에서 권장하는 경우 빅 데이터의 설정합니다.

을 사용하지 마십시오를 수집하()읽으로 귀하의 모든 데이터 프레임에 드라이버 개체 그래서 그것은 작동하지 않습니다. 일반적으로 이 함수는 권장하지 않더라도 작은 데이터 집합입니다. 하려는 경우 진단의 데이터 프레임 기능을 사용하시기 바랍니다.처음()이나.쇼으로 제한.

Hubert Dudek · Answer 1 · 2021-11-22T13:04:06

에 관한 적재에서 DBFS 그것은 개체는 클라우드 저장소에 저장하지 않 로컬 저장소에서 로딩 시간을 자연스럽게이 훨씬 더 길어질 수 있습니다.

에 대한 오류를 조정할 수 있습 불꽃을 구성 하지만 사용하지 않는 것이 좋습니다 당신이 얻을 수 있는 메모리 오류가:

spark.driver.maxResultSize <X>g

당신은 그것을 조정할 수 있습니다에서 클러스터 촉발 config

최고의 솔루션을 사용하는 것 이상의 인스턴스(있을 수 있도록 자동으로 더 많은 파티션-이 제한 적용 파티션,인스턴스 RAM 메모리 크기는 것도 중요하지만 더 나은 일반적으로 다만 더 추가 인스턴스는 규모의 수평). 설정에서 권장하는 경우 빅 데이터의 설정합니다.

을 사용하지 마십시오를 수집하()읽으로 귀하의 모든 데이터 프레임에 드라이버 개체 그래서 그것은 작동하지 않습니다. 일반적으로 이 함수는 권장하지 않더라도 작은 데이터 집합입니다. 하려는 경우 진단의 데이터 프레임 기능을 사용하시기 바랍니다.처음()이나.쇼으로 제한.

답변 주셔서 감사합니다,그것을 좀 더 명확하다. 그러나 새로운 사용자의 이 환경을,내가 이해하지 못하는 것)방법을 조정할 수 있습니 Spark config 예? 어떻게 사용할 수있는 더 많은 경우? (당신이 바로,데이터는 클라우드. 나의 클러스터는 252Go72core).
이 클러스터가 이미 매우 큽니다. 나는 것입 업데이트 내 대답으로 더 많은 정보에서 몇 시간입니다. 을 사용하지 마십시오를 수집하()읽으로 귀하의 모든 데이터 프레임에 드라이버 개체 그래서 그것은 작동하지 않습니다. 일반적으로 이 함수는 권장하지 않더라도 작은 데이터 집합입니다. 하려는 경우 diagnoze 의 데이터 프레임 기능을 사용하시기 바랍니다.처음().쇼으로 제한.
지금까지,나를 찾지 않은 것 보다 더 좋은 방법 collect() 를"local"스크립트 작성 data.table...기다릴 수 없을 읽기 당신의 업데이트!
그러나 정확히 무엇을 달성하고 싶은? try 디스플레이(df)도
나를 실행할 필요가 전하는 스크립트에 쓴 data.table. 그러나 내가 생각해야 할 것이 다시 작성 sparkr죠? 하지만 그것은 보인다 더 복잡하게 보다 그것은 소리입니다. 나왔을 만들려고 새 열을 위해 오랜 시간 사용하여 strsplit 다른 열에 성공하지...

질문