에서 새로운 Azure
고 Databricks
가,나스에 액세스하려는 대량의 데이터에서 나는 실행하는 프로세스(에 기록 data.table
고 실행되는 글로컬).
나는 편안한 바로 약관이나 어떻게 전체 Azure 환경,작동 하지만 지금은,나의 데이터가 존재하에서 3 포맷:
- 테이블
- 파켓
- csv
첫 번째 시도 (및 논리적이 나를 위해):클래식 fread
csv 파일이 있습니다.
에 작은 파일,모든 것은 괜찮습니다. 에'빅'파일(3Go),그것은 많은,몇 분 동안,로컬 그것은 단지 소수의 초입니다.
왜 그것보다 훨씬 더컬?
두 번째 시도 와 함께 SparkR
에는 csv 파일 collect()
과 작업 data.table
내가 할 수 있는 이?
세 번째 시도 :위와 동일 델타에서 파일과 같은 유형의 오류
넷째도 :SQL 요청 SparkR
지 collect
여전히 동일한 오류
나 시도보다 더 나은 다른? 내가 오른쪽에는 트랙? 나는 뭔가?
어떤 도움 또는 통보는 매우 도움이 될 것입니다.