테이블을 감지되지 않으로 북한은 백 및 카멜롯

0

질문

I 추출하려고 테이블에서 Pdf 파일을 적절한하지 않은 형식으로 나는 생각한다. 테이블에서 이 Pdf 테이블 형식의 그러나로 묶지 않으로 제대로 verical 테두리입니다. enter image description here 나는 첨부하는 샘플 pdf 및 출력을 모두와 함께 라이브러리입니다. 을 사용하여 북한은 백을 위한 테이블 탐지,빈 datadrame 은 반환되는 모든 페이지에서 pdf 파일.

0 을 입력하는 단일 페이지 1 에 대한 모든 2 개,특정 페이지:2 페이지 번호를 입력합:25 테이블 페이지에서 찾아에 의해 북한은 백.

고 내가 사용하는 경우 카멜롯가 동일한 응답이 없을 때 사용 flovor='lattice'

0 을 입력하는 단일 페이지 1 위해 모든 페이지 2 페이지 테이블에서 감지에 의해 북한은 백,3 위한 특정 페이지:3 0 을 입력하는 격자 또는 1 스트림:0 페이지 번호를 입력합:25 테이블 페이지에서 찾아에 의해 카멜롯.

고 사용할 때 flovor='stream'을 데이터 프레임 있는 각 라인을 읽을 줄과 탭으로 구분된 데이터지만,포함 할 것이 일반 텍스트에서뿐만 아니라는 것 데이터 프레임.

0 을 입력하는 단일 페이지 1 위해 모든 페이지 2 페이지 테이블에서 감지에 의해 북한은 백,3 위한 특정 페이지:3 0 을 입력하는 격자 또는 1 트:1 페이지 번호를 입력합:25 enter image description here

나는 그저 필요한 효율적인 방법을 감지하는 테이블과추출물이 동일한 경우 데이터 수직을 둘러싸 테이블 라인은 존재하지 않습니다. 모두 북한은 백 및 카멜롯 라이브러리는 작동하는 경우 테이블이에서 적절한 형식으로 묶여 수직 및 수평 라인입니다.

nlp pdf python python-camelot
2021-11-22 15:08:39
2

최고의 응답

0

이 방법은 당신을 도울 수 있: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

을 찾을 수 있습을 지정하고 수직 구분하는 카멜롯하여 전달하의 x 좌표를 먼저 사용해야 합니다".줄거리()"방법에 카멜롯을 표시 테이블 내부에는 pdf 및 참고의 x 좌표를 원하는 수직 seperators 을하에서 아래와 같다:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2']) 
2021-11-22 15:52:19
-1

테이블을 감지되지 않으로 북한은 백 및 카멜롯

나는 최근에 작업을 추출하는 테이블에서 PDF 파일.

북한은 백카멜롯 아 나를 위해 그러나 pdfplumber 나 필요한 결과입니다.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)
2021-11-27 11:30:02

다른 언어로

이 페이지는 다른 언어로되어 있습니다

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................