Как да извлечете таблици от PDF документи

Тази статия ще ви покаже как да извлечете таблици от PDF документи(extract tables from PDF documents) . Може да имате много PDF файлове, които съдържат множество таблици, които искате да използвате отделно. Копирането(Copying) и поставянето на тези таблици не е добър вариант, тъй като може да не даде очаквания изход, следователно имате нужда от някои други прости опции, които могат да извличат таблици от PDF файл и да запазват тези таблици като отделни файлове.

Повечето от тези инструменти за извличане на PDF таблици(PDF table extractor tools) не могат да помогнат, ако PDF таблицата е сканирана. В такъв случай първо трябва да направите PDF достъпен за търсене(make the PDF searchable)  и след това да опитате тези опции.

Извличане на таблици от PDF документи

В тази публикация сме добавили 2 безплатни онлайн услуги и 3 безплатни софтуера за извличане на таблици от PDF файл:

  1. PDF в XLS
  2. PDFtoExcel.com
  3. Табула
  4. ByteScout PDF Multitool
  5. Sejda PDF работен плот.

1] PDF към XLS

Услуга от PDF към XLS

PDF към XLS е една от най-добрите опции за извличане на таблици от PDF . Той има две функции, които го правят удобен. Можете да извличате таблици от 20 PDF документа заедно. Освен това извличането на PDF таблицата е автоматично. (PDF)Той генерира изхода като XLSX файл. Ако PDF има няколко таблици, тогава всяка таблица се съхранява отделно в различни листове на изходния XLSX файл.

Отворете началната страница(Open the homepage) на тази услуга. След това плъзнете и пуснете PDF файлове или използвайте бутона КАЧИ ФАЙЛОВЕ . (UPLOAD FILES)Всеки качен PDF файл(PDF) се конвертира автоматично във формат XLSX. Когато изходните файлове са готови, можете да ги изтеглите един по един или да изтеглите ZIP файл, който ще съдържа всички изходни файлове.

2] PDFtoExcel.com

Извличане на таблици от PDF документи

Услугата PDFtoExcel.com(PDFtoExcel.com) може да извлича таблици от един PDF наведнъж, но поддържа множество платформи за качване на PDF . Той поддържа OneDrive , настолен компютър(desktop) , Google Drive и Dropbox платформи за качване на PDF . Освен това процесът на преобразуване е автоматичен.

Тази начална страница на услугата е тук(here) . Там изберете опция за качване, за да добавите PDF . След това автоматично качва и конвертира PDF в Excel ( XLSX ) файл. Когато изходът е готов, ще получите връзката за изтегляне, за да запазите изходния файл, съдържащ PDF таблица(и).

Забележка:(Note: ) Въпреки че тази услуга споменава, че може да извлича таблици и от сканирани PDF файлове, тя не работи за мен. Все още можете да го изпробвате за сканиран PDF файл(PDF) .

3] Табула

Софтуер за извличане на PDF файлове Tabula

Tabula е мощен софтуер, който може автоматично да открива таблици, присъстващи в PDF , и след това ви позволява да запазите тези таблици като TSV , JSON или CSV файл. Можете да изберете опцията за запазване на отделни CSV файлове за всяка PDF таблица или за запазване на всички таблици в един CSV файл.

За да изтеглите този PDF екстрактор на таблици с отворен код , (open-source)щракнете тук(click here) . Освен това изисква Java(requires Java) , за да я стартира и използва успешно.

Извлечете ZIP файла, който сте изтеглили, и стартирайте файла tabula.exe . Той ще отвори страница в браузъра ви по подразбиране. Ако страницата не е отворена, добавете http://localhost:8080 във вашия браузър и натиснете Enter .

Сега ще видите неговия интерфейс, където можете да използвате опцията Преглед(Browse) , за да добавите PDF . След това натиснете бутона Импортиране(Import) . Когато PDF се добави, можете да видите PDF страници в неговия интерфейс.

Използвайте бутона Autodetect Tables и той автоматично ще маркира всички таблици, присъстващи в този PDF . Можете също така ръчно да маркирате таблица, като изберете конкретна таблица. Ако желаете, можете също да премахнете избрани таблици(remove selected tables) по ваш избор.

Това ще ви помогне да запазите само онези таблици, които искате. Когато PDF таблиците са маркирани, щракнете върху бутона Визуализация и експортиране на извлечени данни(Preview & Export Extracted Data) .

Накрая използвайте падащото меню, налично в горната част, за да изберете изходен формат и натиснете бутона Експортиране(Export) . Това ще запази PDF таблици в избрания от вас файл с изходен формат.

4] ByteScout PDF Multitool

ByteScout PDF Multitool - добавяне на pdf и откриване на таблици

Както подсказва името, този софтуер се предлага с множество инструменти. Той има инструменти като конвертиране на PDF в многостраничен TIFF(convert PDF to multipage TIFF) , завъртане на PDF документ(rotate PDF document) , правене на PDF нетърсен(make PDF unsearchable) , оптимизиране на PDF(optimize PDF) , добавяне на изображение към PDF(add an image to PDF) и др. Функцията за детектор на PDF(PDF) таблици също е там, което е доста страхотно. Предимството на този инструмент е, че можете да извличате таблици и от сканиран PDF(extract tables from scanned PDF) . Можете да откриете таблици в множество страници и след това да извлечете тези таблици като CSV , XLS , XML , TXT или JSON файл. Преди извличане също така ви позволява да зададете диапазон от страници(page range)за извличане на таблици само от определени страници.

Можете да вземете този софтуер тук(here) . Той е безплатен само за некомерсиална употреба(free for non-commercial use) . След инсталирането стартирайте този софтуер и използвайте опцията Open Document , за да добавите (Open Document)PDF файл(PDF) . След това щракнете върху инструмента за откриване на таблици(Detect tables) , както е подчертано на изображението по-горе. Този инструмент присъства в категорията Извличане(Data Extraction) на данни .

Той ще отвори поле, където можете да зададете условия за откриване на таблици. Например, можете да зададете минимален брой колони, редове, минимални прекъсвания на редове между таблици, да зададете режим на откриване на таблица на таблица с граници или без поле и т.н. Използвайте опции или запазете настройките по подразбиране.

След това натиснете бутона Откриване на следващата таблица(Detect next table) в това поле. Той ще идентифицира и избере таблица на текущата страница. По този начин можете да преминете към друга страница и да откриете още таблици.

откриване на таблици и запазване на pdf таблици с избран изход

Когато сте готови, използвайте бутона Пристъпи към извличане(Proceed to extraction) и изберете изходния формат. И накрая, можете да използвате опции, за да запазите таблиците от текущата страница или да дефинирате диапазон от страници и да запишете изхода.

Инструментът дава задоволителен резултат. Но понякога може да открие друго съдържание в PDF и може да не е в състояние да извлече таблици от множество страници. В този случай трябва да го използвате, за да извличате и запазвате таблици една по една.

5] Sejda PDF Desktop

Sejda PDF Desktop с pdf в excel конвертор

Sejda PDF Desktop също е многофункционален софтуер. Може да оптимизира или компресира PDF(compress PDF) , да добавя воден знак към PDF, да премахва ограничения от PDF(remove restrictions from PDF) , да редактира PDF документ и т.н. Въпреки това, неговият безплатен план има ограничения. В безплатния план могат да се изпълняват само 3 задачи на ден. Освен това ограничението за размера на PDF е (PDF)50 MB или 10 страници(10 pages) .

Можете да използвате неговия инструмент за преобразуване от PDF в Excel , за да извлечете (PDF to Excel)PDF таблици. Той автоматично открива таблиците в PDF страници и ви позволява да запишете тези таблици като XLSX или CSV .

Връзката му за изтегляне е тук(here) . След инсталирането използвайте инструмента PDF към Excel от основния му интерфейс. След като изберете този инструмент, използвайте бутона Избор на PDF файлове . (Choose PDF files)Само един PDF може да бъде добавен към безплатния план.

Когато PDF се добави, той ще осигури бутони Конвертиране на PDF в CSV(Convert PDF to CSV) и Конвертиране на PDF в Excel . (Convert PDF to Excel)Използвайте бутон и след това можете да запишете изхода на желаното място на вашия компютър.

конвертиране на pdf таблица в excel или csv

Неговият инструмент за откриване на PDF таблица е добър. Не е нужно да откривате ръчно таблици. Все пак понякога може да включва друго текстово съдържание като PDF таблица и да го съхранява в изхода. Но като цяло резултатите са добри.

Това е всичко.

Това са някои добри инструменти за извличане на таблици от PDF . Софтуерът Tabula(Tabula) е по-ефективен от другите инструменти. Все пак можете да изпробвате всички инструменти и да проверите кои помагат.

Подобно чете:(Similar reads:)



About the author

Аз съм инженер по windows, ios, pdf, грешки, джаджи с над 10 години опит. Работил съм върху много висококачествени Windows приложения и рамки като OneDrive за бизнеса, Office 365 и др. Неотдавнашната ми работа включваше разработването на pdf четеца за платформата на windows и работата по изясняване на съобщенията за грешки за потребителите. Освен това участвам в разработването на платформата ios от няколко години и съм много запознат както с нейните характеристики, така и с странностите.



Related posts