Как да извлечете таблици от PDF документи
Тази статия ще ви покаже как да извлечете таблици от PDF документи(extract tables from PDF documents) . Може да имате много PDF файлове, които съдържат множество таблици, които искате да използвате отделно. Копирането(Copying) и поставянето на тези таблици не е добър вариант, тъй като може да не даде очаквания изход, следователно имате нужда от някои други прости опции, които могат да извличат таблици от PDF файл и да запазват тези таблици като отделни файлове.
Повечето от тези инструменти за извличане на PDF таблици(PDF table extractor tools) не могат да помогнат, ако PDF таблицата е сканирана. В такъв случай първо трябва да направите PDF достъпен за търсене(make the PDF searchable) и след това да опитате тези опции.
Извличане на таблици от PDF документи
В тази публикация сме добавили 2 безплатни онлайн услуги и 3 безплатни софтуера за извличане на таблици от PDF файл:
- PDF в XLS
- PDFtoExcel.com
- Табула
- ByteScout PDF Multitool
- Sejda PDF работен плот.
1] PDF към XLS
PDF към XLS е една от най-добрите опции за извличане на таблици от PDF . Той има две функции, които го правят удобен. Можете да извличате таблици от 20 PDF документа заедно. Освен това извличането на PDF таблицата е автоматично. (PDF)Той генерира изхода като XLSX файл. Ако PDF има няколко таблици, тогава всяка таблица се съхранява отделно в различни листове на изходния XLSX файл.
Отворете началната страница(Open the homepage) на тази услуга. След това плъзнете и пуснете PDF файлове или използвайте бутона КАЧИ ФАЙЛОВЕ . (UPLOAD FILES)Всеки качен PDF файл(PDF) се конвертира автоматично във формат XLSX. Когато изходните файлове са готови, можете да ги изтеглите един по един или да изтеглите ZIP файл, който ще съдържа всички изходни файлове.
2] PDFtoExcel.com
Услугата PDFtoExcel.com(PDFtoExcel.com) може да извлича таблици от един PDF наведнъж, но поддържа множество платформи за качване на PDF . Той поддържа OneDrive , настолен компютър(desktop) , Google Drive и Dropbox платформи за качване на PDF . Освен това процесът на преобразуване е автоматичен.
Тази начална страница на услугата е тук(here) . Там изберете опция за качване, за да добавите PDF . След това автоматично качва и конвертира PDF в Excel ( XLSX ) файл. Когато изходът е готов, ще получите връзката за изтегляне, за да запазите изходния файл, съдържащ PDF таблица(и).
Забележка:(Note: ) Въпреки че тази услуга споменава, че може да извлича таблици и от сканирани PDF файлове, тя не работи за мен. Все още можете да го изпробвате за сканиран PDF файл(PDF) .
3] Табула
Tabula е мощен софтуер, който може автоматично да открива таблици, присъстващи в PDF , и след това ви позволява да запазите тези таблици като TSV , JSON или CSV файл. Можете да изберете опцията за запазване на отделни CSV файлове за всяка PDF таблица или за запазване на всички таблици в един CSV файл.
За да изтеглите този PDF екстрактор на таблици с отворен код , (open-source)щракнете тук(click here) . Освен това изисква Java(requires Java) , за да я стартира и използва успешно.
Извлечете ZIP файла, който сте изтеглили, и стартирайте файла tabula.exe . Той ще отвори страница в браузъра ви по подразбиране. Ако страницата не е отворена, добавете http://localhost:8080 във вашия браузър и натиснете Enter .
Сега ще видите неговия интерфейс, където можете да използвате опцията Преглед(Browse) , за да добавите PDF . След това натиснете бутона Импортиране(Import) . Когато PDF се добави, можете да видите PDF страници в неговия интерфейс.
Използвайте бутона Autodetect Tables и той автоматично ще маркира всички таблици, присъстващи в този PDF . Можете също така ръчно да маркирате таблица, като изберете конкретна таблица. Ако желаете, можете също да премахнете избрани таблици(remove selected tables) по ваш избор.
Това ще ви помогне да запазите само онези таблици, които искате. Когато PDF таблиците са маркирани, щракнете върху бутона Визуализация и експортиране на извлечени данни(Preview & Export Extracted Data) .
Накрая използвайте падащото меню, налично в горната част, за да изберете изходен формат и натиснете бутона Експортиране(Export) . Това ще запази PDF таблици в избрания от вас файл с изходен формат.
4] ByteScout PDF Multitool
Както подсказва името, този софтуер се предлага с множество инструменти. Той има инструменти като конвертиране на PDF в многостраничен TIFF(convert PDF to multipage TIFF) , завъртане на PDF документ(rotate PDF document) , правене на PDF нетърсен(make PDF unsearchable) , оптимизиране на PDF(optimize PDF) , добавяне на изображение към PDF(add an image to PDF) и др. Функцията за детектор на PDF(PDF) таблици също е там, което е доста страхотно. Предимството на този инструмент е, че можете да извличате таблици и от сканиран PDF(extract tables from scanned PDF) . Можете да откриете таблици в множество страници и след това да извлечете тези таблици като CSV , XLS , XML , TXT или JSON файл. Преди извличане също така ви позволява да зададете диапазон от страници(page range)за извличане на таблици само от определени страници.
Можете да вземете този софтуер тук(here) . Той е безплатен само за некомерсиална употреба(free for non-commercial use) . След инсталирането стартирайте този софтуер и използвайте опцията Open Document , за да добавите (Open Document)PDF файл(PDF) . След това щракнете върху инструмента за откриване на таблици(Detect tables) , както е подчертано на изображението по-горе. Този инструмент присъства в категорията Извличане(Data Extraction) на данни .
Той ще отвори поле, където можете да зададете условия за откриване на таблици. Например, можете да зададете минимален брой колони, редове, минимални прекъсвания на редове между таблици, да зададете режим на откриване на таблица на таблица с граници или без поле и т.н. Използвайте опции или запазете настройките по подразбиране.
След това натиснете бутона Откриване на следващата таблица(Detect next table) в това поле. Той ще идентифицира и избере таблица на текущата страница. По този начин можете да преминете към друга страница и да откриете още таблици.
Когато сте готови, използвайте бутона Пристъпи към извличане(Proceed to extraction) и изберете изходния формат. И накрая, можете да използвате опции, за да запазите таблиците от текущата страница или да дефинирате диапазон от страници и да запишете изхода.
Инструментът дава задоволителен резултат. Но понякога може да открие друго съдържание в PDF и може да не е в състояние да извлече таблици от множество страници. В този случай трябва да го използвате, за да извличате и запазвате таблици една по една.
5] Sejda PDF Desktop
Sejda PDF Desktop също е многофункционален софтуер. Може да оптимизира или компресира PDF(compress PDF) , да добавя воден знак към PDF, да премахва ограничения от PDF(remove restrictions from PDF) , да редактира PDF документ и т.н. Въпреки това, неговият безплатен план има ограничения. В безплатния план могат да се изпълняват само 3 задачи на ден. Освен това ограничението за размера на PDF е (PDF)50 MB или 10 страници(10 pages) .
Можете да използвате неговия инструмент за преобразуване от PDF в Excel , за да извлечете (PDF to Excel)PDF таблици. Той автоматично открива таблиците в PDF страници и ви позволява да запишете тези таблици като XLSX или CSV .
Връзката му за изтегляне е тук(here) . След инсталирането използвайте инструмента PDF към Excel от основния му интерфейс. След като изберете този инструмент, използвайте бутона Избор на PDF файлове . (Choose PDF files)Само един PDF може да бъде добавен към безплатния план.
Когато PDF се добави, той ще осигури бутони Конвертиране на PDF в CSV(Convert PDF to CSV) и Конвертиране на PDF в Excel . (Convert PDF to Excel)Използвайте бутон и след това можете да запишете изхода на желаното място на вашия компютър.
Неговият инструмент за откриване на PDF таблица е добър. Не е нужно да откривате ръчно таблици. Все пак понякога може да включва друго текстово съдържание като PDF таблица и да го съхранява в изхода. Но като цяло резултатите са добри.
Това е всичко.
Това са някои добри инструменти за извличане на таблици от PDF . Софтуерът Tabula(Tabula) е по-ефективен от другите инструменти. Все пак можете да изпробвате всички инструменти и да проверите кои помагат.
Подобно чете:(Similar reads:)
- Извличане на прикачени файлове от PDF(Extract attachments from PDF)
- Извличане на маркиран текст от PDF(Extract highlighted text from PDF) .
Related posts
Конвертор на документи: Конвертирайте DOC, PDF, DOCX, RTF, TXT, HTML файлове
Какво е PPS файл? Как да конвертирате PPS в PDF в Windows 11/10?
PDF текстът изчезва при редактиране или запазване на файл в Windows 11/10
Най-добрите безплатни онлайн инструменти за редактор на PDF, които са базирани на облак
Безплатен онлайн инструмент за PDF редактор за редактиране на PDF файлове - PDF Да
Най-добрият безплатен софтуер за редактиране на PDF за Windows 10
Най-добрият софтуер за брояч на PDF думи и онлайн инструменти
PDF Candy е онлайн инструмент всичко в едно за управление на PDF файлове
Как да конвертирате документи в PDF с CutePDF за Windows 10
7-PDF конвертор на уебсайтове: Конвертирайте уеб страници в PDF
Най-добрите безплатни гласови четци на PDF за Windows 10
Как да поправите PDF с помощта на PDF Fixer Tool за Windows 10
Как да конвертирате PDF документ в многостранично TIFF изображение в Windows
Премахнете ограниченията за PDF с помощта на безплатен софтуер или онлайн инструменти
Как да подчертаете текст в PDF документи в браузъра Microsoft Edge
Редактирайте PDF с безплатен софтуер и услуги за редактиране на PDF
Най-добрият безплатен софтуер за създаване на PDF печати за Windows 10
PDF24 Creator е безплатен PDF Creator за създаване, конвертиране, сливане на PDF файлове
Конвертирайте PDF в PPT (PowerPoint), като използвате този безплатен софтуер и онлайн инструменти
Как да активирате оформление на две страници за PDF файлове в браузъра Edge