Извличане на текст от PDF и графични файлове

Имате PDF документ, от който искате да извлечете целия текст? Какво ще кажете за файловете с изображения на сканиран документ, който искате да конвертирате в редактируем текст? Това са някои от най-често срещаните проблеми, които съм виждал на работното място при работа с файлове.

В тази статия ще говоря за няколко различни начина, по които можете да опитате да извлечете текст от PDF или от изображение. Резултатите ви за извличане ще варират в зависимост от типа и качеството на текста в PDF или изображението. Освен това вашите резултати ще варират в зависимост от инструмента, който използвате, така че е най-добре да изпробвате възможно най-много от опциите по-долу, за да получите най-добри резултати.

Извличане на текст от изображение или PDF

Най-простият и бърз начин да започнете е да опитате онлайн услуга за извличане на PDF текст. Те обикновено са безплатни и могат да ви дадат точно това, което търсите, без да се налага да инсталирате нищо на компютъра си. Ето две, които използвах с много добри до отлични резултати:

Извличане на PDF

екстракт pdf

ExtractPDF е безплатен инструмент за извличане на изображения, текст и шрифтове от PDF файл. Единственото ограничение е, че максималният размер на PDF файла е 10 MB. Това е малко малко; така че ако имате по-голям файл, опитайте някои от другите методи по-долу. Изберете вашия файл и след това щракнете върху бутона Изпращане на файл(Send file) . Резултатите обикновено са много бързи и трябва да видите визуализация на текста, когато щракнете върху раздела Текст(Text) .

изтегляне на текст

Също така е приятно допълнително предимство, че извлича изображения и от PDF файла, само в случай, че имате нужда от тях! Като цяло онлайн инструментът работи чудесно, но попаднах на няколко PDF документа, които ми дават забавен резултат. Текстът се извлича добре, но по някаква причина ще има прекъсване на ред след всяка дума! Не е голям проблем за кратък PDF файл, но със сигурност проблем за файлове с много текст. Ако това се случи с вас, опитайте следващия инструмент.

Онлайн OCR

Онлайн OCR(Online OCR) обикновено работи за документи, които не са се конвертирали правилно с ExtractPDF , така че е добра идея да опитате и двете услуги, за да видите кои от тях ви дават по-добър изход. Онлайн OCR(Online OCR) също има някои по-хубави функции, които могат да се окажат удобни за всеки с голям PDF файл, който трябва да конвертира само текст на няколко страници, а не на целия документ.

Първото нещо, което искате да направите, е да продължите и да създадете безплатен акаунт. Това е малко досадно, но ако не създадете безплатния акаунт, той ще конвертира само частично вашия PDF , а не целия документ. Освен това, вместо да можете да качвате само 5 MB документ, можете да качите до 100 MB на файл с акаунт.

онлайн ocr

Първо изберете език и след това изберете типа на изходните формати, които искате за конвертирания файл. Имате няколко опции и можете да изберете повече от една, ако желаете. Под Многостраничен документ(Multipage document) можете да изберете Номера(Page numbers) на страници и след това да изберете само страниците, които искате да конвертирате. След това избирате файла и щракнете върху Конвертиране(Convert) !

онлайн ocr документи

След конвертирането ще бъдете отведени в секцията Документи(Documents) (ако сте влезли), където можете да видите колко налични безплатни страници са ви останали и връзки за изтегляне на вашите конвертирани файлове. Изглежда, че имате само 25 безплатни страници на ден, така че ако имате нужда от повече от това, ще трябва или да изчакате малко, или да купите повече страници.

Онлайн OCR(Online OCR) свърши отлична работа по конвертирането на моите PDF файлове(PDF) , защото успя да поддържа действителното оформление на текста. В моя тест взех документ на Word , който използва куршуми, различни размери на шрифта и т.н. и го преобразувах в PDF . След това използвах онлайн OCR(Online OCR) , за да го преобразувам обратно във формат Word и беше около 95% същото като оригинала. Това е доста впечатляващо за мен.

Освен това, ако искате да конвертирате изображение в текст, тогава онлайн OCR(Online OCR) може да направи това също толкова лесно, колкото извличането на текст от PDF файлове.

Безплатно онлайн OCR

Тъй като говорихме за OCR от изображение към текст , нека спомена друг добър уебсайт, който работи наистина добре върху изображенията. Безплатният онлайн OCR(Free Online OCR) беше много добър и много точен при извличане на текст от моите тестови изображения. Направих няколко снимки от моя iPhone на страници от книги, брошури и т.н. и бях изненадан колко добре успя да преобразува текста.

безплатно онлайн ocr

Изберете вашия файл и след това щракнете върху бутона Качване(Upload) . На следващия екран има няколко опции и предварителен преглед на изображението. Можете да го изрежете, ако не искате да OCR цялото нещо. След това просто щракнете върху бутона OCR и вашият конвертиран текст ще се появи под визуализацията на изображението. Освен това няма никакви ограничения, което е наистина хубаво.

В допълнение към онлайн услугите, има два безплатни PDF конвертора, които искам да спомена, в случай че имате нужда от софтуер, работещ локално на вашия компютър, за да извършите преобразуването. С онлайн услугите винаги ще имате нужда от интернет(Internet) връзка и това може да не е възможно за всеки. Забелязах обаче, че качеството на преобразуванията от безплатните програми е значително по-лошо от това на уебсайтовете.

A-PDF Text Extractor

A-PDF Text Extractor е безплатна програма, която върши доста добра работа за извличане на текст от PDF файлове. След като го изтеглите и инсталирате, щракнете върху бутона Отвори(Open) , за да изберете своя PDF файл. След това щракнете върху Извличане(Extract) на текст, за да започнете процеса.

apdf екстрактор

Той ще ви поиска местоположение за съхраняване на изходния текстов файл и след това ще започне да извлича. Можете също да щракнете върху бутона Опции(Option) , който ви позволява да избирате само определени страници за извличане и типа на извличане. Вторият вариант е интересен, защото извлича текста в различни оформления и си струва да опитате и трите, за да видите кой от тях ви дава най-добрия изход.

PDF2Text Pilot

PDF2Text Pilot  се справя добре с извличането на текст. Той няма никакви опции; просто добавяте файлове или папки, конвертирате и се надявате на най-доброто. Работеше добре на някои PDF файлове(PDFs) , но за повечето от тях имаше много проблеми.

pdf2 текст

Просто щракнете върху Добавяне на файлове(Add Files) и след това щракнете върху Конвертиране(Convert) . След като преобразуването приключи, щракнете върху Преглед(Browse) , за да отворите файла. Вашият пробег ще варира с помощта на тази програма, така че не очаквайте много.

Също така си струва да се спомене, че ако сте в корпоративна среда или можете да се сдобиете с копие на Adobe Acrobat от работа, тогава наистина можете да получите много по-добри резултати. Acrobat очевидно не е безплатен, но има опции за конвертиране на PDF във формат Word , Excel и HTML . Освен това върши най-добрата работа за поддържане на структурата на оригиналния документ и конвертиране на сложен текст.



About the author

Аз съм инженер по windows, ios, pdf, грешки, джаджи с над 10 години опит. Работил съм върху много висококачествени Windows приложения и рамки като OneDrive за бизнеса, Office 365 и др. Неотдавнашната ми работа включваше разработването на pdf четеца за платформата на windows и работата по изясняване на съобщенията за грешки за потребителите. Освен това участвам в разработването на платформата ios от няколко години и съм много запознат както с нейните характеристики, така и с странностите.



Related posts