Извличане на текст от PDF и графични файлове
Имате PDF документ, от който искате да извлечете целия текст? Какво ще кажете за файловете с изображения на сканиран документ, който искате да конвертирате в редактируем текст? Това са някои от най-често срещаните проблеми, които съм виждал на работното място при работа с файлове.
В тази статия ще говоря за няколко различни начина, по които можете да опитате да извлечете текст от PDF или от изображение. Резултатите ви за извличане ще варират в зависимост от типа и качеството на текста в PDF или изображението. Освен това вашите резултати ще варират в зависимост от инструмента, който използвате, така че е най-добре да изпробвате възможно най-много от опциите по-долу, за да получите най-добри резултати.
Извличане на текст от изображение или PDF
Най-простият и бърз начин да започнете е да опитате онлайн услуга за извличане на PDF текст. Те обикновено са безплатни и могат да ви дадат точно това, което търсите, без да се налага да инсталирате нищо на компютъра си. Ето две, които използвах с много добри до отлични резултати:
Извличане на PDF
ExtractPDF е безплатен инструмент за извличане на изображения, текст и шрифтове от PDF файл. Единственото ограничение е, че максималният размер на PDF файла е 10 MB. Това е малко малко; така че ако имате по-голям файл, опитайте някои от другите методи по-долу. Изберете вашия файл и след това щракнете върху бутона Изпращане на файл(Send file) . Резултатите обикновено са много бързи и трябва да видите визуализация на текста, когато щракнете върху раздела Текст(Text) .
Също така е приятно допълнително предимство, че извлича изображения и от PDF файла, само в случай, че имате нужда от тях! Като цяло онлайн инструментът работи чудесно, но попаднах на няколко PDF документа, които ми дават забавен резултат. Текстът се извлича добре, но по някаква причина ще има прекъсване на ред след всяка дума! Не е голям проблем за кратък PDF файл, но със сигурност проблем за файлове с много текст. Ако това се случи с вас, опитайте следващия инструмент.
Онлайн OCR
Онлайн OCR(Online OCR) обикновено работи за документи, които не са се конвертирали правилно с ExtractPDF , така че е добра идея да опитате и двете услуги, за да видите кои от тях ви дават по-добър изход. Онлайн OCR(Online OCR) също има някои по-хубави функции, които могат да се окажат удобни за всеки с голям PDF файл, който трябва да конвертира само текст на няколко страници, а не на целия документ.
Първото нещо, което искате да направите, е да продължите и да създадете безплатен акаунт. Това е малко досадно, но ако не създадете безплатния акаунт, той ще конвертира само частично вашия PDF , а не целия документ. Освен това, вместо да можете да качвате само 5 MB документ, можете да качите до 100 MB на файл с акаунт.
Първо изберете език и след това изберете типа на изходните формати, които искате за конвертирания файл. Имате няколко опции и можете да изберете повече от една, ако желаете. Под Многостраничен документ(Multipage document) можете да изберете Номера(Page numbers) на страници и след това да изберете само страниците, които искате да конвертирате. След това избирате файла и щракнете върху Конвертиране(Convert) !
След конвертирането ще бъдете отведени в секцията Документи(Documents) (ако сте влезли), където можете да видите колко налични безплатни страници са ви останали и връзки за изтегляне на вашите конвертирани файлове. Изглежда, че имате само 25 безплатни страници на ден, така че ако имате нужда от повече от това, ще трябва или да изчакате малко, или да купите повече страници.
Онлайн OCR(Online OCR) свърши отлична работа по конвертирането на моите PDF файлове(PDF) , защото успя да поддържа действителното оформление на текста. В моя тест взех документ на Word , който използва куршуми, различни размери на шрифта и т.н. и го преобразувах в PDF . След това използвах онлайн OCR(Online OCR) , за да го преобразувам обратно във формат Word и беше около 95% същото като оригинала. Това е доста впечатляващо за мен.
Освен това, ако искате да конвертирате изображение в текст, тогава онлайн OCR(Online OCR) може да направи това също толкова лесно, колкото извличането на текст от PDF файлове.
Безплатно онлайн OCR
Тъй като говорихме за OCR от изображение към текст , нека спомена друг добър уебсайт, който работи наистина добре върху изображенията. Безплатният онлайн OCR(Free Online OCR) беше много добър и много точен при извличане на текст от моите тестови изображения. Направих няколко снимки от моя iPhone на страници от книги, брошури и т.н. и бях изненадан колко добре успя да преобразува текста.
Изберете вашия файл и след това щракнете върху бутона Качване(Upload) . На следващия екран има няколко опции и предварителен преглед на изображението. Можете да го изрежете, ако не искате да OCR цялото нещо. След това просто щракнете върху бутона OCR и вашият конвертиран текст ще се появи под визуализацията на изображението. Освен това няма никакви ограничения, което е наистина хубаво.
В допълнение към онлайн услугите, има два безплатни PDF конвертора, които искам да спомена, в случай че имате нужда от софтуер, работещ локално на вашия компютър, за да извършите преобразуването. С онлайн услугите винаги ще имате нужда от интернет(Internet) връзка и това може да не е възможно за всеки. Забелязах обаче, че качеството на преобразуванията от безплатните програми е значително по-лошо от това на уебсайтовете.
A-PDF Text Extractor
A-PDF Text Extractor е безплатна програма, която върши доста добра работа за извличане на текст от PDF файлове. След като го изтеглите и инсталирате, щракнете върху бутона Отвори(Open) , за да изберете своя PDF файл. След това щракнете върху Извличане(Extract) на текст, за да започнете процеса.
Той ще ви поиска местоположение за съхраняване на изходния текстов файл и след това ще започне да извлича. Можете също да щракнете върху бутона Опции(Option) , който ви позволява да избирате само определени страници за извличане и типа на извличане. Вторият вариант е интересен, защото извлича текста в различни оформления и си струва да опитате и трите, за да видите кой от тях ви дава най-добрия изход.
PDF2Text Pilot
PDF2Text Pilot се справя добре с извличането на текст. Той няма никакви опции; просто добавяте файлове или папки, конвертирате и се надявате на най-доброто. Работеше добре на някои PDF файлове(PDFs) , но за повечето от тях имаше много проблеми.
Просто щракнете върху Добавяне на файлове(Add Files) и след това щракнете върху Конвертиране(Convert) . След като преобразуването приключи, щракнете върху Преглед(Browse) , за да отворите файла. Вашият пробег ще варира с помощта на тази програма, така че не очаквайте много.
Също така си струва да се спомене, че ако сте в корпоративна среда или можете да се сдобиете с копие на Adobe Acrobat от работа, тогава наистина можете да получите много по-добри резултати. Acrobat очевидно не е безплатен, но има опции за конвертиране на PDF във формат Word , Excel и HTML . Освен това върши най-добрата работа за поддържане на структурата на оригиналния документ и конвертиране на сложен текст.
Related posts
Как да комбинирате или обедините множество текстови файлове
Най-добрата безплатна алтернативна програма за преглед на PDF към Adobe Reader
Преобразувайте компютър с Windows във виртуална машина с помощта на Hyper-V
Как да промените цвета на иконата на папка в Windows
Най-добрият безплатен инструмент за дефрагментиране за Windows е самият той
Най-добрите ресурси за роялти безплатна музика за използване за видеоклипове в YouTube
6 безплатни софтуерни приложения за запис на Blu-ray дискове
Как да синхронизирате две папки в реално време в Windows
Най-добрата безплатна програма за почистване на системния регистър на Windows
Копирайте по-бързо големи файлове през мрежата с TeraCopy
Как да премахнете парола от PDF с безплатен софтуер или онлайн инструмент
Как да идентифицираме музика или песни по звук
Как да поправите повредени или повредени AVI файлове
Безплатни инструменти за персонализиране на контекстното меню с десен бутон
Преобразувайте директорията на Windows в HTML списък
Споделяйте големи файлове, като настроите домашен файлов сървър
10 удобни инструмента за съхранение на вашето USB флаш устройство
Преглед на HoneyView: Безплатен бърз софтуер за преглед на изображения за Windows 10
Отключете защитени с парола Zip файлове
Настолното приложение Kindle: Добре ли е?