Как да извлечете маркиран текст от PDF като текстов файл?

Маркирането на текст в PDF документ е удобно, за да маркирате важните области, до които имате бърз достъп по-късно. Можете да използвате Microsoft Edge, за да маркирате PDF(Microsoft Edge to highlight PDF)  или друг софтуер, който се предлага с функция за подчертаване на PDF . Понякога може да сте усетили нуждата да имате само маркиран текст, за да можете да имате резюмето на PDF , съдържащо целия основен текст. Ако търсите някои начини да запазите само маркиран текст от PDF като TXT файл, тогава тази публикация може да бъде полезна.

Извличане на маркиран текст от PDF

Има безплатен софтуер и услуга за извличане на маркиран текст от PDF файл и запазване като текстов файл:

  • PDF Highlight Extractor
  • Foxit Reader
  • Sumnotes.net
  • DyAnnotationExtractor.

Нека проверим този PDF Highlight Extractor софтуер един по един.

1] PDF Highlight Extractor

PDF Highlight Extractor софтуер

PDF Highlight Extractor е една от най-лесните опции за извличане на маркирания текст от PDF файл. Този екстрактор за подчертаване на PDF текст (PDF text highlight extractor)с отворен код(open-source) има две функции, които привличат вниманието. Можете да прегледате маркиран текст(preview highlighted text) на PDF в интерфейса на софтуера.

Втората функция е, че можете да зададете начална или крайна страница или диапазон от страници, за да извлечете текста(set start or end page or page range to extract the text) . Така че, вместо да сканирате целия PDF , можете да дефинирате номера на страници, за да получите маркирания текст.

Друга добра функция е, че имате опцията да запазвате текст като обикновен текст(save text as plain text) или файл на Excel(Excel file) .

В интерфейса му добавете своя PDF файл, като използвате дадената опция, след което натиснете бутона Извличане(Extract) . Премахнете отметката от опцията Всички страници(All Pages) , ако искате да зададете диапазона на страниците или да го оставите такъв, какъвто е. След като текстът бъде извлечен, можете да го прегледате. Накрая натиснете бутона Текст(Text) или Excel , за да запазите маркирания текст.

Можете да изтеглите този софтуер от тук(here) . Java също е необходима за използване на този софтуер. Така че, инсталирайте Java (ако вече не е) и изпълнете този софтуер, за да го използвате.

2] Foxit Reader

Извличане на маркиран текст от PDF

Foxit Reader е един от най -добрите безплатни PDF четци . Можете да отваряте множество PDF файлове в отделни раздели, да маркирате PDF , да добавяте бележка, да експортирате коментари(export comments) , да добавяте подписи(add signatures) и др. Сред огромния списък с функции има и извличане на подчертан текст от PDF . Най-добрата част от тази функция е, че също така записва номера на страници заедно с извлечения текст(saves page numbers along with the extracted text) .

За да извлечете маркиран текст от PDF , отворете PDF файл в неговия интерфейс и влезте в раздела Коментар(Comment) . В този раздел щракнете върху опцията Експортиране(Export) , налична в секцията Управление на коментарите(Manage Comments) . Ще видите опцията Маркиран текст(Highlighted Text) . Използвайте тази опция и след това можете да запишете целия маркиран текст като текстов файл.

Ето(Here) връзката за изтегляне на този софтуер. По време на инсталацията трябва да изберете персонализирана инсталация(custom installation) , за да включите само необходимите компоненти на този софтуер.

3] Sumnotes.net

Резюме

Sumnotes.net е безплатна услуга, която ви позволява да коментирате PDF , както и да извличате маркирания текст. Целият маркиран текст се вижда отделно в лявата странична лента. Използвайки тази странична лента, можете също да премахнете маркиран текст, който не ви е необходим(remove highlighted text that you don’t need) , и след това да изтеглите останалата част от маркирания текст.

Преди да изтеглите маркирания текст, можете също да включите номера на страници и да изключите маркирания (exclude)текст с определен цвят(highlighted text of specific color) .

Имате и опцията да запазите маркиран текст от PDF като Excel(save highlighted text from PDF as Excel) или Word файл. Така че характеристиките са добри. Можете да се регистрирате с безплатен план и след това да извлечете 50 акцента(extract 50 highlights) или анотации на изтегляне(per download) , което е достатъчно в повечето случаи.

Ето(Here) връзката към началната му страница. За да извлечете маркиран текст от PDF , добавете PDF от компютър или Google Drive . Когато PDF файлът(PDF) е качен, поясненията и маркираният текст се виждат от лявата страна. Използвайте опцията Изтегляне на анотации(Download Annotations) и след това можете да запазите маркирания текст във файл с формат TXT , XLSX или DOC .

4] DyAnnotationExtractor

Софтуер за команден ред DyAnnotationExtractor

Софтуерът DyAnnotationExtractor(DyAnnotationExtractor) може да ви помогне да извлечете подчертан текст и коментари(comments) от PDF документ. Това е софтуер от команден ред(command-line) , но използването му е много лесно. Само една команда ще извлече текста, маркиран във входния PDF файл.

Можете да получите този софтуер, като използвате тази връзка(this link) . Изтеглете(Download) неговия ZIP файл и след това го извлечете. За да улесните изпълнението на командата, трябва също да поставите PDF в същата папка, в която сте извлечели този софтуер. След това отворете прозореца на командния ред(Command Prompt) в тази папка. Можете да направите това, като въведете cmd в адресното поле на тази папка и след това натиснете клавиша Enter .

Когато прозорецът на CMD се отвори, добавете BAT файл на този софтуер, команда за въвеждане, включително пътя на входния PDF , изходна команда и име на изходния файл заедно с разширението '.txt'. Пълната команда ще бъде -

DyAnnotationExtractor.bat -input path of input PDF -output outputfilename.txt

Изпълнете командата. Изчакайте(Wait) няколко секунди и обикновен текстов файл ще бъде готов, съдържащ целия маркиран текст и коментари, извлечени от този PDF . Изходният файл се записва в същата входна папка.

И така, това са някои опции, които можете да използвате, за да извлечете маркиран текст от PDF и след това да запишете изхода като текстов файл. Надявам(Hope) се тези да помогнат.



About the author

Аз съм инженер по windows, ios, pdf, грешки, джаджи с над 10 години опит. Работил съм върху много висококачествени Windows приложения и рамки като OneDrive за бизнеса, Office 365 и др. Неотдавнашната ми работа включваше разработването на pdf четеца за платформата на windows и работата по изясняване на съобщенията за грешки за потребителите. Освен това участвам в разработването на платформата ios от няколко години и съм много запознат както с нейните характеристики, така и с странностите.



Related posts