Смена кодировки при экспорте из pdf-файла

Настройки MS Office, Open Office и пр. офисного ПО. Полезные советы и пр. То, чего не найдешь в бескрайних просторах Интернета. Решения тех проблем, которые не решаются типовыми ответами, которые можно получить в техподдержке Майкрософта - а именно: переустановить продукт или купить какой-ть другой лицензионный диск.


Модератор: UncleFather

Аватара пользователя
UncleFather
Site Admin
Сообщения: 1505
Зарегистрирован: 17 авг 2004 16:20, Вт
Контактная информация:

Смена кодировки при экспорте из pdf-файла

Сообщение UncleFather »

Проблема:

При экспорте или просто копировании из некоторых pdf-файлов в документ MS Word (или любой другой формат, даже обычный txt), вместо кириллицы получаем крякозябры.
Например, вот исходный pdf:

00.jpg

А вот, что получается при копировании (ctrl+c, ctrl+v) текста из этого pdf в word:

01.jpg

Если же мы пытаемся конвертировать pdf файл целиком в документ Word (docx), получаем:

02.jpg

Примечание: Для работы с pdf используем Adobe Acrobat XI Pro 11.0.7 - это платная программа (можно сказать, что она является расширенной версией обычного Adobe Acrobat Reader, который тоже умеет сохранять документы в txt формат, но не позволяет выбирать кодировку, редактировать документ и конвертировать его в другие форматы).


Решение 1:

  1. В Adobe Acrobat XI Pro сохраняем файл как Текст (простой) (*.txt):

    03.jpg

    выбирая «Настройки» -> «Кодировка» -> «UTF-8» или «UTF-16»:

    04.jpg

    (в дальнейшем можно выбирать вообще любую кодировку из списка, и даже вообще не открывать «Настройки», а просто сохранять текст *.txt с кодировкой, выбранной по умолчанию)

  2. Сохраняем наш pdf в требуемом формате (docx или любом другом). Теперь, после выполнения п.1, документ сохранится в нормальной кодировке


Решение 2:

Воспользоваться любой программой для распознавания текстов (OCR), например, FineReader, или онлайн сервисом распознавания текстов (например Convertio) загрузив в них исходный PDF документ
FineReader:

02.jpg

Convertio:

03.jpg

Решение 3:

Воспользоваться любым (онлайн) перекодировщиком, который умеет автоматически конвертировать в кириллицу, например, Универсальный декодер - конвертер кириллицы

01.jpg

Заключение:

Методы решения 1 и 3, естественно, не позволят сохранить исходное форматирование в конечном файле - они дают на выходе неформатированный текст, в котором кроме самого текста сохранены лишь пробелы, переносы строк и символы табуляции.
Более того, исходный текст в pdf файле может быть не только в «неудобной» кодировке. Он может быть отформатирован так, что при применении методов 1 и 3, в конечном файле получится текст, в котором все слова разделены символом переноса строки или все буквы слов разделены пробелами, при том что в самом PDF он будет отображаться совершенно нормально. А метод 2 учитывает и такие ситуации.

Поэтому, чтобы текст на выходе был максимально похож на исходный, нужно пользоваться методом 2. Недостаток этого метода в том, что программы и сервисы для распознавания текстов, как правило, платные, либо работают в бесплатном режиме, но с ограничениями.

Но если вам нужно получить только небольшую часть текста - несколько абзацев или предложений, то для такой цели идеально подходит метод 3 - абсолютно бесплатный и не требующий установки на компьютер дополнительного программного обеспечения.


Alexander A. Manaeff©

Понравилась статья? Будем крайне признательны за репосты в соцсетях! Материально поддержать проект можно здесь

Мои странички:
ВКонтакте
Одноклассники
Youtube
Facebook
Instagram

Изображение
Изображение
Изображение
Изображение