Alexander A. Manaeff

Проблема:

При экспорте или просто копировании из некоторых pdf-файлов в документ MS Word (или любой другой формат, даже обычный txt), вместо кириллицы получаем крякозябры.
Например, вот исходный pdf:

А вот, что получается при копировании (ctrl+c, ctrl+v) текста из этого pdf в word:

Если же мы пытаемся конвертировать pdf файл целиком в документ Word (docx), получаем:

Примечание: Для работы с pdf используем Adobe Acrobat XI Pro 11.0.7 - это платная программа (можно сказать, что она является расширенной версией обычного Adobe Acrobat Reader, который тоже умеет сохранять документы в txt формат, но не позволяет выбирать кодировку, редактировать документ и конвертировать его в другие форматы).

Решение 1:

В Adobe Acrobat XI Pro сохраняем файл как Текст (простой) (*.txt):

выбирая «Настройки» -> «Кодировка» -> «UTF-8» или «UTF-16»:

(в дальнейшем можно выбирать вообще любую кодировку из списка, и даже вообще не открывать «Настройки», а просто сохранять текст *.txt с кодировкой, выбранной по умолчанию)
Сохраняем наш pdf в требуемом формате (docx или любом другом). Теперь, после выполнения п.1, документ сохранится в нормальной кодировке

Решение 2:

Воспользоваться любой программой для распознавания текстов (OCR), например, FineReader, или онлайн сервисом распознавания текстов (например Convertio) загрузив в них исходный PDF документ
FineReader:

Convertio:

Решение 3:

Воспользоваться любым (онлайн) перекодировщиком, который умеет автоматически конвертировать в кириллицу, например, Универсальный декодер - конвертер кириллицы

Заключение:

Методы решения 1 и 3, естественно, не позволят сохранить исходное форматирование в конечном файле - они дают на выходе неформатированный текст, в котором кроме самого текста сохранены лишь пробелы, переносы строк и символы табуляции.
Более того, исходный текст в pdf файле может быть не только в «неудобной» кодировке. Он может быть отформатирован так, что при применении методов 1 и 3, в конечном файле получится текст, в котором все слова разделены символом переноса строки или все буквы слов разделены пробелами, при том что в самом PDF он будет отображаться совершенно нормально. А метод 2 учитывает и такие ситуации.

Поэтому, чтобы текст на выходе был максимально похож на исходный, нужно пользоваться методом 2. Недостаток этого метода в том, что программы и сервисы для распознавания текстов, как правило, платные, либо работают в бесплатном режиме, но с ограничениями.

Но если вам нужно получить только небольшую часть текста - несколько абзацев или предложений, то для такой цели идеально подходит метод 3 - абсолютно бесплатный и не требующий установки на компьютер дополнительного программного обеспечения.

Alexander A. Manaeff

Смена кодировки при экспорте из pdf-файла

Смена кодировки при экспорте из pdf-файла