Проблема:
При экспорте или просто копировании из некоторых pdf-файлов в документ MS Word (или любой другой формат, даже обычный txt), вместо кириллицы получаем крякозябры.
Например, вот исходный pdf:
А вот, что получается при копировании (ctrl+c, ctrl+v) текста из этого pdf в word:
Если же мы пытаемся конвертировать pdf файл целиком в документ Word (docx), получаем:
Примечание: Для работы с pdf используем Adobe Acrobat XI Pro 11.0.7 - это платная программа (можно сказать, что она является расширенной версией обычного Adobe Acrobat Reader, который тоже умеет сохранять документы в txt формат, но не позволяет выбирать кодировку, редактировать документ и конвертировать его в другие форматы).
Решение 1:
В Adobe Acrobat XI Pro сохраняем файл как Текст (простой) (*.txt):
выбирая «Настройки» -> «Кодировка» -> «UTF-8» или «UTF-16»:
(в дальнейшем можно выбирать вообще любую кодировку из списка, и даже вообще не открывать «Настройки», а просто сохранять текст *.txt с кодировкой, выбранной по умолчанию)
-
Сохраняем наш pdf в требуемом формате (docx или любом другом). Теперь, после выполнения п.1, документ сохранится в нормальной кодировке
Решение 2:
Воспользоваться любой программой для распознавания текстов (OCR), например, FineReader, или онлайн сервисом распознавания текстов (например Convertio) загрузив в них исходный PDF документ
FineReader:
Convertio:
Решение 3:
Воспользоваться любым (онлайн) перекодировщиком, который умеет автоматически конвертировать в кириллицу, например, Универсальный декодер - конвертер кириллицы
Заключение:
Методы решения 1 и 3, естественно, не позволят сохранить исходное форматирование в конечном файле - они дают на выходе неформатированный текст, в котором кроме самого текста сохранены лишь пробелы, переносы строк и символы табуляции.
Более того, исходный текст в pdf файле может быть не только в «неудобной» кодировке. Он может быть отформатирован так, что при применении методов 1 и 3, в конечном файле получится текст, в котором все слова разделены символом переноса строки или все буквы слов разделены пробелами, при том что в самом PDF он будет отображаться совершенно нормально. А метод 2 учитывает и такие ситуации.
Поэтому, чтобы текст на выходе был максимально похож на исходный, нужно пользоваться методом 2. Недостаток этого метода в том, что программы и сервисы для распознавания текстов, как правило, платные, либо работают в бесплатном режиме, но с ограничениями.
Но если вам нужно получить только небольшую часть текста - несколько абзацев или предложений, то для такой цели идеально подходит метод 3 - абсолютно бесплатный и не требующий установки на компьютер дополнительного программного обеспечения.