UncleFather » 04 ноя 2016 10:04, Пт
Проблема:
При экспорте или просто копировании из некоторых pdf-файлов в документ MS Word (или любой другой формат, даже обычный txt), вместо кириллицы получаем крякозябры.
Например, вот исходный pdf:
А вот, что получается при копировании (ctrl+c, ctrl+v) текста из этого pdf в word:
Если же мы пытаемся конвертировать pdf файл целиком в документ Word (docx), получаем:
Примечание: Для работы с pdf используем Adobe Acrobat XI Pro 11.0.7 - это платная программа (можно сказать, что она является расширенной версией обычного Adobe Acrobat Reader, который тоже умеет сохранять документы в txt формат, но не позволяет выбирать кодировку, редактировать документ и конвертировать его в другие форматы).
Решение 1:
В Adobe Acrobat XI Pro сохраняем файл как Текст (простой) (*.txt):
выбирая «Настройки» -> «Кодировка» -> «UTF-8» или «UTF-16»:
(в дальнейшем можно выбирать вообще любую кодировку из списка, и даже вообще не открывать «Настройки», а просто сохранять текст *.txt с кодировкой, выбранной по умолчанию)
-
Сохраняем наш pdf в требуемом формате (docx или любом другом). Теперь, после выполнения п.1, документ сохранится в нормальной кодировке
Решение 2:
Воспользоваться любой программой для распознавания текстов (OCR), например, FineReader, или онлайн сервисом распознавания текстов (например Convertio) загрузив в них исходный PDF документ
FineReader:
Convertio:
Решение 3:
Воспользоваться любым (онлайн) перекодировщиком, который умеет автоматически конвертировать в кириллицу, например, Универсальный декодер - конвертер кириллицы
Заключение:
Методы решения 1 и 3, естественно, не позволят сохранить исходное форматирование в конечном файле - они дают на выходе неформатированный текст, в котором кроме самого текста сохранены лишь пробелы, переносы строк и символы табуляции.
Более того, исходный текст в pdf файле может быть не только в «неудобной» кодировке. Он может быть отформатирован так, что при применении методов 1 и 3, в конечном файле получится текст, в котором все слова разделены символом переноса строки или все буквы слов разделены пробелами, при том что в самом PDF он будет отображаться совершенно нормально. А метод 2 учитывает и такие ситуации.
Поэтому, чтобы текст на выходе был максимально похож на исходный, нужно пользоваться методом 2. Недостаток этого метода в том, что программы и сервисы для распознавания текстов, как правило, платные, либо работают в бесплатном режиме, но с ограничениями.
Но если вам нужно получить только небольшую часть текста - несколько абзацев или предложений, то для такой цели идеально подходит метод 3 - абсолютно бесплатный и не требующий установки на компьютер дополнительного программного обеспечения.
[b][size=150]Проблема:[/size][/b]
При экспорте или просто копировании из некоторых pdf-файлов в документ MS Word (или любой другой формат, даже обычный txt), вместо кириллицы получаем крякозябры.
Например, вот исходный pdf:[attachment=7]00.jpg[/attachment]
А вот, что получается при копировании ([b][i]ctrl+c, ctrl+v[/i][/b]) текста из этого pdf в word:[attachment=6]01.jpg[/attachment]
Если же мы пытаемся конвертировать pdf файл целиком в документ Word ([b][i]docx[/i][/b]), получаем:[attachment=5]02.jpg[/attachment]
[b][size=120]Примечание:[/size][/b] Для работы с pdf используем Adobe Acrobat XI Pro 11.0.7 - это платная программа (можно сказать, что она является расширенной версией обычного Adobe Acrobat Reader, который тоже умеет сохранять документы в txt формат, но не позволяет выбирать кодировку, редактировать документ и конвертировать его в другие форматы).
[hr][/hr]
[b][size=150]Решение 1:[/size][/b]
[list=1] [*]В Adobe Acrobat XI Pro [i]сохраняем файл как[/i] [b][i]Текст (простой) (*.txt)[/i][/b]:[attachment=4]03.jpg[/attachment]
выбирая «[b][i]Настройки[/i][/b]» -> «[b][i]Кодировка[/i][/b]» -> «[b][i]UTF-8[/i][/b]» или «[b][i]UTF-16[/i][/b]»:[attachment=3]04.jpg[/attachment]
(в дальнейшем можно выбирать вообще любую кодировку из списка, и даже вообще не открывать «[b][i]Настройки[/i][/b]», а просто сохранять текст *.txt с кодировкой, выбранной по умолчанию)
[*] Сохраняем наш pdf в требуемом формате ([i]docx[/i] или любом другом). Теперь, после выполнения п.1, документ сохранится в нормальной кодировке[/list]
[hr][/hr]
[b][size=150]Решение 2:[/size][/b]
Воспользоваться любой программой для распознавания текстов (OCR), например, FineReader, или онлайн сервисом распознавания текстов (например [url=https://convertio.co/ru/ocr/]Convertio[/url]) загрузив в них исходный PDF документ
FineReader:[attachment=1]02.jpg[/attachment]Convertio:[attachment=0]03.jpg[/attachment]
[hr][/hr]
[b][size=150]Решение 3:[/size][/b]
Воспользоваться любым (онлайн) перекодировщиком, который умеет автоматически конвертировать в кириллицу, например, [url=https://2cyr.com/decode/]Универсальный декодер - конвертер кириллицы[/url][attachment=2]01.jpg[/attachment]
[hr][/hr]
[b][size=150]Заключение:[/size][/b]
Методы решения 1 и 3, естественно, не позволят сохранить исходное форматирование в конечном файле - они дают на выходе неформатированный текст, в котором кроме самого текста сохранены лишь пробелы, переносы строк и символы табуляции.
Более того, исходный текст в pdf файле может быть не только в «неудобной» кодировке. Он может быть отформатирован так, что при применении методов 1 и 3, в конечном файле получится текст, в котором все слова разделены символом переноса строки или все буквы слов разделены пробелами, при том что в самом PDF он будет отображаться совершенно нормально. А метод 2 учитывает и такие ситуации.
Поэтому, [size=120][b]чтобы текст на выходе был максимально похож на исходный, нужно пользоваться методом 2[/b][/size]. Недостаток этого метода в том, что программы и сервисы для распознавания текстов, как правило, платные, либо работают в бесплатном режиме, но с ограничениями.
Но если вам нужно [size=120][b]получить только небольшую часть текста[/b][/size] - несколько абзацев или предложений, то для такой цели идеально подходит [size=120][b]метод 3[/b][/size] - абсолютно бесплатный и не требующий установки на компьютер дополнительного программного обеспечения.