====== Базовые принципы работы с pdf-файлами ======

В_работе любого письменного переводчика в_один прекрасный день всегда возникает вопрос: что делать с_PDF? Давайте_же попытаемся найти разумный ответ на_него.

Как правило, для всех заказов с исходниками в_PDF на_выходе требуется редактируемый формат (<wrap :en>MS Office</wrap>, <wrap :en>OpenOffice</wrap>, текст, редко PDF и_прочие).

===== Этапы перевода =====

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:01_схема_перевода.png?700&direct |Типичная схема перевода PDF-документов}}

//Типичная схема перевода PDF-документов//
</WRAP>

Рассмотрим каждый этап поподробнее.

PDF-файлы могут быть двух типов: текстовыми и_растровыми (сканированными). Характерным признаком текстового файла является возможность выделения отдельных слов и_фраз. В_сканированных этого сделать нельзя. Соответственно и_принципы работы с_такими файлами будут несколько отличаться. Если из_текстовых файлов можно извлечь оригинальный, (почти) безошибочный текст, то_сканированные придётся распознавать.

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:02_текстовый_pdf-файл.png?600&direct |Типичный текстовый PDF-файл}}

//Типичный текстовый PDF-файл//
</WRAP>

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:03_сканированный_pdf-файл.png?600&direct |Типичный растровый (сканированный) PDF-файл}}

//Типичный растровый (сканированный) PDF-файл//
</WRAP>

==== Непосредственный перевод PDF ====

Непосредственный перевод в_PDF с_помощью таких программ как <wrap :en>Infix PDF editor</wrap>, <wrap :en>Adobe Illustrator</wrap> и_т.(н)п. оправдан только для небольших текстовых документов сложной структуры с_большим количеством информации, не_требующей перевода: спецификации, иллюстрированные буклеты и_т.(н)п., при условии, что заказчика устроит перевод в_PDF. В_остальных случаях необходимо, или просто получится быстрее, переверстать документ.

==== Конвертация в текст ====

Каким способом лучше конвертировать документ в_текст?

Это зависит от_многих факторов:
  - [[#защищён ли присланный PDF паролем]];
  - используются(н)ли в_документе [[#стандартная шрифтовая раскладка]] (<wrap :en>symbol map</wrap>);
  - [[#много ли в документе таблиц, иллюстраций, нестандартных символов и т. п.]];
  - [[#Колоночность документа|колоночности документа]];
  - [[#Требуемый формат на выходе|требуемого формата на выходе]].

Рассмотрим каждый из_этих факторов подробнее:

=== Защищён ли присланный PDF паролем ===

Если документ защищён паролем, запрещающим копирование контента, работать с_ним становится очень неудобно. <wrap :en>FineReader</wrap> тоже не_импортирует такие документы, если нам потребуется их_распознать. Что делать? Найти в_интернете, скачать и_установить программу для вскрывания паролей. Я_рекомендую <wrap :en>Elcomsoft PDF Password Recovery</wrap>. Другая аналогичная программа <wrap :en>PDF Password Remover</wrap> версии 3.1 после удаления пароля нарушает структуру исходного файла, делая невозможным поиск.

Более правильный способ, но_часто не_столь беспроблемный, да_и_отнимающий драгоценное время_--- обратиться к_заказчику с_просьбой прислать незапароленный файл (а_лучше вообще исходник). Если такая просьба подкрепляется повышением расценок на_работу с_неудобным файлом, и_заказчик хочет, чтобы работу сделали именно Вы, то_чудеса иногда случаются.

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:04_запароленный_pdf-файл.png?600&direct |Запароленный PDF с запретом копирования содержимого}}

//Запароленный PDF с запретом копирования содержимого//
</WRAP>

=== Стандартная шрифтовая раскладка ===

Теперь проверим, используется_ли в_файле стандартная шрифтовая раскладка (эта проблема более актуальна для русскоязычных документов, но, тем не_менее, мы_должны её_знать). Если выделенный текст копируется и_вставляется в_другую программу правильно, в_документе правильная раскладка шрифта. Если при вставке мы_видим крякозябры или пустоту_--- шрифтовая раскладка неверная. Поиск в_таких документах работать тоже не_будет.

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:05_неверная_шрифтовая_раскладка.png?700&direct |PDF с неверной шрифтовой раскладкой}}

//PDF с_неверной шрифтовой раскладкой//
</WRAP>

В_зависимости от_критичности документа и_количества в_нём шрифтов и_знаков, которые потребуют исправления после распознавания, для работы с_такими документами можно использовать два способа:
  - исправление раскладки в_<wrap :en>Infix PDF Editor</wrap> с_последующим извлечением и_сохранением текста;
  - распознавание.

Мы_рассмотрим второй, а_желающие сами найдут информацию по_первому.

=== Много ли в документе таблиц, иллюстраций, нестандартных символов и т. п. ===

Поскольку в_PDF нет понятия таблиц, то_и_извлечь из_него таблицы стандартными способами, и_даже некоторыми PDF-конвертерами, нельзя. Такие документы лучше распознавать. То_же самое относится и_к_обилию табулированных разделений, колонтитулов, иллюстраций с_подписями, обтекаемыми текстом. Извлечь всё это адекватно в_текст стандартные преобразователи не_могут, а_затраты на_приведение результатов такого извлечения в_нормальный вид часто превышают затраты времени на_ручное распознавание текста в_<wrap :en>FineReader</wrap>. Правда, разработчики облачной ТМ <wrap :en>SmartCAT</wrap> грозятся сделать чудо, но_кажется мне, что это будет очередное рождение мыши горой.

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:06_копирование_табличных_данных.png?700&direct |Результат копирования табличных данных из PDF}}

//Результат копирования табличных данных из_PDF//
</WRAP>

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:07_распознавание_таблицы.png?700&direct |Результат ручного распознавания табличного PDF}}

//Результат ручного распознавания табличного PDF//
</WRAP>

=== Колоночность документа ===

Тут тоже надо смотреть. Часто и_при прямом извлечении и_при автоматическом распознавании <wrap :en>FineReader</wrap> несколько колонок попадают в_один блок и_результат на_выходе получается ужасный. Но, в_отличие от_стандартных средств извлечения текста из_PDF, <wrap :en>FineReader</wrap> позволяет нам настраивать блоки для распознавания. Аккуратно поколоночно выбирать текст из_документа в_<wrap :en>Acrobat Reader</wrap> будет быстрее на_документах объёмом до_30(н)страниц. Однако такой текст после придётся обрабатывать (соединять разбитые строки и_т.(н)п.). Процесс обработки можно, разумеется, автоматизировать, например с_помощью [[wpru>регулярные выражения|регулярных выражений]]. Но_это выходит за_рамки данного документа.

=== Требуемый формат на выходе ===

Тут принцип прост_--- чем проще требуется формат на_выходе (крайний случай двухколоночная табличка_--- оригинал_--- перевод) тем, в_принципе, меньше можно заморачиваться с_<wrap :en>FineReader</wrap> и_больше обходиться <<Акробатом>>. Ибо обычно простой выходной формат просят в_случаях, когда и_форматирование исходного PDF несложное. В_данном случае также рекомендуется работать с_текстом в_простом текстовом редакторе типа <<Блокнота>>_--- при импорте в_ТМ гарантируется полное отсутствие тегов, а_табличку можно получить прямо из_ТМ, экспортировав файл для редактирования во_внешнем приложении (<wrap :en>External View, Bilingual Export</wrap>).

===== =====

\\ Итак, мы_определились. У_нас документ сложный_--- будем распознавать. Задача_--- перевести его с_английского, русский вставить вместо французского, получив англо-русско-немецкий документ с_постраничным соответствием оригиналу. Формат конечного документа_--- <wrap :en>MS Word doc(x).</wrap> Перевод надписей на_рисунке дать в_табличке «оригинал_--- перевод» под рисунком.

Итак, если мы_взглянем на_документ, мы_увидим, что он_трёхколоночный и_каждая колонка на_отдельном языке. Проще всего такой текст лучше верстать таблицей, где каждая колонка_--- отдельный язык.

Если мы_ещё посмотрим на_[[#Этапы перевода|схему обработки PDF-документов]], то_увидим, что вёрстка там стрелочками направлена на_этапы //до_//и_//после// перевода. Что это значит? Верстать конечный документ можно и_до_и_после перевода. Каждое решение имеет свои [[#Преимущества вёрстки после перевода|плюсы]] и_[[#минусы]].

=== Преимущества вёрстки после перевода ===

  - Меньшие затраты времени на_вёрстку, так как документ верстается сразу в_чистовик. При предварительной вёрстке после перевода многие элементы из-за большей длины русского текста по_сравнению с_английским и_особенностей оригинала (например, малые поля) могут <<уплыть>> или сдвинуться на_другую страницу. Это потребует исправления в_процессе вычитки.
  - Можно работать с_чистым текстом без тегов.
  - Можно дополнительно улучшить читаемость готового текста в_процессе вёрстки.

=== Минусы ===

  - При внесении существенных правок в_перевод приходится либо оставлять <<сырую>> ТМ, либо всё верстать, либо параллельно исправлять и_ТМ и_текст, что отнюдь не_способствует ни_качеству, ни_эффективности.
  - Все абзацы перечисления (с_буллетами и_номерами) попадают в_ТМ, создавая ненужные помехи для алгоритмов оценки подобия сегментов.
  - За_счёт использования полей в_свёрстанном документе в_несвёрстанном документе текста на_перевод будет больше.
  - В_перевод идёт, как правило, более ошибочный текст (имеются ввиду ошибки распознавания) т.(н)к. при вёрстке часть ошибок устраняется. Это опять-таки не_лучшим образом сказывается на_содержании баз пар переводов (т.(н)н. <wrap :en>translation memories</wrap>).
  - Неидеальная сегментация, неисправимая в_некоторых ТМ-программах.

=== Вёрстка до перевода ===

Тут картина обратная. Затраты времени по_обоим способам примерно одинаковы, и_выбор, скорее, зависит от_самого процесса_--- кому-то привычнее быстро делать в_ТМ черновик, а_потом «вылизывать» его параллельно с_вёрсткой в_<wrap :en>MS(н)Word</wrap> или <wrap :en>OO(н)Writer</wrap>. Кому чистовик нужен в_ТМ, альтернативы предварительной вёрстке нет. Пойдём и_мы по_этому пути.

===== =====

\\ Если вы_правильно уловили мысли, изложенные выше, то_в_<wrap :en>FineReader</wrap> необходимо получить нечто похожее на_следующую картинку:

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:08_схема_блоков.png?700&direct |Схема наложения блоков и результат распознавания в FineReader}}

//Схема наложения блоков и_результат распознавания в_FineReader//
</WRAP>

Картинка в_центре получена объединением ячеек таблицы и_установкой флажка «Считать ячейку картинкой».

Можете сравнить её_с_результатами автоматической обработки файла <wrap :en>FineReader</wrap>. Этот пример, хоть он_и_является некоей крайней ситуацией, хорошо иллюстрирует способность автоматических конвертеров решать сложные задачи на_данный момент. А_таких задач в_техническом переводе большинство.

Блоки колонтитулов (07/03 и_@MEDC2003) удаляем со_всех страниц, кроме первой.

Один из_значков ({{:базовые_принципы_работы_с_pdf-файлами:ex.png?25&nolink|Ex}}) в_конце выделяем картинкой и_распознаём страницу. Остальные доставим копированием в_MS(н)Word (кому нравится больше OO(н)Writer_--- работаем с_ОО).

Экспортируем результаты в_Ворд в_режиме «Таблицы, абзацы, шрифты» (в_более поздних версиях он_называется «Простой текст») с_сохранением изображений и_займёмся подготовкой к_импорту в_ТМ.

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:09_настройка_параметров.png?400&direct |Окно настройки параметров сохранения результатов распознавания в MS Word в FineReader 8}}

//Окно настройки параметров сохранения результатов распознавания в_<wrap :en>MS(н)Word</wrap> в_<wrap :en>FineReader</wrap>(н)8//
</WRAP>

Прежде всего, удаляем дублированные пробелы (последняя версия <wrap :en>FineReader</wrap> делает это автоматически при экспорте, зато не_удаляет мягкие переносы_--- их_тоже нужно будет удалить вручную), удаляем текст из_французского столбца и_исправляем ошибки в_остальных. Буллетированные абзацы буллетируем {{:базовые_принципы_работы_с_pdf-файлами:маркированный_список.png?36x24&nolink|Маркированный список}}, нумерованные списки нумеруем автоматом {{:базовые_принципы_работы_с_pdf-файлами:нумерованный_список.png?24x28&nolink|Нумерованный список}}, номера глав и_перечисление в_конце документа (после Where) по_желанию отделяем табами.

\\ {{ :базовые_принципы_работы_с_pdf-файлами:10_работа_с_колонтитулами.png?522x133&direct|Работа с колонтитулами}}{{ :базовые_принципы_работы_с_pdf-файлами:11_нижний_колонтитул.png?76x68&nolink|Кнопка «Нижний колонтитул»}}Делаем нижний колонтитул. Обратите внимание, он_разный для чётных и_нечётных страниц. Его лучше сделать однострочной двухколоночной таблицей.

<WRAP clear></WRAP>

\\ {{ :базовые_принципы_работы_с_pdf-файлами:12_скрытый_текст.png?372x179&direct|Настройка отображения скрытого текста}}После этого, чтобы в_ТМ у_нас остался только нужный нам текст, выделяем всё (Ctrl+A), Шрифт и_ставим атрибут «Скрытый» (Hidden). Включаем отображение невидимых знаков {{:базовые_принципы_работы_с_pdf-файлами:непечатаемые_символы.png?26x24&nolink|Непечатаемые символы}}, предварительно настроив отображение скрытого текста при включённом отображении скрытых знаков, и-продолжаем работу.

Копируем английское название вместо французского и_снимаем атрибут «скрытый». Повторяем операцию для всех ячеек нашей таблицы. Сохраняем полученный файл.

<WRAP clear></WRAP>

\\ {{ :базовые_принципы_работы_с_pdf-файлами:13_dejavux_properties.png?258x91&direct|Ignore Hidden Text in Documents, Run Сode Zapper}} Открываем нашу ТМ, я_взял для примера DejaVuX3 (30-дневную полнофункциональную демоверсию можно скачать на_официальном сайте), создаём проект, добавляем файл и_жмём кнопку Свойств (Properties).Устанавливаем флажки и_Ignore Hidden Text in Documents (Игнорировать скрытый текст) (зря мы_что_ли работали) и, в_случае DejaVuX2, Run Сode Zapper (это макрос, который удаляет мусорные теги).

\\ Для пользователей других ТМ-программ параметры импорта и соответствующая адаптация формата исходного документа пусть будут домашним заданием.

\\ Получаем красоту

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:14_импортированный_документ.png?700&direct |Импортированный в программу ТМ (здесь DejaVuX3) документ}}

//Импортированный в программу ТМ (здесь DejaVuX3) документ//
</WRAP>

Не красота выглядит похоже на следующую картинку

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:15_засорение_тегами.png?300&direct |Пример документа, засорённого тегами (в DejaVuX)}}

//Пример документа, засорённого тегами (в DejaVuX)//
</WRAP>

Переводим, экспортируем, и, если всё ОК, получаем готовый перевод. Размеры полей достаточные, чтобы перевод не сдвинул страницы. Поскольку качество картинки плохое, её потребуется переводить вручную.

Проверяем, всё ли ОК. Обнаруженные ошибки исправляем. Если текст не помещается на страницу, можно чуть раздвинуть столбец таблицы (если поля позволяют), слегка уменьшить шрифт (на 0,5 пункта), выбрать уплотнённый шрифт. Более предпочтителен вариант(н)2, но_чтобы документ смотрелся, шрифт надо будет уменьшить для всего русскоязычного текста.

<WRAP centeralign>
{{ :базовые_принципы_работы_с_pdf-файлами:16_готовый_перевод.png?600&direct |Готовый перевод}}

//Готовый перевод//
</WRAP>

На_сём урок завершён.

Я_понимаю, что вопросы работы в_<wrap :en>FineReader</wrap> и_вёрстки в_<wrap :en>MS(н)Word</wrap> я_осветил весьма туманно, но_каждый из_них требует страниц по_5--7 убористого текста. Может как-нибудь в_другой раз.

===== Файлы ====

  * Исходный файл_--- <wrap :en>{{:базовые_принципы_работы_с_pdf-файлами:technical_manual_for_the_manual_call_point_pbi.pdf}}</wrap> <wrap lo>(252(н)КБ)</wrap>
  * Готовый перевод_--- <wrap :en>{{:базовые_принципы_работы_с_pdf-файлами:technical_manual_for_the_manual_call_point_pbi_rus.docx}}</wrap> <wrap lo>(69(н)КБ)</wrap>

===== Ссылки =====

  * [[forum>viewtopic.php?f=43&t=59645|Обсуждение статьи на форуме]]

====== ======

---- datatemplateentry articles ----
template     : служебные:шаблоны:шаблон статья автор  # имя страницы, задающей формат отображения
статус       : авторство # авторство, соавторство, составление
уинавторовs  : 1325 # ID учётной записи пользователя(-ей) на форуме; разделитель -- запятая
авторыs      : mikhailo # имя пользователя (имена через запятую)
символ_pages : Б # буква(-ы) или цифра(-ы); разделитель -- запятая
категория_nspages : Инструменты перевода # категории, к которым относится статья; разделитель -- запятая
----