Редактирование машинного перевода: цели, средства и возможный выигрыш

Mashperevod

Павел Угаров,
технический директор
бюро переводов «Линготех»

Технологии машинного перевода быстро развиваются, занимая все большую долю рынка. Конечно, остается немало скептиков, которые считают их бесполезными. С другой стороны, есть и те, кто предрекает машинному переводу скорое абсолютное доминирование в большинстве секторов.

Нам же представляется, что к машинному переводу следует относиться просто как к инструменту, который применяется согласно своему назначению и поставленной задаче. В этой статье мы попробуем показать, в каких случаях машинный перевод оправдан с экономической точки зрения. Также дадим некоторые рекомендации тем LSP, которые рассматривают возможность внедрения машинного перевода в свой технологический процесс.

Организация технологического процесса

Mashperevod

Теоретически возможны следующие варианты:

1. Машинный перевод с предредактированием. Исходные тексты подготавливаются таким образом, чтобы максимально облегчить последующий машинный перевод. Языковые конструкции стандартизуются и упрощаются. Редактор должен хорошо знать особенности движка машинного перевода.

2. Машинный перевод с постредактированием. Редактируем результат работы машины. Здесь важно отметить, что некоторые LSP ошибочно считают работу редактора машинного перевода аналогичной обычной редакторской деятельности. Наш опыт показывает, что это две совершенно разные профессии. Например, ошибки, совершаемые «машиной», всегда однотипны и при должной сноровке допускают корректировку путем глобальных замен. Есть и другие особенности. В общем, если вы планируете серьезно заняться редактированием машинного перевода, рекомендуем выделить для этого специальных редакторов. Приобретя опыт, они дадут сто очков в перед тем профессионалам, которые берутся за редактирование машинного перевода время от времени.

3. Комбинированный подход с пред- и постредактированием. Собственно, все ясно из названия. Теоретически позволяет достичь максимального результата в плане качества и затрат времени, но сложен в реализации.

4. Машинный перевод без редактирования. Для полноты картины рассмотрим и этот вариант, который в большинстве случаев является оптимальным.

Категории переводимых документов

Задача любого LSP, стремящегося к развитию — не просто предоставлять услуги письменного/устного перевода по принципу «case by case», а закрыть весь спектр потребностей заказчика в лингвистических услугах, желательно заключив рамочное соглашение. Анализ этих потребностей является сложной задачей, которой ни в коем случае не следует пренебрегать. У более-менее крупного заказчика наверняка имеются разные требования к переводу разных категорий текстов, даже если эти требования и не сформулированы четко. Задача LSP — совместно с заказчиком исследовать и структурировать весь объем работ. Это позволит сделать заказчику комплексное предложение, которое продемонстрирует квалификацию LSP, позволит выявить возможности для экономии и послужит предметной основой для последующих переговоров.

Остановимся на письменном переводе. Не претендуя на полноту охвата и максимальную детализацию, выделим следующие примерные категории текстов:

  1. Публикуемые материалы маркетингового характера, предназначенные для привлечения клиентов. Требуют не только максимальной гладкости и точности текста, но и творческой адаптации.
  2. Технические описания и руководства, предназначенные для технических специалистов клиента. Должны быть точными по смыслу и терминологии, но, в принципе, могут содержать некоторые стилистические огрехи. Их задача — не продать товар, а обеспечить его беспроблемное использование персоналом клиента.
  3. Внутренние документы заказчика с не слишком строгими требованиями к точности и стилистике.
  4. Тексты, перевод которых нужен для ознакомления. По его результатам они могут быть переведены в другую категорию.
  5. Материалы, перевод которых требуется исключительно с формальной точки зрения (например, для проверяющих органов). Вероятность того, что они когда-либо будут прочитаны человеком, близка к нулю.

Практика постредактирования машинного перевода

Одной из самых перспективных технологий машинного перевода является гибридная, которая сочетает в себе преимущества статистического перевода, основанного на анализе имеющихся корпусов параллельных текстов, и так называемого «rule-based» подхода, базирующегося на последовательном лингвистическом анализе грамматических конструкций.

На этой технологии основано, например, решение DeepHybrid Translation Server от компании PROMT. Система должна быть предварительно «обучена» на корпусах параллельных текстов (производитель рекомендует не менее 50 000 сегментов, что, впрочем, на так много, как требуется для чисто статистического перевода), после чего может применяться на «рабочих» текстах. За счет предварительного «обучения» удается добиться более высокой точности перевода, лучшего соответствия терминологии и, по заявлению PROMT, уменьшить затраты на постредактирование. По данным производителя на доведение текста до уровня «ручного» перевода требуется на 25-40 % меньше времени по сравнению с работой «с нуля».

Однако наши практические исследования показали, что эта оценка является скорее верхней границей. Высококвалифицированный редактор потратил на постредактирование текста, посвященного системе производства печатных плат, 90 % времени, необходимого на перевод «с нуля», то есть выигрыш составил лишь 10 %. Здесь важно отметить, что редактор до этого не работал с машинным переводом, то есть «не набил руку» в этой сфере. Отзывы другого редактора, постоянно работающего с машинным переводом, позволяют сделать вывод, что можно добиться выигрыша до 30 % и более при условии большого опыта и некоторого смягчения требований к стилистике.

Еще один немаловажный фактор — у многих редакторов подобная работа вызывает отторжение, и они менее охотно берутся за нее, что иногда приходится компенсировать повышенными тарифами.

На основании нашего опыта можно сделать вывод, что для успешного применения машинного перевода желательно следующее:

  1. Команда редакторов/переводчиков, специализирующихся на редактировании машинного перевода.
  2. Характер документа должен подразумевать «щадящие» требования к стилю.

Рекомендации по применению машинного перевода для разных категорий текстов

Показатели в данном разделе основаны на нашем опыте и обсуждениях с коллегами и являются лишь субъективными оценками. Тем не менее надеемся, что читатель извлечет из них определенную пользу.

Категория Рекомендуемый техпроцесс Ожидаемый
выигрыш
1. Маркетинг Ручной перевод с последующим ручным редактированием. Машинный перевод не рекомендован. 0 %
2. Технические тексты Машинный перевод с пред- или постредактированием при наличии большого объема параллельных корпусов по данной тематике, позволяющего выполнить «обучение» движка. От 10 до 40 % в зависимости от квалификации команды
3. Документы для внутреннего пользования Машинный перевод с беглым постредактированием. Возможен даже при отсутствии параллельных корпусов, но их наличие желательно. До 50 %
4. Тексты для ознакомления Машинный перевод без постредактирования, опять же наличие параллельных корпусов желательно, но не обязательно. До 100 %
5. Документы «в стол» Машинный перевод без постредактирования. До 100 %

Заключение

Машинный перевод не является единым решением для всех возможных задач, а должен применяться согласно категориям документов. В этом случае возможно существенное снижение собственных затрат и предложение более выгодных условий клиенту. Не стоит забывать и то, что для эффективного применения машинного перевода в коммерческих целях вам понадобиться команда профессионалов, в которую придется вложиться. Например, наше бюро «Линготех» не использует машинный перевод именно в связи с тем, что мы пока не готовы к серьезным инвестициям в это направление. Не стоит думать, что можно просто купить соответствующее программное обеспечение и привлекать по мере необходимости имеющихся редакторов. Наше время — время специализации, и редактирование машинного перевода существенно отличается от редактирования перевода «человеческого».

Гостевые статьи в журнале публикуются без редактирования и правки. Если у вас есть статья. подходящая под формат журнала, пришлите нам её, воспользовавшись формой.

  1. Юлия

    Уважаемый автор, предлагаю исправить название упоминаемой компании — PROMT. Название образовано от Project Machine Translation (MT)

    • Денис Хамин
      Эксперт

      Поправили, спасибо.

  2. Юлия

    Спасибо за интересный и грамотный материал! В рекомендациях согласна с маркетингом и документами в п. 4-5 и не согласна с рекомендациями по поводу технических текстов. Как правило, МП успешно настраивается на технические тексты при соблюдении определенных и уже хорошо известных условий: лексическая и стилистическая однотипность текстов, владение инструментрием для настройки, опыт этой настройки, взаимодействие или обучение у вендора. Есть немало примеров успешных историй, связанных с применением МП для перевода технических текстов.

    • Павел Угаров
      Сайт - http://lingotech.ru

      Юлия, спасибо за комментарий. Согласен с вами насчет успешного применения МП для технических текстов. Однако здесь мы давали оценки в предположении, что доступно лишь постредактирование, и описывали собственный опыт. Конечно, если текст сразу пишется под МП, возможности значительно расширяются. Еще раз подчерну главный посыл статьи — МП можно применять весьма успешно, но нужно вкладываться в команду и специализироваться на нем.

Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *