На какой язык лучше всего переводит Google Translate?

Машинные переводчики отрывают много возможностей...

Результаты испытания сервиса на русском, английском, немецком, французском, польском и украинском языках

Мы нередко встречаемся с перлами перевода: когда человек не вполне справился с работой. Много забавных моментов и в продукции машинного перевода, где нет фактора небрежности и неподготовленности. В чем же сложность? Если кратко, то в непонимании того, что язык – не просто набор правил, в нем множество исключений и нюансов, которые может оценить только человек, и то не каждый, необходим определенный культурный уровень. Умение точно передать смысл словами другого языка – искусство, которое требует интеллекта, навыков и опыта. Могут ли компьютеры заменить переводчика на данный момент развития технологий? Если да, то в каких сферах «межкультурной коммуникации»? Постараемся разобраться в этих вопросах и для этого проведем ряд рабочих испытаний сервиса, зарекомендовавшего себя доступностью, простотой использования и новейшими технологиями — Google Translate. Заодно посмотрим, чем нам он может быть полезен сейчас, и прикинем потенциал развития.

Начало работы и сразу курьезы

Подготовку к этой статье я начала с чтения сайта и блогов Google. Как оказалось, Google Translate активно там используется для локализации контента на различные языки – без последующей коррекции профессионалом. Благодаря этому русскоязычные веб-страницы Google пестрят такими милыми выражениями, как «Право налево дисплеем» или «Обзор остальных справочный центр, чтобы узнать больше!»
Возможно, Google рассчитывает, что некогда в будущем с помощью их кнопочки «Перевести страницу» можно будет прочитать любой сайт на любом языке. Но сегодняшний перевод напоминает речь двухлетнего ребенка и выглядит непредставительно и порой безнадежно для понимания.

ЗАМЕТКИ НА ПОЛЯХ

При работе с сервисом в немецком тексте было одно «неблагозвучное» географическое название — Sima de los Huesos. Переводчик Google воздержался от необходимой в данном случае транслитерации и выдал «Сима де лос Huesos». Из чего можно заключить, что сервис включает некий «фильтр жаргона»: неблагозвучные и неприличные для звучания целевого языка слова не передаются, молодцы. Погуглила, как выкрутились живые переводчики: один написал «Сима де лос ХуЭзос», другие – «Сима де лос Уэсос». Для такой трансформации нужен немашинный мозг.

Смотрим дальше. Весьма порадовал и вариант «Pretranslating Ваши документы». Очень по-человечески со стороны машины смешивать модные словечки, неологизмы чужого языка с родным. Люди так делали во все времена. Само по себе любопытно, что непереведенные слова могут выглядеть органично, а неверные окончания – не мешать чтению. Чтобы быть понятным, не нужно быть специалистом в данном языке, можно совершать многочисленные ошибки и все равно донести мысль, и Google смело и «нещепетильно» использует этот факт.

Технология

Он-лайн переводчики отрыли нам доступ к множеству языков.

Второй из десяти принципов работы Google гласит: «Лучше делать что-то одно, но делать это очень и очень хорошо. …Мы руководствуемся стремлением усовершенствовать поиск».
Технология Google Translate – прямое продолжение поисковика, ключевого сервиса Google, который завоевал им популярность. Переводчик Google так же, как и поисковик а) создает базу текстов из сети (варианты соответствия слов и фраз на разных языках) и б) разрабатывает алгоритмы отбора наилучшего соответствия запросу (словам и фразам исходного текста). Это статистический подход в машинном переводе.

Для справки: как работает Google Translate словами его создателей
(По материалам блогов Google Translate на английском и русском языке)
Google Translate может делать разумные, логичные предположения при выборе перевода, он ищет шаблоны в больших объемах текста (это, собственно, и есть «статистический машинный перевод»). Выполненный компьютером перевод не будет совершенным, но он будет улучшаться! Чем больше текстов на данном языке проанализирует Google Translate, тем лучше будет качество перевода на данном языке – поэтому перевод от Google более точный на одних языках и (пока) менее точный на других. (Перевод с англ. автора статьи, далее отрывки из русскоязычных блогов.)
Обычные машинные переводчики, как правило, преобразуют грамматические конструкции из одного языка в другой исходя из жестко прописанных правил.
Примером такого правила может быть «если в оригинале использовалась временная форма Present Perfect, то в русском переводе нужно использовать соответствующую форму для этого глагола».
Эти правила могут быть сложнее или проще. Могут использоваться правила, распознающие сложные конструкции и меняющие порядок слов в конечном тексте. Но в любом случае в традиционных переводчиках их пишут вручную. У такого подхода есть свои преимущества и недостатки, к которым, в частности, можно отнести нечеловеческую сложность работы, требующейся для того, чтобы покрыть такими правилами все разнообразие языка.
Переводчик Google устроен принципиально иначе. У нас есть набор статистических эвристик, например, «эта последовательность слов обычно переводится так», который дополнен рядом вспомогательных правил, обобщающих группы слов. Этих правил больше, чем можно найти в традиционных словарях, поэтому они не проходят ручную обработку, а генерируются автоматически.
Изначально для обучения Переводчика Google мы взяли набор текстов, переведенных максимально близко к оригиналу. В дальнейшем для усовершенствования правил мы дали пользователям возможность присылать нам переводы тех фраз, которые Переводчик перевел некорректно.
Они [разработчики Google Translate] продолжают работать над извлечением информации из веб-страниц, ее структурированием, нахождением контекста, классификацией данных вообще и сайтов в частности. Их работа способствует улучшению качества поиска, созданию новых продуктов, основанных на лучшем понимании структуры интернета.

Анализ продукции Google Translate. Лабораторная работа

Вряд ли когда-нибудь машинные переводчики смогут заметить человека.

Теперь сверим эти заявления Google с конкретными образцами их перевода. Для тестирования сервиса были взяты тексты из следующих областей: новости науки, спорта и культуры, популярная психология, популярная лингвистика, здоровье, информационные технологии. Тексты были подобраны с минимумом сленга, сложной терминологии и запутанных грамматических конструкций – образцы литературного языка, доступного для понимания среднестатистическим пользователем, то есть средней сложности для переводчика. Далее оценки качества даны в сравнении с профессиональным переводом, а не продукцией других машинных переводчиков.
Отобранные тексты были переведены в Google Translate в следующих направлениях (по одному или два для каждого эксперимента):
— с русского на английский (неплохое качество),
— с английского на русский (хуже),
— с русского на английский, а затем полученный результат на русский (убедилась, что на выходе получаем не копию оригинала, а значительно искаженный текст),
— с русского на английский, украинский, немецкий, французский, (лучший перевод – на украинский, худшие – на немецкий и французский),
— с украинского на английский и русский (перевод на русский точен на 95%; перевод с украинского на английский нехорош и «хромает» в той же степени, что и с русского на английский),
— с немецкого на английский и русский, затем перевод полученного английского текста на русский (идентичен русскому тексту, полученному при переводе «напрямую» с немецкого; качество перевода слабое),
— с французского на английский, русский, украинский, немецкий, (лучший перевод на английский; переводы на русский и украинский (и ляпы в них) идентичны, невнятны).
Это было начало работы, которое позволило сделать важные выводы о принципах перевода в сервисе. Позже для уточнения результатов переводы были выполнены еще и на польский и далее методично между всеми 6 языками, что дает 15 языковых пар и 30 направлений перевода.

Выводы о принципах перевода в сервисе

  •  Английский является «посредником» при переводе на многие языки, текст сначала переводится на английский и лишь потом на выбранный язык. На целевой язык переводится уже искаженный английский текст, с неизбежными при машинном переводе бессмысленными кусками. Так на первичную деформацию накладывается второй слой, что в итоге дает эффект «сломанного телефона». В результате один и тот же текст получает большее искажение при переводе на немецкий, французский, русский или другие языки, чем на английский. Перевод содержит такие ошибки, которые не объясняются строем исходного и целевого языков и которые невозможны в прямом переводе между этими языками. Таких искажений не допустит ни другой машинный переводчик, ни неопытный «человекопереводчик».
  • Английский – стержневой язык в Google Translate, новые языки «подключаются» только к нему, а не ко всем 60 и более ныне поддерживаемым языкам. Неслучайность доминирования английского языка в американском сервисе может объясняться не только внешними, культурно-экономическими, но и внутренними, математико-лингвистическими причинами. С одной стороны, английский – язык международного общения, разработчиков ПО, разработчиков и руководства Google, огромной платежеспособной аудитории, значительной части информации в сети. С другой стороны, приоритетность английского языка может быть связана и с тем, что он обладает «выигрышной» в статистическом переводе грамматикой: программа может брать из баз данных целые куски текста и комбинировать как есть, не меняя в большинстве случаев «словарной формы». Это что касается генерации текста по определенному шаблону. С точки же зрения машинного анализа текста, относительно строгий порядок слов в английском может быть для программ более однозначным указателем на функцию слова в предложении, грамматические связи, чем окончания в синтетических языках.
    Плюсы: быстрое расширение базы языков и высокое качество перевода на английский и с английского. Это самый лучший язык для работы в Google Translate, текст перевода получается достаточно ясный, с небольшими смысловыми и грамматическими искажениями. Однако при всех преимуществах это НЕ готовый конечный перевод и не подспорье для неумелого переводчика, незнакомого с тонкостями перевода.
    Минус: перевод не с английского и не на английский сильно искажен и неперспективен по сравнению с другими машинными переводчиками. Так, перевод на русский мало подходит для не знающих язык оригинала и для ленивых переводчиков (с английского – несколько лучше). Текст часто выходит несвязным, нередки бессмысленные места. Для понимания переводов на русский, выполненных переводчиком Google, пользователю необходимо некоторое знание исходного языка, чтобы сверяться с оригиналом. Удобство заключается только в менее частом обращении к словарю – а общий смысл придется искать самому, глядя в английский (или другой) исходный текст.

ЗАМЕТКИ НА ПОЛЯХ
Google объясняет худшее качество перевода на некоторых языках исключительно тем, что на этом языке в сети мало качественных текстов в паре с их переводами на другие, т.е. движку Google временно не на чем тренироваться. Но только в этом ли дело? Нет ли оснований считать, что некоторые языки для Google Translate более приоритетные? Или более совместимые с приоритетными языками?

  • В Google Translate лучше переводить не с русского, а с английского. Что делать, если английского текста нет? Сделать его:
    — перевести в Google Translate с русского на английский,
    — отшлифовать самому перевод,
    — потом дать Google Translate перевести полученный текст на немецкий, французский и др. перевод Google с английского будет лучше, чем с русского,
    — далее поручить доработать перевод специалисту в этом языке. При переводе фильмов поступают сходным образом. Например, японский фильм переводят на английский, а с английского (его знают многие переводчики) – на другие языки. Возможно и продолжение цепочки – дальнейший перевод не с оригинала и не с английского, а с третьего языка на родственные ему, например, с русского на украинский и белорусский. Не без потери смысла во всех звеньях цепочки, конечно.
  • Прямой статистический перевод между близкими по грамматическому строю языками может быть наиболее точным и связным, но пока мало используется в Google Translate. По результатам теста, переводы с английского на немецкий и французский и наоборот оказались лучшими, так же как русско-украинские и украинско-русские. В перечисленных парах языков наблюдается сходство шаблонов строения слов и фраз, близость лексики, фразеологии, пунктуации, культурного опыта, и это снижает количество ошибок. Русский и украинский языки настолько близки, что ошибок вообще почти не было.
    Вопреки ожиданиям, перевод с русского и украинского на еще один славянский язык, польский, не очень удачный. Он почему-то выполняется не напрямую и копирует недостатки английского промежуточного перевода, то есть также наблюдается эффект «сломанного телефона». Качество перевода могло бы быть выше. К сожалению, это можно сказать о большинстве рассмотренных в статье направлений.
    Если целенаправленно развивать технологии Google Translate между конкретными родственными языками, например, славянскими, тюркскими, мы бы имели машинный переводчик, который может почти полностью заменить человека.
  • При нынешней организации сервиса улучшение качества перевода будет незначительным независимо от количества накопленных шаблонов. Одна из технических подоплек – эффект «сломанного телефона», как показано выше, другая немаловажная лингвистическая причина разница в грамматике неродственных языков. В Google могут и дальше анализировать веб-документы, пополняя базы соответствий, однако только «оптимизацией результатов поиска» перевод они не улучшат. Невозможно создать базу переводов на все возможные варианты фраз. Это значит, что некий значительный процент предложений, словосочетаний машине необходимо составлять самостоятельно, а не брать готовыми, а это значит, что разработчику требуется обучать машину грамматике другими, «нестатистическими» способами. Google не афишируют эти методы и, возможно, не придают им решающего значения. Известно только, что до 2007 года в Google Translate использовался движок Systran, однако нынче разработчики Google Translate всячески противопоставляют свои методы машинного перевода «старинным».
  • Преимущества Google Translate – для пользователей Интернета. Сервис предназначен не для профессионального качества перевода, а для удобства навигации по иноязычным сайтам. В этой сфере он работает лучше, чем со сложными текстами, и пока не имеет конкурентов. Дело в том, что статистический машинный переводчик точно передает шаблонные, из раза в раз повторяющиеся фразы и наименования: они есть в готовом виде в его базах. Именно такого рода информация содержится на сайтах в названиях кнопок, меню, блоков текста, описаниях продуктов, некоторых текстах справочного характера. Кроме того, при поиске в Интернете мы не преследуем целей высокой точности и художественности, нужно схватить общий смысл. В этих условиях встроенный многоязычный онлайн-переводчик может быть хорошим проводником по иноязычному миру.

Рекомендации по работе с сервисом

Google Translate переводит не дословно и иногда очень в тему передает смысл естественной для языка фразой, а не пословным переводом. Сервис позволяет получить общее представление о том, что говорится в оригинале, а от перевода в бытовых ситуациях большего и не требуется. Пользователь прилагает минимум усилий, не имеет и не выполняет никакой подготовки – и «одним нажатием кнопки» получает моментальный более-менее читабельный результат.
Качественный, точный, стилистически грамотный перевод от машинных переводчиков пока ожидать рано. Пусть сначала изобретут искусственный интеллект. Машинный переводчик экономит время профессионального переводчика: не нужно набирать текст, проверять орфографию в большинстве случаев, искать перевод некоторых слов в словарях и в сети. Переводить все же все же приходится человеку – внося ясность в этот корявый продукт машинного перевода.

Области наиболее результативного применения Google Translate:
— перевод на английский язык или с английского языка,
— перевод с украинского на русский и наоборот,
— навигация по иноязычным сайтам, в частности покупки и другие трансакции через Интернет, использование онлайн-сервисов, игры, переписка, чтение справочной информации, новостей, блогов, описаний продуктов, записей фан-клубов и т.п.,
— «полуфабрикат» для доработки специалистом в данном направлении перевода,
— ознакомление с текстами справочно-информационного характера (а не художественный перевод, не готовый перевод документации),
— перевод текста, написанного ясным литературным языком, состоящего из простых коротких предложений, в которых порядок слов прямой или совпадает с правилами в языке перевода, нет вставных конструкций, пропущенных членов предложения и пр., нет сленга, слов в переносном значении.

В завершение хочу сказать, что любым инструментом необходимо уметь пользоваться, тогда он раскрывает свой потенциал в полной мере. Надеюсь, мой обзор поможет вам лучше обходить языковые барьеры в нашей жизни, которая все больше становится многоязычной, позволяет проникать на чужой рынок и в чужую культуру, внедрять и заимствовать. Качественный перевод – неотъемлемая составляющая вашего облика в межкультурной коммуникации.
Буду рада, если приведенный мной метод исследования вдохновит и других юных натуралистов на новые открытия. Не забудьте поделиться!

Эпилог

Сбор и анализ данных проводился в марте-апреле 2011 года. Работа над обзором была продолжена и окончена в октябре-декабре 2011 года, когда все направления перевода были снова протестированы на тех же текстах. В более поздних переводах сервиса видно большее разнообразие лексики, но в целом по точности, понятности в сравнении со старыми, полугодичной давности переводами эти октябрьские переводы Google Translate не лучше, а местами хуже. Переводы с русского на французский и немецкий по-прежнему отражают ошибки английского перевода-посредника, уже нового, октябрьского, а не мартовского. Как я и предполагала, у качества статистического машинного перевода есть предел, который пока невозможно перепрыгнуть лишь за счет сбора и анализа языковых шаблонов из веб-документов.

От автора:

Параллельно я сделала научную версию статьи, с более подробной, развернутой аргументацией, она будет опубликована в 1-м номере переводческого журнала «Мосты» и через некоторое время я выложу ее в интернет вместе с табличкой с примерами перевода Google на 6 языках.

P. S. 2 апреля 2012 г.  Ждите продолжения темы: сравнение работы 7 популярных онлайн-переводчиков. По этой теме пока хочется добавить, что а) несмотря на посредничество английского, у Google вполне солидные результаты, б) выбор лексики у них один из лучших,  в) некоторые другие компании тоже используют английский как посредник для большинства поддерживаемых языков, причем менее удачно.

Фото взято с fridge.com и www.translatemaster.ru

  1. Natalia

    Спасибо за статью, весьма познавательно. Правда, я думаю, что в случае с Sima de los Huesos вариант перевода Google объясняется не установкой на исключение «неблагозвучных» слов, а тем, что (как, кстати, и pretranslating в другом вашем примере) когда переводчик не знает каких=то слов, он оставляет их в оригинале.

    • Елена Тихомирова
      Эксперт

      тут однозначно не скажешь. это не единственный случай, когда неблагозвучное слово «блокируется». единственно, что, как показывают ниже, правильная транслитерация с испанского и не была бы «ругательной». т.е. вопрос, как транслитерировать, слишком сложный для машины: текст на немецком, название местности на испанском — недюжинная задача.
      у гугл главное преимущество: широко распространенные названия у них есть в базе данных, а вот с остальными приходится выкручиваться, причем в большинстве случаев переводчик гугл старается транслитерировать, а не оставлять латиницей.

  2. yushi@lj
    Сайт - http://yushi.livejournal.com/

    Спасибо за интересную статью, да.

    Продолжу тему «Sima de los Huesos». =)

    Большинство переводчиков транслитерировали «Уэсос» не для того, чтобы избежать неблагозвучия, а попросту следуя правилам испанского языка, в котором «h» не произносится.

    То есть утверждение-то, которое этим примером иллюстрируется, разумеется, верное, но сам пример — не вполне удачный.

    • Елена Тихомирова
      Эксперт

      спасибо за уточнение.
      у сервиса было слишком мало данных, чтобы определить, что это испанский, так как текст был на немецком. так что вполне возможно, что при переводе немецкого текста он должен был транслитерировать по немецким правилам. или по английским, раз он у них «посредник» в большинстве направлений перевода.
      см. еще коммент выше.

    • Елена Тихомирова
      Эксперт

      Спасибо!
      Да, полезное знание. Хочу добавить, что даже с посредником гугл переводит не хуже многих и что это распространенная практика (как оказалось).

  3. Vitaly Kazakov
    Сайт - http://twitter.com/uwake

    Отличная статья, спасибо!

    Для себя давно уже отметил, что гуглом иноязычные сайты и тексты лучше переводить на английский, и читать на нём, т.к. перевод гораздо качественнее, чем на русский.

    • Елена Тихомирова
      Эксперт

      респект!
      теперь этим эмпирическим находкам найдено почти научное обоснование))

  4. perepelini
    Сайт - http://www.mosprotext.com

    Как-то довелось использовать Google Translate для низкобюджетной локализации веб-сайта на итальянский язык. Использовали simple English в качестве исходного языка, хотя изначально веб-сайт был на русском языке. В результате получился неплохой и, главное, недорогой перевод на итальянский язык.

  5. Джорнал
    Сайт - https://journalcar.com/

    Весьма познавательная статья. Было очень интересно прочитать Ваши эксперименты

Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *