12 фактов, советов и идей о базах данных Déjà Vu X2

DJV2

Déjà Vu X2 – это программа памяти переводов (Translation Memory). Она не содержит уже загруженного языкового контента, но запоминает то, что вы делаете – таким образом, программа выступает в роли «памяти» о том, что вы «уже видели» (= от франц.“déjà vu“).

Déjà Vu значительно облегчает работу переводчикам.

1. Существует три вида памяти:

Для каждого проекта можно создать TM (память перевода), TB (терминологическая база) и лексикон.

TM – база данных, в которой можно сохранять предложения исходного текста вместе с их переводом.

TB – терминологическая база данных, которую можно использовать для отдельных слов или целых фраз.

Лексикон – база данных, которая создается для конкретного проекта. Для каждого файла проекта можно создавать отдельный лексикон.

Во время работы над проектом Déjà Vu X2 использует все три типа баз данных, чтобы предложить варианты перевода и облегчить вашу работу. Инструменты, применяемые Déjà Vu X2 для этого, называются: «Предперевод» (Pretranslate), «Сборка» (Assemble) и «АвтоСборка» (AutoAssemble) – это тема для будущих статей.

2. Большая Ма и Большой Па:

Вы можете сохранять все ваши наработки в одной TM (“BigMama”) и TB (“BigPapa”). Если вы укажете для каждой записи определенную тематику и клиентский код, Déjà Vu X2 будет это учитывать при выборе варианта перевода из ваших баз данных. В моей главной TM за 12 лет накопилось около 40 000 пар предложений, а в TB около 55 000 записей.

3. Раздельные TM и TB:

В Déjà Vu X2 Professional можно подключать до пяти TM и пяти TB к каждому проекту, в Déjà Vu X2 Workgroup ограничений нет. Таким образом, вы можете использовать ваши основные базы Big Mama/Papa вместе с другими базами данных, например, предоставленными клиентом TM или глоссариями, общими справочными материалами типа баз данных Генерального директората Европейской комиссии по переводу, либо терминологическим списком от таких крупных компаний, как Microsoft, SAP или какой-либо банк. Возможно, вы решите сохранить отдельные базы данных для разных клиентов или предметных областей, вместо того чтобы пополнить ваши основные базы данных. Вероятно, вы найдете этот способ удобным, если вы одновременно работаете над текстами конкурирующих инженерных или IT-компаний, которые намеренно используют различную терминологию для своих брендов. Единственная проблема – в этом случае возможны трудности при поиске необходимого материала: допустим, вы знаете, что уже работали с таким термином или предложением в DVX2, но вы не помните, когда и в какой базе данных они были сохранены.

4. Неточное совпадение (Fuzzy matching):

Вы можете настроить DVX2 на выявление в тексте неточных совпадений. Можно выставить процент совпадения, варианты ниже которого DVX2 рассматривать не будет (= Минимальный порог соответствия – “Minimum Score ” (Tools>Options>General)). По умолчанию выставлено 75%, но в зависимости от форм словоизменения, которые встречаются в используемых языках, практичнее бывает выставить порог в 50% или менее. Указанный процент применяется одновременно к TM и TB, но не к лексикону, т.к. в нем находятся только точные совпадения. Кроме этого, “Minimum Score ” не влияет на работу таких функций DVX2, как Субсегментарный поиск (DeepMiner) и Автозаполнение (AutoWrite)

5. Добавляем записи в базы данных:

В DVX2 это делается очень быстро и просто. Для TM доступна функция автоматического занесения (AutoSend), включить ее можно двумя способами: Tools>Options>Environment, или используя иконки, находящиеся в нижней части окна программы (иконка AutoSend – вторая справа). После этого нужно будет лишь нажать CTRL + стрелка вниз по завершении работы над сегментом. Для занесения в лексикон нужно выделить слово или фразу в исходном тексте и в тексте перевода, затем нажать F10. Для занесения в TB также необходимо выделить слово или фразу, затем нажать F11. После этих действий откроется окно:

Здесь вы можете отредактировать в обоих языках сам термин, поменять склонение, подправить орфографию и прочее. Также можно проверить, правильно ли указана терминологическая область и клиентские коды. Здесь же находятся дополнительные поля («Описание», «Часть речи», «Род», «Число» и «Контекст»). До сих пор я не использовал ни одно из этих полей, однако некоторым пользователям они могут пригодиться.

Терминологическая база (TB) – один из ключей к эффективности DVX2. Рекомендуется добавлять в нее слова и целые фразы так часто, как только возможно. Некоторые пользователи придерживаются правила добавлять в TB записи из каждого переведенного предложения. Статья Стивена Марзуолы о том, как пользоваться терминологической базой данных, писалась под предыдущую версию DVX (сейчас ее часто называют DVX1), но в ней можно найти полезную информацию, применимую к DVX2.

6. Тематика и коды:

Это важный момент, т.к. DVX2 обращается к ним, чтобы выбрать и предложить правильный вариант для вашего текущего перевода. После установки DVX2 вы увидите предложенный список тематик, который при необходимости с легкостью можно удалить и составить свой собственный. Каждая тема содержит короткий индекс-код (к примеру, 435) и описание (Региональное планирование/экология). Когда программа выясняет, какая тема больше всего подходит для вашего текущего проекта, она работает иерархически: в моем примере программа решила, что записи под кодом 43 (Городское планирование) и 4 (Строительство) являются наиболее подходящими. Вместо чисел вы можете обозначать коды буквами, если вам так удобнее.

7. Создать лексикон (Build lexicon):

Эту функцию вы можете найти в меню «Лексикон» (“Lexicon”), временами она может быть полезна при подготовке к работе над текстом, в котором много терминов. Я использую данную функцию примерно в 5-10 % проектов. Рассмотрим ее пошагово: сначала нажмем «Создать лексикон» (“Build lexicon”) и определим максимальное количество слов (обычно 4). После этого программа в течение пары минут ищет варианты. Затем открываем лексикон (используя Project Explorer), щелкаем по заглавию над левой колонкой и определяем критерий сортировки: 1. Количество слов (по убыванию), 2. Частотность (по убыванию). Теперь самостоятельно просмотрим весь список. Сначала определим, какие фразы из четырех слов следует добавить в лексикон. Обычно это важные содержательные фразы, которые часто встречаются. Дойдя до фраз, встречающихся в тексте 3 раза или менее, я обычно пролистываю их, спускаясь ниже – к наиболее частотным фразам из трех слов. И так далее, выделяя все записи, походящие для лексикона. Далее выберем «Удалить записи» (“Remove entries”) в меню «Лексикон», щелкнем «Записи без перевода» (“Entries with empty targets”) и нажмем ОК. Обычно для проекта из нескольких сотен сегментов это дает около 30-50 записей – но это записи, которые часто встречаются и требуют единообразия. Таким образом, предварительно создав лексикон, в дальнейшем мы получим лучшие результаты при выполнении «Предперевода» или «Сборки».

Эту функцию также можно использовать для составления списка терминов, которые должны войти в глоссарий, если его требует заказчик. За годы работы у меня был всего один подобный проект, но создание лексикона может быть полезно для переводчиков, которые часто работают со сложными техническими текстами.

8. Имена собственные:

Это стандартные элементы для добавления в лексикон. Название или код определенного продукта, которые есть в вашем тексте, можно использовать только для определенного проекта, т.к. они вряд ли подойдут для проектов от других клиентов. Это относится и к именам конкретных людей, работающих на заказчика: эту информацию следует заносить в лексикон, а не в терминологическую базу. Однако некоторые имена, встречающиеся часто, целесообразнее заносить в TB. Мое главное правило: если имена можно перепутать со словами, существующими в языке – для TB они не подходят. Например, распространенное немецкое имя Helmut я не вносил в TB, т.к. в зависимости от уровня неточных совпадений его можно перепутать со словом Helm (шлем) и его формами Helme/Helmen/Helmes. То же самое с фамилией Kohl, чтобы избежать путаницы с Kohl (капуста) и близким совпадением Kohle (уголь). Но два имени вместе я заношу в TB, подразумевая известного немецкого канцлера Гельмута Коля. Имена других известных политиков тоже находятся здесь, например, в немецком и английском написании – Gorbatschow и Gorbachev.

9. Адаптация баз данных под нужные языки:

В некоторых случаях выбранная вами языковая пара и направление перевода могут повлиять на то, как вы будете использовать различные базы данных – это связано с порядком слов и изменениями их форм. Пример: английская фраза “public green spaces” во французском языке имеет иной порядок слов: “espaces verts publics”, также возможны иные формулировки: “espaces verts des lieux publics”, “espaces verts ouverts au public”, “espaces verts pour le public” и др. (Спасибо Дейву Тернеру за этот и другие примеры.) Первое, что приходит на ум при переводе на немецкий – “öffentliche Grünflächen”, притом что первое слово может иметь также форму “öffentlichen”.

Вероятно, при переводе с французского языка на английский следует внести каждую французскую фразу как лексическую единицу, особенно если в тексте, с которым вы работаете, много повторов. Ввод отдельных слов мало чем поможет, потому что порядок слов нужно будет изменить. В зависимости от специфики вашей работы и частотности использования данных фраз, вы можете внести их в лексикон, TB или TM.

Если вы переводите с немецкого языка, разумнее всего будет добавить оба слова в терминологическую базу и позволить DVX2 расценивать изменяющиеся окончания как «неточные совпадения». Даже если речь идет о фразах с большим количеством вариантов склонения (например, “public building” – “öffentliche Gebäude”, “öffentliches Gebäude”, “öffentlichen Gebäudes”, “öffentlichem Gebäude”), вы можете ввести всего одну форму каждого слова и использовать функцию неточного совпадения. Удобно здесь то, что, хотя слово в языке оригинала будет меняться, в языке перевода (английском) оно останется без изменений.

Перевод с практически нефлективного языка на флективные языки (например, французский или немецкий) может быть затруднителен, поэтому необходимо подобрать стратегию, подходящую к языкам, с которыми вы работаете. Нет единого решения, которое бы подошло для всех языков и тематик, но в DVX2 предоставляется гибкое использование баз данных.

10. Поиск по базе данных:

Существует несколько способов просмотреть информацию из ваших баз данных. Когда вы применяете функции «Предперевод», «Сборка» и «Автосборка», DVX2 использует информацию из баз данных, чтобы подобрать подходящий перевод. После этого вы увидите, что некоторые слова и фразы в предложенном переводе подчеркнуты синим – это те термины, для которых в базе данных содержится несколько вариантов перевода. Щелкнув правой кнопкой мыши по слову или фразе, вы увидите остальные варианты, с которыми можно ознакомиться и выбрать правильный щелчком мыши или с помощью цифр на клавиатуре. Еще один способ поиска подходящей информации в вашей базе данных – искать в окне или окнах “Portions”. Здесь можно посмотреть несколько скриншотов. И, наконец, еще одна возможность просмотра информации – использовать функцию “Scan” (CRTL+S) для поиска соответствий в TM, либо “Lookup” (CTRL+L) для просмотра содержимого TB.

11. Перенос баз данных на другой компьютер:

Чтобы перенести вашу работу на другой компьютер, например, на ноутбук в случае отъезда, понадобится скопировать несколько файлов. Первый файл – ваш проект, он имеет расширение .dvprj. Лексикон содержится в самом проекте, поэтому не нужно никаких дополнительных действий, чтобы его скопировать. Терминологическая база находится в отдельном файле с расширением .dvtdb. TM содержит как минимум 4 файла. Основная информация находится в файле с расширением .dvmdb. Кроме того, для каждого языка существует индексный файл (например, файлы с расширением en.dvmdi и de.dvmdi для английского и немецкого языка соответственно). Также необходим файл с расширением .dvmdx. Когда вы откроете проект на другом компьютере, DVX2 может пожаловаться, что не видит баз данных. Это не проблема – когда проект открыт, вы можете выбрать их вручную: Project>Properties>Databases.

Файл с расширением .dvset содержит настройки (тема, клиенты и прочее) – его тоже необходимо скопировать. Что касается защиты – если вы используете электронный лицензионный ключ, убедитесь, что его можно применить и на другом компьютере.

12. Как узнать больше:

Более подробную информацию можно найти в руководстве пользователя DVX2 для DVX2 Professional или DVX2 Workgroup. Ссылку на 600-страничный файл PDF с инструкцией вы найдете внизу страницы.

На сайте atril.com находятся ссылки на различные обучающие видео, вебинары и учебные курсы, а также список для рассылки dejavu-I (Support>Technical forum).

Я уже упоминал статью Стивена Марзуолы по терминологическим базам данных. Также советую ознакомиться с подборкой советов по DVX1 (и даже по ее предшественнице DV3) от Нельсона Латермана.

В данной статье остались нераскрытыми многие вопросы, поэтому я с нетерпением жду ваших комментариев и пожеланий.

Автор статьи: Victor Dewsbery

Почитать оригинал и оставить комментарии можно в блоге автора.

Добавить комментарий

Войти с помощью: 

Ваш e-mail не будет опубликован. Обязательные поля помечены *