Про досвід створення автоматичної перекладацької бази даних у галузі комп'ютерних технологій

Головна > Факультету романо-германських мов >

Про досвід створення автоматичної перекладацької бази даних у галузі комп’ютерних технологій

23 Березень, 2010 року

Автор статті:

Робота представляє собою дослідження в сфері комп’ютерної лінгвістики. До уваги беруться системи автоматичного перекладу, а зокрема Trados і його модуль MultiTerm. Описуються основні характеристики та функції програмного забезпечення Trados, ведеться ознайомлення з принципами роботи програмного модуля TRADOS MultiTerm 7. В роботі розглядається процес створення автоматичної перекладацької термінологічної бази даних, яка базується на глосаріях корпорації Dell. Визначається сфера застосування та можливі шляхи використання результатів дослідження.

The writing is an investigation in the sphere of computer linguistics. Automatic translation systems are in the centre of attention, particularly Trados with its MultiTerm module. Main characteristics and functions of Trados software are described, the reader is getting acquainted with the work principles of TRADOS MultiTerm 7 program module. The process of automatic translation termbase creation based on the Dell corporation glossaries is depicted in this writing. The sphere and ways of the usage of the results of investigation are also mentioned.

У сучасному світі потреба в міжкультурному спілкуванні зросла значною мірою. Тому виникає необхідність використання альтернативних методів його реалізації, зокрема з допомогою ЕОМ. Більше трьох століть розробляються різні перекладацькі системи для полегшення, прискорення та покращення роботи як перекладачів, так і пересічних користувачів. Зокрема, не так давно виникли системи автоматичного перекладу, які базуються на комп’ютерному перекладі з участю людини: GAT, MARK-II, SYSTRAN, SPANAM, TAUM-METEO, ATLAS II, LIDIA, Ntran, SEMSYN, LUTE, ПРОМТ, KANT, Shalt2, SUSY, GETA, ATHENE, Pragma, MU, ЕТАП-2, HICATS, MOPTRANS, TRANSLATOR, TRADOS, СИЛОД, БАРС та ін. Питаннями автоматичного перекладу займалися такі вчені як І.А. Мельчук, А.К. Жолковський, Л.В. Щерба, М. Мастерман, Д.М. Йєйтс, В. Інгве, П.П. Петров-Троянський, А. Вахер, Георгій Арцруні, М. Нагао та інші.

В нашій роботі ми звертаємо увагу на одну з найбільш відомих систем автоматичного перекладу TRADOS, і, зокрема, на один з її модулів MultiTerm. В наш час програма користується неабияким попитом серед перекладачів, які живуть в ногу з часом. Проблема тільки у створенні власної, пошуку або придбанні словникових баз даних, без чого програмний модуль фактично не працює. Звідси випливає актуальність нашої роботи.

Актуальність дослідження полягає у тому, що темпи вивчення комп’ютерних технологій, пов’язаних із системами автоматичного перекладу, не відповідають швидким темпам їх розвитку і потребують більш детального розгляду з точки зору комп’ютерної лінгвістики. Тобто, наше дослідження передбачає створення унікальної бази даних, яка може бути застосована практично.

Мета дослідження полягає у вивченні та аналізі особливостей роботи системи автоматичного перекладу TRADOS MultiTerm, створенні перекладацької бази даних для цієї системи (термінів параметрів та програмного забезпечення продукції комп’ютерної корпорації Dell).

Для досягнення поставленої мети необхідно вирішити ряд завдань: визначити сутність поняття та функцій систем автоматичного перекладу, вивчити сучасні тенденції та проблеми розвитку систем, описати основні характеристики та функції програмного забезпечення Trados, ознайомитися з принципами роботи програмного модуля TRADOS MultiTerm, створити автоматичну перекладацьку базу даних у галузі комп’ютерних технологій, спираючись на глосарії компанії Dell.

Об’єктом дослідження є модуль системи автоматичного перекладу TRADOS MultiTerm та термінологія параметрів та програмного забезпечення продукції комп’ютерної корпорації Dell.

Предмет дослідження – специфіка створення та основні функції бази даних у TRADOS MultiTerm.

Практичне значення дослідження – результати роботи можуть бути використані при вивченні систем автоматичного перекладу, а також для оптимізації перекладу текстів комп’ютерної тематики взагалі, та здійснення перекладів текстів, які стосуються продукції корпорації Dell зокрема.

Trados – це система автоматизованого перекладу, яка є одним зі світових лідерів в класі систем Translation Memory (накопичувач перекладів). Компанія Trados GMBH була заснована в 1984 році в м. Штутгарт. У 1997 році 20 % акцій компанії були придбані Microsoft. У 2002 році Trados об’єдналася з Uniscape Inc., а об’єднана компанія отримала назву Trados Inc. зі штаб-квартирою в Александрії, Вірджинія. У червні 2005 року компанія Trados була придбана британською SDL International, а в 2006 році був випущений сумісний продукт з Trados SDLX.

Комп’ютерна система автоматизованого перекладу Trados включає декілька модулів, призначених для перекладу текстів різного формату: документів Microsoft Word, презентацій PowerPoint, текстів у форматі HTML та інших метаданих, документів FrameMaker, InterLeaf та ін., а також для ведення термінологічних баз даних. Система поставляється в корпоративному (Team Edition) і однокористувацькому (Freelance Edition) варіантах. При інсталяції Trados вбудовує свій інструментарій в панель інструментів і меню Word. Тісна інтеграція з Office дозволяє при перекладі текстів в Word автоматично поповнювати базу даних ТМ [5].

Авторські права належать автору статті на naub.org.ua

Принцип роботи Trados заснований на концепції Translation Memory, що припускає виявлення в тексті, що перекладається, фрагментів, переклади яких вже є в базі даних перекладів, і за рахунок цього скорочення об’єму роботи перекладача. Це виявлення отримала назву вирівнювання або зіставлення (alignment). Фрагменти, що залишилися неперекладеними після зіставлення, передаються далі для ручної обробки перекладачеві або системі машинного перекладу (Machine Translation, MT). Перекладач на цьому етапі може виділити знову переведені фрагменти і занести нові пари паралельних текстів на двох мовах в базу даних. Така схема найкращим чином працює на однотипних текстах, де повторюваність словосполучень висока.

Основні модулі Trados:

Trados Workbench – пов’язана з Word система асоційованої пам’яті, що дозволяє здійснювати аналіз документа, попередній переклад і подальше редагування виконаного перекладу.

TagEditor – середовище для редагування файлів таких форматів HTML/XML/SGML/ASP/JSP, FrameMaker, і PageMaker. Також TagEditor включає різні додаткові можливості по верифікації тегів і перевірці орфографії.

WinAlign – модуль для створення пам’яті перекладів на основі раніше перекладених двомовних текстів дозволяє в напівавтоматичному режимі поповнювати базу даних накопичувача шляхом аналізу паралельних текстів на двох мовах.

T-Window – спеціальне середовище для редагування в Microsoft Powerpoint, Microsoft Excel, файлів програмних ресурсів, відкритих файлів і змісту буфера обміну. Також можна обробляти тексти таких форматів, як FrameMaker, Interleaf, QuarkXPress, PageMaker, InDesign і Ventura.

MultiTerm – модуль для ведення глосаріїв – багатомовної бази даних термінів [4].

Останній з них ми розглядаємо у нашому дослідженні, а саме MultiTerm 7 (Див. Рис. 1).

Рисунок 1. Зразок сторінки TRADOS MultiTerm 7

Модуль представляє собою своєрідний словник, який є досить зручним при роботі з термінами та базами даних, що значно полегшують переклад. Такі бази можна створювати, редагувати, поповнювати по ходу роботи іншими термінами. Один запис завжди відповідає одному поняттю, тобто якійсь незалежній від мови абстракції. Це означає, що запис містить всі терміни, які описують поняття, разом з деякою додатковою інформацією, пов’язаною з поняттям (наприклад, визначення). Для кожного поняття ви можете вказати терміни 20-ма різними мовами. Професійна версія MultiTerm дозволяє включати в записі ілюструючі малюнки. Підтримуються всі основні графічні формати. Розширені функції пошуку дозволяють швидко знаходити необхідну інформацію. Функції імпорту і експорту файлів дозволяють обмінюватися даними з іншими програмами. MultiTerm містить в собі підтримку мережі. До 100 користувачів або груп користувачів можуть мати доступ до бази даних. Їх доступ може бути проконтрольований з використанням восьми рівнів доступу [2]. Крім цього, бази даних для TRADOS MultiTerm можуть використовуватися для створення словників у Lingvo [3].

Першим кроком у створенні бази даних термінів параметрів та програмного забезпечення продукції комп’ютерної корпорації Dell було здійснення вибірки термінів, які використовуються фірмою Dell для опису та характеристик своєї продукції. Для цього на сайті компанії здійснювався пошук та збереження html-файлів (зразок Див. Рис. 2).

Рисунок 2. Зразок сторінки, яка містить глосарії корпорації Dell

Після того, як дані були зібрані (було опрацьовано 16 глосаріїв, 4 бази даних і 3 словники, з яких було відібрано 730 термінів), поставало завдання об’єднати всі терміни в одне ціле. Для цього ми створили xls-файл (у Microsoft Excel). Дані, відповідно, вносилися у вигляді таблиці: перша колонка – термін англійською, третя – його пояснення, а другу лишали для того, щоб пізніше заповнити її відповідними українськими термінами.

Слід зазначити, що при заповненні таблиці було важливим уникати введення слів та визначень, які повторювались. Тому після виконання цього етапу дані сортувались і перевірялись на наявність повторів.

Наступним завданням проекту було знайти українські відповідники відібраних термінів. Для цього ми скористалися базами даних Перекладацької компанії повного циклу «Лінгвістичний центр», м. Львів, які здійснювали переклади для компанії Dell. Окрім цього, ми користувалися другим виданням «Англо-українського тлумачного словника з обчислювальної техніки, інтернету і програмування» Е.М. Пройдакова та Л.А. Теплицького [1], багатомовним електронним словником ABBY Lingvo X3, онлайновим перекладацьким словником MultiTran [6]. Знайдені еквіваленти записувалися у таблицю. Після цього документ повністю перевірявся на наявність орфографічних помилок.

Після того, як таблиця була повністю заповнена, її зміст переносимо у систему Trados, тобто перетворюємо у базу MultiTerm. Для цього потрібно встановити цей програмний модуль. При встановленні ми стикнулися з наступною проблемою – для продовження встановлення програма вимагала наявність Java(TM) 2 Runtime Environment, Standard Edition 1.4.2_08, Microsoft .NET Framework 1.1 та Microsoft .NET Framework 1.1 Service Pack 1. Вище згадане програмне забезпечення довелося завантажити з Інтернету та встановити. Після цього MultiTerm було встановлено. Далі ми знову поверталися до таблиці Excel, де в ячейки А1, B1, C1 та D1 вносили назви стовпчиків, відповідно – TermEng, TermUkr, Def. та Source. Зміни зберігалися.

Потім у вибраному місці створювалась папка MultiTerm Bases. Запускався MultiTerm Convert для початку перетворення документа у базу даних. При цьому ми не просто постійно натискали Next, а й виконували наступні дії: у вікні вибору формату документа обирали Microsoft Excel format, навпроти поля Input file вказували шлях до нашого документу (Glossary.xls). У вікні вибору мов ми вибирали мову оригіналу та мову перекладу, яким присвоювали значення Index field, а для третього та четвертого стовпчиків – Descriptive field. Далі приєднували пояснювальне (Def.) та ресурсне поле (Source) до поля з перекладом за допомогою кнопки Add. Потім відбувався процес перетворення.

Після процесу перетворення листа Excel його треба було імпортувати в MultiTerm. Після запуску MultiTerm в меню Termbase слід вибрати Create termbase, де потрібно вказати місце знаходження створеної нами папки MultiTerm Bases. Після цього автоматично запускався Termbase Wizard. В ньому ми вибирали Load an existing termbase definition file, після чого вказували шлях до нашого перетвореного документа Glossary.xdt, давали назву майбутній термінологічній базі (DellGlossary), зберігали її настройки значень за замовчанням. Порожня термінологічна база була готова.

Тепер ми імпортувати терміни в створену термінологічну базу. Для того, щоб потім можна було працювати з кількома термінологічними базами одночасно, потрібно було об’єднати їх в один проект. В меню Project вибираємо Save Project As. Називаємо проект (Computers) і зберігаємо його в папку MultiTerm bases. Правою кнопкою мишки натискаємо на назві нашої термінологічної бази (DellGlossary) і з контекстного меню вибираємо Termbase Catalogue. У вікні, що з’явилося, вибираємо закладку Import і натискаємо Process, а потім Browse для того, щоб вказати місце знаходження файлу (Glossary.xml), з якого програма внесе терміни в створену нами порожню термінологічну базу. Зберігаємо файл винятків, назвавши його GlossaryEx. В цей файл вносяться дані про ті терміни, які з певних причин MultiTerm не вніс у базу даних, на той випадок, якщо користувач захоче їх переглянути. Якщо дані були внесені правильно, то цей файл не повинен містити в собі термінів. Ще декілька кліків «Next» і термінологічна база готова – 730 термінів, їх перекладів та визначень у галузі комп’ютерних технологій, зокрема тих, які використовує корпорація Dell. Нею дуже зручно користуватися, працюючи, наприклад, у Microsoft Word, куди автоматично встановлюється відповідна панель інструментів MultiTerm. Для здійснення перекладу певного терміну достатньо поставити в документі курсор на місце майбутнього перекладеного терміна, в пошуку панелі інструментів MultiTran ввести слово для перекладу (напр. “beep code”) і отримати готовий переклад у раніше вибраному нами місці (у нашому випадку: “система звукового кодування помилок”). Тут же в документі по ходу роботи за допомогою відповідних кнопок на панелі можна поповнювати базу даних, переглядати, фільтрувати та роздруковувати її.

Ознайомившись із сучасними тенденціями та проблемами розвитку систем, ми проаналізували особливості роботи програми TRADOS MultiTerm та вивчили процес створення перекладацької бази даних для цієї системи, створивши власну автоматичну термінологічну базу даних у галузі комп’ютерних технологій, використавши глосарії компанії Dell.

Створена база, як і сам проект по її створенню, мають свої перспективи застосування. Ті користувачі TRADOS MultiTerm, які мають доступ до бази, зможуть використати її в своїх некомерційних цілях. Перекладачі, студенти, учні чи будь-хто з тих людей, які вперше користуються чи користуватимуться програмою TRADOS MultiTerm, зможуть за допомогою нашого дослідження не тільки ближче познайомитися з самою програмою, але також і використати його для простого, швидкого та коректного створення власної термінологічної бази даних.

Список використаних джерел та літератури

Пройдаков Е. М. Англо-український тлумачний словник з обчислювальної техніки, інтернету і програмування. / Е. М. Пройдаков, Л. А. Теплицький — К.: СофтПрес, 2006. — 823 с.
Многоязыковой сетевой словарь TRADOS MultiTerm’95 Plus.
Краткое описание.: [Електронний ресурс] / — Назва з титул. екрану, режим доступу.: http://sfedu.ru/trados/trados_.html
Создание словарей Lingvo из баз SDL Multiterm (розділ): [Електронний ресурс] / — Назва з титул. екрану, режим доступу.: http://www.lingvoda.ru/forum/actualthread.aspx?tid=11967
Бюро переводов “e-Perevodi.ru”: Trados: [Електронний ресурс] / — Назва з титул. екрану, режим доступу.:
http://www.e-perevodi.ru/polang-1.html
Langust: Trados ступил на российскую землю: [Електронний ресурс] / — Назва з титул. екрану, режим доступу.:
http://www.langust.ru/etc/trados.shtml
Multitran Electronic Dictionary: [Електронний ресурс] / — Назва з титул. екрану, режим доступу.: http://www.multitran.com/

Ключові слова: комп’ютерні технології, Trados, термінологічна база даних, система автоматичного перекладу, модуль MultiTerm, корпорація Dell, термін, таблиця, переклад.

Інші записи:

Не знайдено

Гордійчук Микола Анатолійович Факультету романо-германських мов

Посилання

Коментарі (1) Зворотні посилання (0) Залишити коментар Зворотні посилання

А.П.Загнітко

Серпень 29th, 2010 at 19:23 | #1

Відповісти | Цитувати

Дякую вам за виконану належним чином роботу. Частково інформація з вашої статті я використав при написанні своєї дисертації. Побільше б таких студентів в нашій країні!!!

Зворотні посилання відсутні.

П’ЯТИДЕСЯТНИКИ УКРАЇНИ В РОКИ ДРУГОЇ СВІТОВОЇ ВІЙНИ (1939-1945) Міщанство як тема повідомлення у міжкультурній комунікації (трагіфарс Габріели Запольської “Моральність пані Дульської” на сцені Рівненського державного музично-драматичного театру)

Науковий блог