Abstrakt: | V minulých rokoch sa kládol veľký dôraz na prekladové štúdie a korpusovo
založené prekladové systémy používajúce Štatistický Strojový Preklad (SMT).
Základná idea tohoto princípu spočíva vo využití dát jedného jazyka ako aj
popárovaných preložených dát (bitextov) na automatické natrénovanie
prekladového modelu a jazykového modelu, ktorý môže byť využitý na vývoj
dekodéra, ktorý vykonáva samotný preklad.
Strojový preklad medzi rôznorodými jazykmi naráža na mnohé problémy,
ktoré súvisia najmä so štruktúrou jazyka a jeho komplexnosťou. Úspešný
automatický strojový preklad vyžaduje aplikáciu techník z rôznych oblastí
výpočtovej lingvistiky (morfológiu, syntax, sémantiku, analýzu reči, atď.) ako
nutnú, ale nie postačujúcu podmienku.
Hlavnou myšlienkou je, že je jednoduchšie vytvoriť MT systém pre dvojicu
príbuzných jazykov, nakoľko toto umožní redukciu komplexnosti a tým aj zvyšuje
dosiahnuteľnú úspešnosť.
Z existujúcich riešení automatického strojového prekladu sú na trhu
dostupné najmä technológie prekladu medzi príbuznými jazykmi ako angličtina,
nemčina, francúzština, španielčina... ktoré majú isté spoločné charakteristiky a to
napr. pevný slovosled a absencia ohýbania.
V tejto práci si ukážeme ako je to so strojovým prekladom veľmi príbuzných
jazykov (obsahujúcich vysoký stupeň ohybnosti – čeština a slovenčina)
a porovnáme úspešnosť použitia viacerých existujúcich prístupov ako aj nového
slovníkovo-štatistického prístupu vytvoreného za účelom tejto práce.
Taktiež sa pokúsime vyriešiť problém zaobchádzania so slovami, ktoré
nevieme preložiť podľa slovníka prekladových párov a to metódou nahradenia
vhodným slovom podľa jazykového modelu.
|
---|