Segmentiranje izvora

Orodja za prevodni spomin obdelujejo besedilne enote, ki jih imenujemo segmenti. OmegaT segmentira besedilo na dva načina: segmentiranje po odstavkih in segmentiranje po stavkih. . Da izberete zaželeno vrsto segmentiranja, odprite v glavnem meniju Možnosti -> Segmentiranje... in odkljukajte ustrezno izbirno polje. Pomnite, da je segmentiranje po odstavkih precej zastarela metoda in da je v večini projektov bolje izbrati segmentiranje po stavkih. Če ste se odločili za segmentiranje po povedih, lahko postavite pravila v glavnem meniju Možnosti -> Segmentiranje....

Zavedajte se pri tem, da je precejšen del razvoja šel v pripravo zanesljivih pravil za segmentiranje, tako da se vam v večini primerov ne bo treba ukvarjati z razvojem novih pravil. Po drugi strani je ta funkcionalnost lahko zelo koristna v posebnih primerih, saj lahko prevajate, ne da bi vam bilo treba skrbeti za tiste dele besedila, ki se ne smejo spremeniti.

Pozor! Če spreminjate možnosti za filtre pri odprtem projektu, lahko pride do izgube podatkov. Potem ko ste pravila za segmentiranje spremenili, morate odprt projekt zapreti in ponovno odpreti, šele potem bodo nova pravila začela veljati.


Segmentacija na nivoju strukture

OmegaT besedilo najprej razstavi s segmentiranjem na ravni strukture. Med tem procesom se za tvorbo segmentov uporablja samo struktura izvirne datoteke.

Na primer, datoteke z enostavnim besedilom se da segmentirati na osnovi novih ali praznih vrstic, ali pa je segmentiranje na nivoju strukture nemogoče. Oblikovane datoteke (dokumenti OpenOffice.org, XHTML in dokumenti HTML) se segmentirajo s pomočjo oznak na ravni bloka (odstavkov). Za ločevanje na segmente je mogoče uporabiti tudi prevedljive atribute predmetov (v datotekah XHTML ali HTML).


Segmentacija na nivoju povedi

Potem ko je segmentiral izvorne datoteke v logične enote, bo OmegaT te bloke dodatno razbil na stavčne segmente.

Pravila za segmentiranje

Proces segmentiranja si lahko predstavljate takole: pred vami je izvorno besedilo, po katerem se, po en znak naenkrat, premika kazalka. Za vsak položaj kazalke vzamemo vsa pravila v danem vrstnem redu in skušamo prilagoditi njihov vzorec pred besedilu tik na levi strani, vzorec po pa besedilu tik na desni strani kazalke. Če pravilo ustreza, program neha pregledovati pravila ( v primeru, da gre za izjemno pravilo) ali pa ustvari nov segment (če gre za prelomno pravilo).

Povedna segmentacija se izvaja s pomočjo standarda Segmentation Rules eXchange (SRX) - zavedajte se prosim, da implementacija ne podpira vseh možnosti SRX. Tudi ni mogoče pravil shranjevati ali nalagati v formatu SRX. V kolikor veste, kako SRX deluje, boste v vsakem primeru tudi vedeli, kako dela OmegaT, ker gre za več ali manj isto stvar.

Obstajata dve vrsti pravil:

Obstoječa prelomna pravila bi morala zadostovati za večino evropskih jezikov in za japonščino. Bi pa vam svetovali, da za jezik, iz katerega prevajate, definirati še dodatne izjeme, saj očitno ni mogoče za vse jezike določiti vseh možnih izjem hkrati..

Zasnova pravil

Prioriteta

Vsa pravila za segmentiranje z ujemajočim jezikovnim vzorcem se uporablja v zahtevanem zaporedju, zato se morajo pravila za določeni jezik nahajati višje kot samodejna pravila. Primer: pravila za kanadsko francoščino (FR-CA) naj bodo višje kot pravila za francoščino (FR.*) in višje kot privzeta (.*) pravila. Tako bo vaš projekt, v katerem prevajate iz kanadske francoščine, uporabljal pravila v pravilnem zaporedju.

Ustvarjanje pravil

Da odprete ali razširite prazno zalogo pravil, kliknite nanjo v zgornji polovici dvogovora. Pravila se bodo prikazala v spodnji polovici okna.

Da odprete prazno zalogo pravil za nov jezikovni vzorec, kliknite na Dodaj v zgornji polovici dvogovora. Na dnu tabele se prikaže prazna vrstica (lahko da boste morali zdrsniti navzdol v oknu, da se vam prikaže) Spremenite ime pravila in jezikovni vzorec. Skladnja jezikovnega vzorca se ravna po pravilih za regularne izraze. Če se vaša zaloga pravil tiče jezikovnega para, vam svetujemo, da ga z gumbom Premakni navzgor prestavite na vrh. 

prelom/izjema

Potrdilno polje prelom/izjema določa, ali gre za prelomno pravilo (polje je označeno) ali pa za izjemo (polje ni označeno) . Regularna izraza Pred in Za določata, kaj se mora v besedilu nahajati pred dano točko in za njo, če naj se pravilo (prelom ali izjema) uveljavi.

Nekaj enostavnih primerov

Namen

Pred

Za

Opomba

segmentirati za piko ('.') in pred presledkom

\.

\s

"\." pomeni znak "." "\s" pomeni katerikoli beli presledek

ne segmentirati za Mr.

Mr\.

\s

Gre za izjemo, pazite zatorej, da izbirno polje za pravilo ne bo označeno

končaj segment za "。" (pika v japonščini)

。

Kot vidite je za prazno

ne segmentirati za M. Mr. Mrs. in Ms.

Mr??s??\.

\s

izjemno pravilo - značilna je uporaba meta znaka ? v regularnih izrazih (nepožrešen identifikator)


Sestavki iz regularnih izrazov

Na razpolago so regularni izrazi, ki jih podpira Java. Kratek povzetek pravil boste našli v prilogi Sestavki iz regularnih izrazov. Če potrebujete bolj konkretno informacijo, si prosimo oglejte http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html.

Enostavne primere lahko najdete na mreži (recimo http://www.regular-expressions.info/quickstart.html.)


Pravni poduk Domov Kazalo