Orodja za prevodni spomin obdelujejo besedilne enote, ki jih imenujemo segmenti. OmegaT segmentira besedilo na dva načina: segmentiranje po odstavkih in segmentiranje po stavkih. . Da izberete zaželeno vrsto segmentiranja, odprite v glavnem meniju Možnosti -> Segmentiranje... in odkljukajte ustrezno izbirno polje. Pomnite, da je segmentiranje po odstavkih precej zastarela metoda in da je v večini projektov bolje izbrati segmentiranje po stavkih. Če ste se odločili za segmentiranje po povedih, lahko postavite pravila v glavnem meniju Možnosti -> Segmentiranje....
Zavedajte se pri tem, da je precejšen del razvoja šel v pripravo zanesljivih pravil za segmentiranje, tako da se vam v večini primerov ne bo treba ukvarjati z razvojem novih pravil. Po drugi strani je ta funkcionalnost lahko zelo koristna v posebnih primerih, saj lahko prevajate, ne da bi vam bilo treba skrbeti za tiste dele besedila, ki se ne smejo spremeniti.
Pozor! Če spreminjate možnosti za filtre pri odprtem projektu, lahko pride do izgube podatkov. Potem ko ste pravila za segmentiranje spremenili, morate odprt projekt zapreti in ponovno odpreti, šele potem bodo nova pravila začela veljati.
OmegaT besedilo najprej razstavi s segmentiranjem na ravni strukture. Med tem procesom se za tvorbo segmentov uporablja samo struktura izvirne datoteke.
Na primer, datoteke z enostavnim besedilom se da segmentirati na osnovi novih ali praznih vrstic, ali pa je segmentiranje na nivoju strukture nemogoče. Oblikovane datoteke (dokumenti OpenOffice.org, XHTML in dokumenti HTML) se segmentirajo s pomočjo oznak na ravni bloka (odstavkov). Za ločevanje na segmente je mogoče uporabiti tudi prevedljive atribute predmetov (v datotekah XHTML ali HTML).
Potem ko je segmentiral izvorne datoteke v logične enote, bo OmegaT te bloke dodatno razbil na stavčne segmente.
Proces segmentiranja si lahko predstavljate takole: pred vami je izvorno besedilo, po katerem se, po en znak naenkrat, premika kazalka. Za vsak položaj kazalke vzamemo vsa pravila v danem vrstnem redu in skušamo prilagoditi njihov vzorec pred besedilu tik na levi strani, vzorec po pa besedilu tik na desni strani kazalke. Če pravilo ustreza, program neha pregledovati pravila ( v primeru, da gre za izjemno pravilo) ali pa ustvari nov segment (če gre za prelomno pravilo).
Povedna segmentacija se izvaja s pomočjo standarda Segmentation Rules eXchange (SRX) - zavedajte se prosim, da implementacija ne podpira vseh možnosti SRX. Tudi ni mogoče pravil shranjevati ali nalagati v formatu SRX. V kolikor veste, kako SRX deluje, boste v vsakem primeru tudi vedeli, kako dela OmegaT, ker gre za več ali manj isto stvar.
Obstajata dve vrsti pravil:
Prelomna pravila lomijo besedilo v segmente. Na primer "Ali ima rep in glavo? Nimam pojma." bi morali segmentirati kot dva stavka, tako da bi bilo potrebno prelomno pravilo za "?
".
Pravila za izjeme določajo, kateri deli besedila morajo ostati skupaj. Ne glede na piko "gp. Dalloway" ne bi smeli deliti, tako da je za gč. (in za g., dr., prof. itd.) treba definirati izjemno pravilo.
Obstoječa prelomna pravila bi morala zadostovati za večino evropskih jezikov in za japonščino. Bi pa vam svetovali, da za jezik, iz katerega prevajate, definirati še dodatne izjeme, saj očitno ni mogoče za vse jezike določiti vseh možnih izjem hkrati..
Vsa pravila za segmentiranje z ujemajočim jezikovnim vzorcem se uporablja v zahtevanem zaporedju, zato se morajo pravila za določeni jezik nahajati višje kot samodejna pravila. Primer: pravila za kanadsko francoščino (FR-CA) naj bodo višje kot pravila za francoščino (FR.*) in višje kot privzeta (.*) pravila. Tako bo vaš projekt, v katerem prevajate iz kanadske francoščine, uporabljal pravila v pravilnem zaporedju.
Da odprete ali razširite prazno zalogo pravil, kliknite nanjo v zgornji polovici dvogovora. Pravila se bodo prikazala v spodnji polovici okna.
Da odprete prazno zalogo pravil za nov jezikovni vzorec, kliknite na Dodaj v zgornji polovici dvogovora. Na dnu tabele se prikaže prazna vrstica (lahko da boste morali zdrsniti navzdol v oknu, da se vam prikaže) Spremenite ime pravila in jezikovni vzorec. Skladnja jezikovnega vzorca se ravna po pravilih za regularne izraze. Če se vaša zaloga pravil tiče jezikovnega para, vam svetujemo, da ga z gumbom Premakni navzgor prestavite na vrh.
Potrdilno polje prelom/izjema določa, ali gre za prelomno pravilo (polje je označeno) ali pa za izjemo (polje ni označeno) . Regularna izraza Pred in Za določata, kaj se mora v besedilu nahajati pred dano točko in za njo, če naj se pravilo (prelom ali izjema) uveljavi.
Namen |
Pred |
Za |
Opomba |
segmentirati za piko (' |
|
|
" |
ne segmentirati za Mr. |
|
|
Gre za izjemo, pazite zatorej, da izbirno polje za pravilo ne bo označeno |
končaj segment za "。" (pika v japonščini) |
|
Kot vidite je za prazno |
|
ne segmentirati za M. Mr. Mrs. in Ms. |
|
|
izjemno pravilo - značilna je uporaba meta znaka ? v regularnih izrazih (nepožrešen identifikator) |
Na razpolago so regularni izrazi, ki jih podpira Java. Kratek povzetek pravil boste našli v prilogi Sestavki iz regularnih izrazov. Če potrebujete bolj konkretno informacijo, si prosimo oglejte http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html.
Enostavne primere lahko najdete na mreži (recimo http://www.regular-expressions.info/quickstart.html.)
Pravni poduk | Domov | Kazalo |