Kako delati z navadnim besedilom


Privzeto kodiranje

Datoteke z navadnim besedilom - v večini primerov pripono .txt - vsebujejo izključno samo informacijo v obliki besedila. Za datoteke z navadnim besedilom ni jasnega in enoličnega dogovora, kako računalniku sporočiti jezik, v katerem je besedilo sestavljeno. Zelo poenostavljeno lahko rečemo, da računalnik za te datoteke privzame, da je njih vsebina napisana v jeziku, ki ga on sam, računalnik, uporablja.


Se je zaslonu zmešalo?

Ruski uporabnik računalnika bo zelo verjetno delal z računalnikom, ki tudi dela v ruščini. Meniji bodo v ruščini, datoteke, ki jih uporablja, bodo ravno tako v ruščini. V večini primerov bo zato računalnik po pravici lahko privzel naslednje: da bodo datoteke vsebovale edinole in samo znake ruske cirilice.

Če pa se kot ruski prevajalec ukvarjate s prevajanjem iz japonščine, bo računalnik tudi zanje, v kolikor imajo format za običajna besedila, privzel, da gre za besedila v ruščini. V datoteki namreč ni podatkov, na osnovi katerih bi lahko računalnik sklepal na uporabljeni jezik. Vsebina v japonščini bi lahko bila:

OmegaTとは、コンピュータを利用した翻訳ツールです。


Ker vaš urejevalnik pričakuje, da bo besedilo v ruščini, bo stavek imel takle videz:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB


Segment pa je kot vemo daleč od ruščine, saj gre za japonske znake, ki se jih napačno interpretira kot znake cirilice.

Kot vse druge aplikacije tudi OmegaT ni imun za te težave. OmegaT lahko samo sklepa, da same po sebi datoteke tipa običajno besedilo vsebujejo tekste, ki se jih prikazuje s privzeto nastavitvijo računalnika. Če računalnik govori francosko in datoteke vsebujejo angleško besedilo, s tem ni težav, ravno tako tudi ne, če gre za slovenski računalnik in na primer češčino.


Nabori znakov in kodiranje

Kako da to gre za angleščino in francoščino, za ruščino in za japonščino pa ne? Vzrok je skupni nabor znakov za francoski in angleški jezik. Z drugo besedo nabor Latin-1, ali ena od njegovih variant. Do nedavna ruščina in japonščina nista imela skupnega nabora znakov. Večina ruskih naborov znakov zato ne pozna japonskih znakov in obratno. Posledice ste imeli priložnost videti zgoraj.

Japonska stranka dela na japonskem računalniku in piše besedila v japonščini. Kateri nabor znakov bo pri tem uporabljen, je odvisno od operacijskega sistema in drugih nastavitev, vendar je zelo malo verjetno, da bi izbrani (japonski) nabor znakov ruski računalnik lahko pravilno interpretiral.

Kako pa se tekstualna informacija na osnovi zahtevanega nabora znakov fizično posreduje (to je, kako se zapisuje v datoteko, da jo računalnik lahko prebere in interpretira) , je odvisno od kodiranja. Ko računalnik datoteko bere, "dekodira" v skladu s kodiranjem informacijo v njej in jo potem v skladu z naborom znakov prikazuje. Poenostavljeno lahko rečemo, da določeno kodiranje odgovarja določenemu naboru znakov.


Rešitev v OmegaT

V bistvu so v OmegaT na razpolago tri možnosti, da se ta problem reši. Pri tem uporabljajo datotečne filtre v meniju .Možnosti

  1. Navedite kodiranje za svoje datoteke navadnim besedilom - t.j. datoteke s pripono .txt - : v segmentu besedilne datoteke dvogovora datotečni filtri vstavite za Kodiranje izvornih datotek namesto <auto> kodiranje, ki odgovarja vaši vrsti datotek .txt.
  2. Spremenite pripone svojim datotekam z navadnim besedilom (na primer za navadne japonske tekste iz .txt v .jp): v segmentu besedilne datoteke dvogovora datotečni filtri dodajte novo pripono v Vzorec za imena datotek (na primer *.jp) in potem za izvorne in ciljne datoteke s to pripono izberite ustrezno kodiranje.
  3. Spremenite kodiranje svojih datotek v Unicode: odprite svojo izvorno datoteko v urejevalniku, ki pravilno razume njeno kodo, in datoteko shranite s kodiranjem "UTF-8". Spremenite pripono datoteke iz .txt v .utf8. OmegaT bo datoteko odslej razumel kot datoteko vrste UTF-8.

OmegaT ima na razpolago kratek seznam pripon, ki vam omogočajo lažje delo z navadnimi besedili:

Nastavitev lahko preverite tudi sami, če izberete Filtri za datoteke v meniju Možnosti. Če imate na primer pred sabo datoteko v češčini (zelo verjetno zapisano v kodi ISO-8859-2) , vam ni treba drugega kot spremeniti pripono iz .txt v .txt2 in OmegaT bo vsebino datoteke predstavil pravilno In pa - seveda -, če hočete imeti v bodoče mir, premislite, ali ne bi bilo najpametneje vse pretvoriti v Unicode, t.j. v UTF8 format.


Pravni poduk Domov Kazalo