Soubory obsahující prostý text - ve většině případů s koncovkou .txt
- obsahují výhradně textové informace. Obecně neexistuje způsob, jak informovat počítač o jazyku souboru. Zjednodušeně řečeno počítač předpokládá, že text je napsán ve stejném jazyce, který on sám používá.
Pokud jste Rus, je velmi pravděpodobné, že váš počítač pracuje též v ruštině: menu jsou v ruštině, soubory, které otevíráte budou v ruštině atd. Ve většině případů počítač správně předpokládá s ohledem na obsah souborů zhruba toto: všechny tyto soubory obsahují ruštinu a neobsahují nic, co by ruské znaky nemohli zobrazit.
Nyní, pokud jste ruský překladatel, který překládá z japonštiny, dostanete japonské soubory, pokud jsou to soubory s prostým textem, tak budou s největší pravděpodobností počítačem považované za soubory, které obsahují ruštinu. Protože zde chybí informace v samotném souboru, která by počítači prozradila, ve kterém jazyce jsou napsané. Obsah japonského souboru by mohl být následující:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Protože počítač očekává, že obsah bude v ruštině, váš textový editor by to taky mohl klidně zobrazit takto:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Nicméně i toto je na hony vzdáleno ruštině, jsou to japonské znaky mylně zobrazené jakožto ruské znaky.
Stejně jako jakákoliv jiná aplikace, je aplikace OmegaT vystavena tomuto problému. OmegaT může jen předpokládat, že při výchozím nastavení soubory s prostým textem lze zobrazit za použití výchozího systémového nastavení. Toto funguje bezchybně u počítače, který pracuje ve francouzštině a pokud dostanete anglické soubory, nebo když počítač je německý a vy dostanete italské soubory.
Proč by to fungovalo s angličtinou a francouzštinou, ale ne s ruštinou a japonštinou? Protože angličtina a francouzština používají společnou znakovou sadu. Jmenovitě Latin-1 nebo nějakou její variantu. Ruština a japonština ještě donedávna nepoužívali žádné společné znakové sady. Většina současných ruských znakových sad nepokrývá japonštinu a opačně. Výsledek je tedy takový, jak jste viděli výše.
Japonský klient pracuje s japonským počítačem a vytváří textové soubory, které obsahují japonštinu. Výběr znakové sady počítačem klienta bude záležet na operačním systému a na jiných nastaveních, ale je velmi nepravděpodobné, že vybraná (japonská) znaková sada bude správně interpretovaná ruským počítačem.
Takže způsob, jak budou textové informace v zadané znakové sadě fyzicky přenesené (tj. jaký je numerický kód počítač používá k interpretaci a zobrazení) záleží právě na daném kódování. Když počítač čte soubor, „dekóduje“ informace podle kódování a zobrazí je podle znakové sady. Podtrženo sečteno, jedno kódování odpovídá jedné znakové sadě ...
V programu OmegaT jsou v podstatě k dispozici tři způsoby jak na věc. Všechny zahrnují použití Filtrů souborů z nabídky menu Možnosti.
.txt
- : v části Textové soubory okna Filtry souborů, změňte Kódování zdrojového souboru z <auto> na kódování odpovídající vašemu zdrojovému souboru .txt
..txt
na .jp
pro soubory v japonštině): V části Textové soubory okna Filtry souborů, přidejte nový Vzor pro názvy zdrojových souborů (např. *.jp)
a vyberte vhodné parametry pro kódování zdroje a cíle..txt
na .utf8
. OmegaT bude soubor automaticky interpretovat jako soubor v kódování UTF-8.Ve výchozím nastavení má OmegaT k dispozici následující krátký seznam, aby pro vás bylo jednodušší zpracovávat některé soubory s prostým textem:
.txt
jsou v OmegaT automaticky (auto) interpretované jako kódované v předvoleném kódování počítače..txt1
jsou soubory v ISO-8859-1, kryjící většinu jazyků Západní Evropy..txt2
jsou soubory v ISO-8859-2, což kryje většinu jazyků Střední a Východní Evropy)..utf8
jsou v OmegaT interpretované jako v kódování UTF-8 (kódování, které pokrývá téměř všechny jazyky světa).Můžete si to ověřit sami tak, že označíte položku Filtry souborů v menu Možnosti. Například když máte soubor v češtině (velmi pravděpodobně napsaný v kódování ISO-8859-2), pak jednoduše potřebujete jen změnit koncovku .txt
na .txt2
a OmegaT bude interpretovat obsah souboru správně. A zajisté, když si chcete být zcela jistí, převeďte tyto soubory do kódování Unicode, t.j. do souborového formátu .utf8.
Právní poznámky | Obsah | Tematický rejstřík |