Práce s prostým textem


Výchozí kódování

Soubory obsahující prostý text - ve většině případů s koncovkou .txt - obsahují výhradně textové informace. Obecně neexistuje způsob, jak informovat počítač o jazyku souboru. Zjednodušeně řečeno počítač předpokládá, že text je napsán ve stejném jazyce, který on sám používá.


Nesprávné zobrazování znaků

Pokud jste Rus, je velmi pravděpodobné, že váš počítač pracuje též v ruštině: menu jsou v ruštině, soubory, které otevíráte budou v ruštině atd. Ve většině případů počítač správně předpokládá s ohledem na obsah souborů zhruba toto: všechny tyto soubory obsahují ruštinu a neobsahují nic, co by ruské znaky nemohli zobrazit.

Nyní, pokud jste ruský překladatel, který překládá z japonštiny, dostanete japonské soubory, pokud jsou to soubory s prostým textem, tak budou s největší pravděpodobností počítačem považované za soubory, které obsahují ruštinu. Protože zde chybí informace v samotném souboru, která by počítači prozradila, ve kterém jazyce jsou napsané. Obsah japonského souboru by mohl být následující:

OmegaTとは、コンピュータを利用した翻訳ツールです。


Protože počítač očekává, že obsah bude v ruštině, váš textový editor by to taky mohl klidně zobrazit takto:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB


Nicméně i toto je na hony vzdáleno ruštině, jsou to japonské znaky mylně zobrazené jakožto ruské znaky.

Stejně jako jakákoliv jiná aplikace, je aplikace OmegaT vystavena tomuto problému. OmegaT může jen předpokládat, že při výchozím nastavení soubory s prostým textem lze zobrazit za použití výchozího systémového nastavení. Toto funguje bezchybně u počítače, který pracuje ve francouzštině a pokud dostanete anglické soubory, nebo když počítač je německý a vy dostanete italské soubory.


Znakové sady a kódování

Proč by to fungovalo s angličtinou a francouzštinou, ale ne s ruštinou a japonštinou? Protože angličtina a francouzština používají společnou znakovou sadu. Jmenovitě Latin-1 nebo nějakou její variantu. Ruština a japonština ještě donedávna nepoužívali žádné společné znakové sady. Většina současných ruských znakových sad nepokrývá japonštinu a opačně. Výsledek je tedy takový, jak jste viděli výše.

Japonský klient pracuje s japonským počítačem a vytváří textové soubory, které obsahují japonštinu. Výběr znakové sady počítačem klienta bude záležet na operačním systému a na jiných nastaveních, ale je velmi nepravděpodobné, že vybraná (japonská) znaková sada bude správně interpretovaná ruským počítačem.

Takže způsob, jak budou textové informace v zadané znakové sadě fyzicky přenesené (tj. jaký je numerický kód počítač používá k interpretaci a zobrazení) záleží právě na daném kódování. Když počítač čte soubor, „dekóduje“ informace podle kódování a zobrazí je podle znakové sady. Podtrženo sečteno, jedno kódování odpovídá jedné znakové sadě ...


Řešení pomocí OmegaT

V programu OmegaT jsou v podstatě k dispozici tři způsoby jak na věc. Všechny zahrnují použití Filtrů souborů z nabídky menu Možnosti.

  1. Zadejte kódování vašich souborů v obsahujících prostý text - t.j. soubory s koncovkou .txt - : v části Textové soubory okna Filtry souborů, změňte Kódování zdrojového souboru z <auto> na kódování odpovídající vašemu zdrojovému souboru .txt.
  2. Změňte koncovky vašich souborů obsahujících prostý text (například z .txt na .jp pro soubory v japonštině): V části Textové soubory okna Filtry souborů, přidejte nový Vzor pro názvy zdrojových souborů (např. *.jp) a vyberte vhodné parametry pro kódování zdroje a cíle.
  3. Změna kódování vašich souborů na Unicode: otevřete svůj zdrojový soubor v textovém editoru, který správně interpretuje kódování souboru a uložte soubor s kódováním „UTF-8“. Změňte koncovku souboru z .txt na .utf8. OmegaT bude soubor automaticky interpretovat jako soubor v kódování UTF-8.

Ve výchozím nastavení má OmegaT k dispozici následující krátký seznam, aby pro vás bylo jednodušší zpracovávat některé soubory s prostým textem:

Můžete si to ověřit sami tak, že označíte položku Filtry souborů v menu Možnosti. Například když máte soubor v češtině (velmi pravděpodobně napsaný v kódování ISO-8859-2), pak jednoduše potřebujete jen změnit koncovku .txt na .txt2a OmegaT bude interpretovat obsah souboru správně. A zajisté, když si chcete být zcela jistí, převeďte tyto soubory do kódování Unicode, t.j. do souborového formátu .utf8.


Právní poznámky Obsah Tematický rejstřík