I file di solo testo - nella maggior parte dei casi hanno un'estensione .txt
- contengono solo informazioni di tipo testuale. Non esiste un sistema chiaramente definito per indicare al computer in quale lingua sono stati scritti. In parole (molto) povere, ciò significa che il computer presupporrà, per impostazione predefinita, che il testo sia scritto nello stessa lingua usata dal sistema operativo.
Se si è russi, molto probabilmente il computer sul quale si opera lavorerà anch'esso in lingua russa: i menu saranno in russo, i file che si apriranno saranno in russo, e così via. Nella maggior parte dei casi, il computer prende le decisioni corrette per quanto riguarda il contenuto dei file, almeno in linea generale: contiene la lingua russa e sarà in grado di visualizzare solo i caratteri russi.
A questo punto, se si è un traduttore russo che traduce dal giapponese, i file giapponesi che riceverete, se sono in formato solo testo, verranno, con tutta probabilità, considerati dal computer come file associati alla lingua russa. E questo accade proprio perché i file di solo testo non contengono informazioni che indichino al computer in quale lingua sono stati scritti. Supponiamo che il contenuto giapponese del file sia:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Dato che il computer si aspetta che il contenuto del file sia in russo, il vostro editor di testo potrebbe visualizzarlo in questo modo
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Tuttavia, non è per nulla Russo, sono caratteri giapponesi visualizzati scorrettamente in caratteri cirillici.
Come qualsiasi altra applicazione, anche OmegaT presenta questo problema. Può solo presupporre che, per impostazione predefinita, i file di solo testo possano essere visualizzati tramite le impostazioni predefinite del sistema. Questo non genera problemi, fintanto che il computer lavora in francese, per esempio, e si aprono file in Inglese, o quando il computer è tedesco e si gestiscono file in Italiano.
Ma perché tutto funziona bene quando si lavora con l'Inglese e il Francese, ma non funziona col Russo e il Giapponese? La ragione sta nel fatto che l'inglese e il francese condividono lo stesso set di caratteri. In particolare, il set Latin-1, o una sua variante. Fino a poco tempo fa, Russo e Giapponese non condividevano alcun set di caratteri. La maggior parte dei comuni set di caratteri russi non riconoscono il giapponese, e viceversa. Il risultato finale è quello mostrato sopra.
Il cliente giapponese lavora con un computer giapponese, e crea i propri file di solo testo che contengono il set di caratteri giapponese. Il set di caratteri selezionato dal computer del cliente dipenderà dal sistema operativo e da altre impostazioni, ma sarà altamente improbabile che il set di caratteri selezionato (giapponese) venga correttamente interpretato dal computer russo.
Il modo in cui vengono fisicamente trasmesse le informazioni testuali nel set di caratteri specificato (per es., quali sono i codici numerici che il computer usa per interpretare e visualizzare il testo) dipende dalla codifica. Quando il computer legge il file, ne “decodifica” le informazioni in base alla propria codifica e li visualizza in base al proprio set di caratteri. Banalmente parlando, si potrebbe affermare che una codifica corrisponde a un particolare set di caratteri...
Ci sono fondamentalmente tre modi per affrontare questo problema in OmegaT. Tutti comportano l'applicazione di filtri di file nel menu Opzioni menu.
.txt
- : nella sezione File di testo della finestra di dialogo filtri dei file, modificare la Codifica del file sorgente da <auto> a quella corrispondente al file .txt
sorgente..txt
a .jp
per i file di solo testo in Giapponese): nella sezione File di testo della finestra di dialogo filtri dei file, aggiungere un nuovo Modello del nome del file sorgente (per esempio, *.jp)
e selezionare i corretti parametri per la codifica dei file sorgenti e di arrivo..txt
a .utf8
. OmegaT lo interpreterà automaticamente come file con codifica UTF-8.Per impostazione predefinita, OmegaT mette a disposizione il seguente breve elenco che facilita la gestione di alcuni tipi di file di solo testo:
.txt
sono automaticamente (<auto>) interpretati da OmegaT come se si trattasse di file codificati con la codifica predefinita del computer;.txt1
sono file ISO-8859-1, che copre la maggior parte delle lingue dell'Europa occidentale;.txt2
sono file in ISO-8859-2, che copre la maggior parte delle lingue dell'Europa centrale e orientale;.utf8
sono interpretati da OmegaT come se fossero codificati in UTF-8 (codifica che copre quasi tutti le lingue del mondo).Lo si potrà verificare di persona selezionando il comando Filtri dei file del menu Opzioni. Ad esempio, se si ha un file di testo scritto in Ceco (molto probabilmente con codifica ISO-8859-2), basta modificare l'estensione .txt
in .txt2
affinché OmegaT interpreti correttamente il suo contenuto. Naturalmente, per non correre rischi, si prenda in considerazione di convertire questi tipi di file in Unicode, ad es., nel formato di file .utf8.
Avvertenze legali | Pagina iniziale | Indice |