原文の分節化

翻訳メモリツールは、分節と呼ばれるテキスト単位で処理を行います。OmegaT がテキストを分節化する方法は 2 つあります。段落単位、または文単位の分節化です。分節化の方法を選択するには、メインメニューから[プロジェクト]→[設定...]を開き、表示されるチェックボックスを使用してください。段落単位の分節化は、現在はほとんど使われておらず、多くのプロジェクトでは、文単位の分節化を選択することがより望ましいということに注意してください。文単位の分節化を選択した場合、分節化規則は、メインメニューの[設定]→[分節化...]で設定できます。

信頼できる分節化規則の構築に、多くのテスト時間が費やされているので、ほとんどの場合、新たな独自ルールを作成する必要はありません。一方、本来そのままにしておくべき内容を変更してしまう危険を冒すことなく、翻訳すべき内容を翻訳できるため、この機能はとても便利です。

警告! プロジェクトを開いているときにフィルタ設定を変更すると、データを損失する恐れがあります。プロジェクトを開いているときに分節化の設定を変更すると、変更を適用するためにプロジェクトの再読み込みが必要になる場合があります。


構造単位の分節化

OmegaT は、まず構造単位の分節化を行うため、文書の構文を解析します。この処理の間は、分節作成のために参照される内容は、原文ファイルの構造のみです。

例えば、テキストファイルの場合は、改行で分節化するか、空行で分節化するか、または、全く分節化しないかのいずれかです。見映えの情報を持ったファイル(OpenOffice.org 文書、HTML 文書など) は、段落タグを基準に分節化されます。XHTML または HTML ファイル中の、翻訳可能なオブジェクトの 属性 は、分けられた分節として抽出できます。


文単位の分節化

原文ファイルを論理的な区切りで分節化した後、OmegaT はさらにそれらを文単位で分節化します。

分節化規則

分節化の流れは以下のように示すことができます:テキスト中を 1 文字ずつ動くカーソルをイメージしてください。それぞれのカーソル位置で、与えられた順序で規則を適用できるかどうかをチェックします。 分節前の 構成例が、カーソル位置の左側にあるテキスト全体について、 分節後の 構成例が、カーソル位置の右側にあるテキストについて、その規則が適用できるかどうかを確認します。規則が適用できる場合、もしそれが「例外」規則の場合は、そこで適用のチェックを中止します。もし「分節」規則の場合は、(その左側のテキストを)分けて、新しい分節とします。

文単位の分節化機能は、Segmentation Rules eXchange (SRX) 規格を考慮して実装されています。ただし全ての SRX の機能に対応しているわけではありません。また、SRX フォーマットで定義された規則の、外部からの読み込みと、外部への書き出しには対応していません。しかし SRX の仕組みを理解している人は、すでに、OmegaT がどうやって分節化するかをほとんど理解していることでしょう。

規則には 2 つの種類があります:

既存の分節規則は、ほとんどのヨーロッパ言語と日本語に対して十分なはずです。翻訳しようとする言語に対して、より意味のあるわかりやすい分節化を行うために、さらに柔軟に例外規則を追加してもよいでしょう。

分節化規則の設定

優先順位

言語の構成例について一致する分節化規則は、すべて与えられた優先順で適用されます。したがって、特定の言語のために設定した規則は、デフォルトのものより高い優先順位を与えるほうがよいでしょう。例えば、カナダフランス語(FR-CA)用の規則は、フランス語(FR.*)用の規則よりも優先され、さらにデフォルト(.*)の規則よりも優先されます。この場合、カナダフランス語を原文とするプロジェクトでは、カナダフランス語に定義された規則、フランス語の規則、デフォルトの規則、という適切な順序で適用されます。

規則の作成

規則群を編集するには、分節化設定ウィンドウ上部にある表から、まずその名称をクリックします。ウィンドウ下部に選択した規則群の内容が表示されます。

新しい言語の構成例に対する規則群を追加するには、上部の表の横にある [追加] をクリックしてください。表の最下部に新しい行が作成されます。(確認のために下までスクロールさせる必要があるでしょう)言語名と、言語コードの構成例を変更してください。定義する構成例の文法は 正規表現 の文法に従います。作成する規則群が、言語-地域ペアに対するものである場合、[上へ] ボタンを使って、先頭に移動させておくことをおすすめします。 

改行/例外

[分節 / 例外]チェックボックスでは、分節規則(チェックを入れる)または例外規則(チェックを外す)いずれであるかを指定します。[分節前の構成例]と[分節後の構成例]の 2 つの正規表現は、分節規則または例外規則が適用される場合に、その位置の前後がどのような状態であるべきかを指定します。

簡単な設定例

目的

分節前の構成例

分節後の構成例

備考

ピリオド('.')の後ろとスペースの前で分節を作る

\.

\s

"\." は文字 "." を表します。"\s" は任意の空白文字を表します。

Mr. の後では分節化しない

Mr\.

\s

例外規則であるため[分節 / 例外]のチェックは外しておく必要があります。

"。"(日本語の句点)の後ろで分節化する

[分節後の構成例] は空欄としておいてください。

M. Mr. Mrs. と Ms. の後ろでは分節化しない

Mr??s??\.

\s

例外規則です。? 文字の使用方法については下欄で示した正規表現「最長一致数量子」の項を参照してください。


正規表現における構文

分節化規則で使用する正規表現は、Java でサポートされているものです。概略については、正規表現における構文を参照してください。より詳細な情報については http://java.sun.com/j2se/1.5.0/ja/docs/ja/api/java/util/regex/Pattern.html を参照してください。

簡単なチュートリアルが(例えば http://www.regular-expressions.info/quickstart.html のように) Web でも参照できます。


法律上の表示 ホーム 索引