TM-Werkzeuge arbeiten mit Texteinheiten namens Segmente. OmegaT hat 2 Wege, einen Text zu segmentieren: Absatzsegmentierung und Satzsegmentierung. Um den Typ der Segmentierung festzulegen, wählen Sie Projekt → Eigenschaften... und verwenden Sie das dafür verfügbare Kontrollkästchen. Bedenken Sie, dass die Absatzsegmentierung ziemlich überholt ist und für die Mehrheit der Projekte die Satzsegmentierung vorzuziehen ist. Haben Sie sich für die Satz-Segmentierung entschieden, können Sie die Regeln dazu im Hauptmenü Optionen → Segmentierung... auswählen.
Bedenken Sie, dass in die Entwicklung zuverlässiger Segmentierungsregeln viel investiert wurde, so dass Sie in den meisten Fällen keine eigenen Segmentierungsregeln schreiben müssen. Andererseits kann diese Funktionalität in speziellen Fällen sehr nützlich sein, da sie es Ihnen erlaubt zu übersetzen, was übersetzt werden muss ohne Gefahr zu laufen, etwas zu ändern, was ungeändert bleiben muss.
Warnung! Das Ändern der Filteroptionen bei geöffnetem Projekt kann zu Datenverlust führen. Ändern Sie in einem geöffneten Projekt die Segmentierungsoptionen, werden Sie das Projekt erneut laden müssen, damit die Änderungen wirksam werden.
OmegaT analysiert den Text zuerst zur Segmentierung auf Strukturebene. Während dieses Prozesses wird für die Erzeugung der Segmente nur die Struktur der Quelldatei verwendet.
Zum Beispiel kann man Textdateien an Zeilenumbrüchen oder leeren Zeilen segmentieren oder überhaupt nicht. Dateien mit der Formatierung (OpenOffice.org Dokumente, HTML-Dokumente, usw. ) werden auf Blockebene (Absatz) segmentiert. Übersetzbare Objekt-Eigenschaften in XHTML oder HTML Dateien können als separate Segmente abgetrennt werden.
Nach der Segmentierung der Quelldatei in logische Einheiten wird OmegaT diese Blöcke weiter in Sätze segmentieren.
Der Prozess der Segmentierung kann wie folgt dargestellt werden: stellen Sie sich vor, dass der Cursor sich am Text entlang, ein Zeichen pro Schritt bewegt. Bei jeder Cursor-Position werden alle Regel in der vorgegebenen Reihenfolge überprüft, um zu sehen, ob die Position für den Text links dem Bevor Muster und für den Text rechts dem Nachher entspricht. Wenn eine von Regel erfüllt wird, hört das Programm auf, die Ausnahme-Regel zu überprüfen, und erzeugt ein neues Segment (für die Umbruchregel).
Die Satzsegmentierung wurde mit der Hilfe des Standards Segmentation Rules eXchange (SRX) umgesetzt - bedenken Sie, dass nicht alle SRX Funktionen unterstützt werden. Es ist auch nicht möglich die Regel im SRC Format zu importieren bzw. zu exportieren. Wenn Sie aber wissen, wie SRX arbeitet, wissen Sie schon viel darüber, wie OmegaT segmentiert.
Es gibt zwei Arten von Regeln:
Die Umbruchregel trennen den Quelltext in Segmente. Zum Beispiel: "Machte es Sinn? Ich war nicht sicher." sollte in zwei Segmente getrennt werden, was bedeutet, es sollte einen Umbruchregel für "?
" geben.
Ausnahmeregeln bestimmen, wann gewisse Textteile NICHT zu trennen sind. Trotz des Punktes sollte "Mrs. Dalloway " nicht in zwei Segmente zerfallen (und auch nicht Mr. und Dr. usw.) mit dem angehängten Punkt.
Die vordefinierten Umbruchregel sollten für die meisten europäischen Sprachen und Japanisch genügen. In Anbetracht der Flexibilität können Sie für die Sprachen, aus denen Sie übersetzen, zusätzliche Ausnahmeregeln definieren, um vernünftigere und schlüssigere Segmente zu haben.
Alle Segmentierungsregelsätze mit einem zusammenpassenden Sprachmuster werden in der gegebenen Reihenfolge der Priorität angewandt, folglich sollten die Regel für die spezifische Sprache höher stehen als die Standardregeln. Zum Beispiel sollten die Regel für die kanadische französische Sprache (FR-CA) höher als die Regel für Französisch (FR. *) und die höher als die Standardregel (. *) stehen. Wird es aus Kanadisch-Französisch übersetzt, dann wird Ihr Projekt als Erstes die Regel für diese Sprache, danach die Regel für Französisch und am Ende die Standardregel anwenden.
Um eine bestehenden Regelsatz zu bearbeiten oder zu erweitern, klicken Sie einfach in der oberen Hälfte des Dialogs darauf. Der Regelsatz erscheint in der unteren Hälfte des Fensters.
Um einen leeren Regelsatz für eine neue Sprache zu erzeugen, klicken Sie auf , Hinzufügen in der oberen Hälfte des Dialogs. Eine leere Zeile erscheint am unteren Rand der Tabelle oben (es kann sein, dass Sie nach unten scrollen müssen, um sie zu sehen). Ändern Sie den Namen des Regelsatzes und des Sprachmusters. Die Syntax für das Sprachmuster folgt der Syntax für Reguläre Ausdrücke. Betrifft der Regelsatz ein Sprachpaar, empfehlen wir, den Satz mit der Taste Nach oben nach oben zu versetzen.
Das Umbruch/Ausnahme Wahlkästchen bestimmt, ob es sich um eine Umbruch- (eingeschaltet) oder eine Ausnahmeregel (ausgeschaltet) handelt. Zwei reguläre Ausdrücke, Vorher und Nachher, geben an, wie die Umgebung vor und nach der Position aussehen muss, um die Stelle für eine Umbruch- bzw. Ausnahmeregel zu qualifizieren.
Absicht |
Vorher |
Nachher |
Hinweis |
Segment nach dem Punkt (' |
|
|
" |
nicht segmentieren nach Mr. |
|
|
Es handelt sich um eine Ausnahmeregel, deswegen kein Häkchen im Wahlkästchen. |
Segment nach dem Zeichen "。" (japanischer Punkt) setzen |
|
Bedenken Sie: Nachher ist leer |
|
nicht segmentieren nach M. Mr. Mrs. und Ms. |
|
|
Ausnahmeregel - siehe den Einsatz von ? in regulären Ausdrücken (nicht gieriger Idenfizierer) |
Die bei der Segmentierung verwendeten regulären Ausdrücke entsprechen den von Java unterstützten Ausdrücken. Ein kurze Zusammenfassung ist in der Anlage Konstruktionen mit regulären Ausdrücken zu finden. Wenden Sie sich an http://java.sun.com/j2se/1.4.2/docs/api/java/util/regex/Pattern.html, wenn Sie genauere Informationen benötigen.
Im Netz stehen einfache Einführungen zur Verfügung (z.B.http://www.regular-expressions.info/quickstart.html).
Rechtliche Hinweise | Home | Index des Inhalts |