Regulární výrazy (uváděné i zkráceně jako ‚regex‘ - z anglického ‚REGular Expressions‘) používané při vyhledávání a v segmentačních pravidlech jsou právě ty, které podporuje Java. Pokud potřebujete bližší informace, navštivte prosím tuto stránku: http://java.sun.com/j2se/1.5/docs/api/java/util/regex/Pattern.html. Vizte dodatečné odkazy a příklady níže.
Pojem ... |
... znamená: |
Označení |
|
|
Umožňuje hledání bez ohledu na velikost písmen (ve výchozím nastavení se rozlišují velká a malá písmena). |
Znaky |
|
|
Znak x, s výjimkou následujících... |
|
Znak s hexadecimální hodnotou |
|
Znak tabulátoru ( |
|
Znak nového řádku (konce řádku) ( |
|
Znak návratu vozíku ( |
\f |
Znak posunu o stránku (‚\u000C‘) |
\a |
Znak zvukové signalizace (‚\u0007‘) |
\e |
Znak změny (‚\u001B‘) |
\cx |
Řídící znak odpovídající x |
\0n |
Znak s oktalovou/osmičkovou hodnotou 0n (0 <= n <= 7) |
\0nn |
Znak s oktalovou/osmičkovou hodnotou 0nn (0 <= n <= 7) |
\0mnn |
Znak s oktalovou/osmičkovou hodnotou 0mnn (0 <= m <= 3, 0 <= n <= 7) |
\xhh |
Znak s hexadecimální/šestnáctkovou hodnotou 0xhhhh |
Uvozující znaky |
|
|
Lomítko samo o sobě neznamená nic, jen uvozuje následující znak. Je vyžadováno, pokud byste chtěli zadání metaznaků |
|
Například toto je znak pro hledání zpětného lomítka |
|
Nic neznamená, vymezuje všechny znaky až po |
|
Nic neznamená, ukončuje vymezení započaté pomocí \Q |
Třídy sad a kategorií kódování Unicode |
|
|
Znak v řecké sadě (jednoduchá sada) |
|
Velké písmeno (jednoduchá kategorie) |
|
Symbol měny |
|
Jakýkoliv znak mimo nějakého z Řecké sady (negace) |
|
Jakékoliv písmeno mimo velkých (odečítání) |
Třídy znaků |
|
|
|
|
Jakýkoliv znak mimo |
|
|
Předdefinované třídy znaků |
|
|
Jakýkoliv znak (kromě znaků ukončujících řádek) |
|
Číslice: |
|
Ne-číslice: |
|
Tzv. bílý znak (např. mezera): |
|
Negace bílého znaku (např. ne-mezera): |
|
Znak slova: |
|
Znak ne-slova: |
Označení hranic |
|
|
Začátek řádku |
|
Konec řádku |
|
Hranice slova |
|
Hranice ne-slova |
Hladové kvantifikátory |
|
Tyto budou zahrnovat tolik, kolik jen mohou. Například: |
|
X |
X, jednou nebo vůbec |
X |
X, nula nebo vícekrát |
X |
X, jednou nebo vícekrát |
Líné kvantifikátory |
|
Tyto budou zahrnovat tak málo, jak jen mohou. Například: |
|
X |
X, jednou nebo vůbec |
X |
X, nula nebo vícekrát |
X |
X, jednou nebo vícekrát |
Logické operátory |
|
XY |
X následované Y |
X |
Buď X, a nebo Y |
|
XY jako samostatná skupina |
Regulární výraz | Nalezne následující: |
(\b\w+\b)\s\1\b |
zdvojený výskyt slova |
[\.,]\s*[\.,]+ | pomíchané čárky a tečky |
\. \s$ | mezery navíc, za nimiž je tečka na konci řádku |
\s+a\s+[aeiou] | Pro angličtinu: u slov začínajících na samohlásku se užívá neurčitý člen „an“, ne „a“ |
\s+an\s+[^aeiou] | Pro angličtinu: stejná kontrola jako nahoře, ale pro souhlásky („a“, ne „an“) |
\s\s+ | víc než jedna mezera |
\.[A-Z] | chybějící mezera mezi tečkou a začátkem nové věty |
Právní poznámky | Obsah | Tematický rejstřík |