授業資料/Himawariの正規表現
をテンプレートにして作成
開始行:
*「ひまわり」正規表現検索のコツ [#ta189c3d]
RIGHT:小木曽 ogiso@ogiso.net
「ひまわり」で正規表現を使った検索をするときのコツです。
**正規表現をフルに使って検索するには [#u203494f]
モードを切り替えて「本文(grep)」で検索すればほとんどの...
この場合、インデックスを使用しないので、検索速度は遅くな...
**「ひまわり」の通常(本文)検索で使える正規表現 [#t5eb8f...
「ひまわり」で通常(本文)検索(インデックスを利用した検...
:検索文字列(キー)に使える正規表現|
通常の文字と列挙型の文字クラス。([国國] [らりるれろ]など...
:前文脈・後文脈で使える正規表現|
javaの正規表現ならすべて利用可能。&br;(範囲指定型の文字...
参考URL: https://docs.oracle.com/javase/jp/6/api/java/ut...
キーに使える正規表現に制限があるのは、検索を速くするため...
キー・前文脈・後文脈の三つの部分に分かれているので、それ...
**正規表現による字種指定 [#b66507a1]
文字種を指定するには大きく分けて二通りの方法があります。
+文字クラスによる字種指定
|[ぁ-ん]|ひらがな|
|[ァ-ヴ]|カタカナ|
|[一-龠]((Unicodeの範囲で指定するので[亜-熙]ではありませ...
|[0-9]|半角数字|
|[A-Za-z]|半角アルファベット|
+Unicodeプロパティ、Unicodeブロックによる字種指定
-前後文脈ではUnicodeプロパティ、Unicodeブロックを使った文...
--https://www.unicode.org/Public/UNIDATA/Blocks.txt
--https://www.unicode.org/charts/
-Unicodeプロパティを使うと文字クラスよりはっきりと文字種...
|\p{InCJKUnifiedIdeographs}|漢字(CJK統合漢字)|
|\p{InHiragana}|ひらがな|
|\p{InKatakana}|カタカナ|
|\p{N}|数字|
|\p{P}|句読点|
|\p{S}|記号|
**テクニック [#u180f317]
調べたい語に対応する正規表現を思いついても、それをそのま...
***キーと前後文脈にうまく分けてやる [#g30cf777]
-キーに入れられない正規表現を前後文脈に入れることでインデ...
-例:漢語サ変動詞を検索する場合
--キー“[一-龠][一-龠]する”で検索しても(インデックスを利...
--前文脈“[一-龠][一-龠]”で終わる,キー“する”の二つに分け...
-キー・前文脈・後文脈の三つの部分にどのように割り振るかが...
-検索オプションの「前文脈を含む」「後文脈を含む」をうまく...
***無理をしないで2回以上に分ける [#ke51407f]
-一度には検索できない場合でも2回以上に分ければ検索できる...
-検索結果を表計算ソフト(Excelなど)に貼り付けた下に、次...
&counter;
終了行:
*「ひまわり」正規表現検索のコツ [#ta189c3d]
RIGHT:小木曽 ogiso@ogiso.net
「ひまわり」で正規表現を使った検索をするときのコツです。
**正規表現をフルに使って検索するには [#u203494f]
モードを切り替えて「本文(grep)」で検索すればほとんどの...
この場合、インデックスを使用しないので、検索速度は遅くな...
**「ひまわり」の通常(本文)検索で使える正規表現 [#t5eb8f...
「ひまわり」で通常(本文)検索(インデックスを利用した検...
:検索文字列(キー)に使える正規表現|
通常の文字と列挙型の文字クラス。([国國] [らりるれろ]など...
:前文脈・後文脈で使える正規表現|
javaの正規表現ならすべて利用可能。&br;(範囲指定型の文字...
参考URL: https://docs.oracle.com/javase/jp/6/api/java/ut...
キーに使える正規表現に制限があるのは、検索を速くするため...
キー・前文脈・後文脈の三つの部分に分かれているので、それ...
**正規表現による字種指定 [#b66507a1]
文字種を指定するには大きく分けて二通りの方法があります。
+文字クラスによる字種指定
|[ぁ-ん]|ひらがな|
|[ァ-ヴ]|カタカナ|
|[一-龠]((Unicodeの範囲で指定するので[亜-熙]ではありませ...
|[0-9]|半角数字|
|[A-Za-z]|半角アルファベット|
+Unicodeプロパティ、Unicodeブロックによる字種指定
-前後文脈ではUnicodeプロパティ、Unicodeブロックを使った文...
--https://www.unicode.org/Public/UNIDATA/Blocks.txt
--https://www.unicode.org/charts/
-Unicodeプロパティを使うと文字クラスよりはっきりと文字種...
|\p{InCJKUnifiedIdeographs}|漢字(CJK統合漢字)|
|\p{InHiragana}|ひらがな|
|\p{InKatakana}|カタカナ|
|\p{N}|数字|
|\p{P}|句読点|
|\p{S}|記号|
**テクニック [#u180f317]
調べたい語に対応する正規表現を思いついても、それをそのま...
***キーと前後文脈にうまく分けてやる [#g30cf777]
-キーに入れられない正規表現を前後文脈に入れることでインデ...
-例:漢語サ変動詞を検索する場合
--キー“[一-龠][一-龠]する”で検索しても(インデックスを利...
--前文脈“[一-龠][一-龠]”で終わる,キー“する”の二つに分け...
-キー・前文脈・後文脈の三つの部分にどのように割り振るかが...
-検索オプションの「前文脈を含む」「後文脈を含む」をうまく...
***無理をしないで2回以上に分ける [#ke51407f]
-一度には検索できない場合でも2回以上に分ければ検索できる...
-検索結果を表計算ソフト(Excelなど)に貼り付けた下に、次...
&counter;
ページ名: