漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。 (1) 異体字・誤字・通仮字の「マーク付け」 テキスト入力時に異体字や誤字の情報をXMLなどによってマーク付けします。そして検索用インデックスの作成時にマークで示される代替テキストの方をインデックス用のテキストとして置き換えます。 (2) 検索対象テキスト・検索キーの「フィルタリング」 テキスト中の異体字に対し、検索用インデックス作成時および検索キー入力時に、より一般的な漢字に置換したり、異体字選択子などの除去を行います。 (3) 検索時の「複数候補での検索」 異体字とは言えないものの、よく混同される漢字について、複数の候補で検索をします(「云う」と「言う」など)。 異体字フィルタ(Apache Lucene) 以下は、Apache Lucene にて転置インデックスを作成する際に、異体字をフィル