タグ

異体字に関するmhrsのブックマーク (2)

  • 検索での異体字処理

    漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。 (1) 異体字・誤字・通仮字の「マーク付け」 テキスト入力時に異体字や誤字の情報をXMLなどによってマーク付けします。そして検索用インデックスの作成時にマークで示される代替テキストの方をインデックス用のテキストとして置き換えます。 (2) 検索対象テキスト・検索キーの「フィルタリング」 テキスト中の異体字に対し、検索用インデックス作成時および検索キー入力時に、より一般的な漢字に置換したり、異体字選択子などの除去を行います。 (3) 検索時の「複数候補での検索」 異体字とは言えないものの、よく混同される漢字について、複数の候補で検索をします(「云う」と「言う」など)。 異体字フィルタ(Apache Lucene) 以下は、Apache Lucene にて転置インデックスを作成する際に、異体字をフィル

    mhrs
    mhrs 2009/03/14
    “漢字の検索において、異体字・誤字などを考慮するには、以下の3種類の処理を行う必要があります。”
  • 異体字リスト

    小池和夫氏の異体字リスト sz4k-kik@asahi-net.or.jp JIS X 0208:1997 の参照ポインタに若干の追加を行った。 概ね、常用漢字、旧字、その他の異体字の順で並べたが、 一部疑問点もある。明朝体の場合、JIS で旧字が包摂さ れていても実際上必要となる場合がある。 Wed, 20 Aug 1997 11:09:55 (@マークは右の東京大学分にないもの) ア 1601 亜 4819 亞 1613 悪 5608 惡 1618 芦 7335 蘆 1619 鯵 8245 鰺 1621 圧 5258 壓 1635 庵 7231 菴 イ 1647 囲 5203 圍 1657 為 6410 爲 1669 医 7848 醫 1673 育 6158 毓 1676 一 4801 弌 1677 壱 5269 壹 1680 稲 6743 稻 1691 飲 6127 飮 1692

  • 1