タグ

抽出に関するinaokのブックマーク (2)

  • mito2003_wx

    WX法は、データを最小構成要素(以下これをUnitと呼ぶ)に分解するアルゴリズムです。 Unitは例えば、自然言語で言えば、単語などに相当し、DNAの配列情報で言えばコドンに相当します。 様々なデータに対してそれぞれのUnitを一つ一つ定義するのはコストがかかる上、柔軟性がありません。そこで、Unitは、その内部に、さらに小さい構成要素を持たないという定義とします。 WX法は、データから、統計情報を用いて、そのような独立した部分列を抽出し、全データを上の評価基準で尤も的確な形に分解するアルゴリズムです。 WX法は次の五つのステップからなります (i) 全ての部分列を列挙する (ii) それぞれの部分列に対し、Unitらしさを表す評価値を与える (iii) (ii)の評価値を用いて、Unit分解を行う (iv) (iii)の結果を用いて評価値を再計算する (v) 収束するまで(

  • suffix array

    更新履歴 2004/01/07  O(N) 構築アルゴリズム三種追加(Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。 ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報(例えば、単語の出現回数など)を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。 膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。 また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分(例えばCCAG)を調べるといった場合

  • 1