詳細検索 「絞り込み条件」をあらかじめ表示した検索画面です。多数の条件を組み合わせた高度な検索が可能です。
あなたの知りたいこと、ココロがいっしょに探します♪話題のアニメ、人気のゲームやコミック、可愛いフィギュア、素敵な声優さんなどなど....ココロがいっしょうけんめい探します!
[ group_num = "10" ] NOT [ public_flag = "0" ] の部分検索では次のような集合演算が見込まれます。 95万件のヒット結果集合 NOT 4万件のヒット結果集合 ここは、95万×4万で380億回のNOT演算が必要になります。この結果を94万件とすると、"地磁気センサー"の検索結果集合とのAND処理に、さらに400×94万=37億6千万回の処理が必要になります。合計すると約418億回の論理演算が必要になります。 グループ番号10の文書が多いという分布は、裏をかえせばグループ番号10以外が少ない(5%)ことになります。そこで、"地磁気センサー"の検索結果に対して、グループ番号10以外を除き、さらに非公開の文書を除くという方法で検索を行えば極めて少ない部分集合同士の論理演算で検索を済ませます。この場合の検索式は次のようになります。 ("地磁気センサー" N
全文検索エンジンは、文書ファイルからテキスト情報を抽出して、インデックスを作成することで、高速に全文検索を行えるようにするソフトウェアです。当然ながら文書ファイルからなんらかの手段でテキスト情報を抽出しない限り、次のインデックス作成の処理に移れません。今回から、一般の文書ファイルからテキスト情報を抽出するテーマを扱っていきます。 文書フィルタ 連載の第10回目にFINDSPOTではカスタマイズ性を向上させるために、文書フィルタという独立したプログラムを経由して文書ファイルからテキスト情報を抽出する構造になっていることを説明しました。独自のファイル型式を検索対象にしたいのならば、独自ファイル形式用の文書フィルタを用意すれば良いしくみです。 文書フィルタは引数で入力ファイル名と出力ファイル名を受け取り、入力ファイルを解析してテキスト情報を抽出し、UTF-8でエンコーディングされたFINDSPO
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS
前回は、FINDSPOTの開発を行うきっかけとなった問題意識の芽生えについて紹介しました。今回は、開発のきっかけや初期のコードがどのように進化していったのかについて紹介しましょう。 最初のコードは365行 2003年の6月にアメリカから出張帰りの飛行機の中で、ふと、アルゴリズムの勉強がてらUnicode(UTF-16)をベースにしたN-gram(エヌグラム)のインデックスによる検索のサンプルコードを書いてみようと思い立ちました。N-gramとは、N文字分の文字の連なりをキーとしてインデックスを作成する全文検索の古典的な手法です。 形態素解析による分かち書きでは、辞書にない語がうまく処理できない限界や、他言語への対応が難しいという問題があります。N-gramでは文字の連なりがインデックスのキーとなるので、形態素解析の分かち書きで作られた文字列キーよりもキーの数が大きくなります。しかしハードウ
研究結果「ネット検索すると頭が良くなる」:中高年の脳に好影響 2008年10月16日 サイエンス・テクノロジー コメント: トラックバック (0) Betsy Schiffman Photo:Flickr/Liz Henry カリフォルニア大学ロサンゼルス校(UCLA)の研究者たちが出した新しい研究結果によると、『Google』を使うと頭が悪くなるという話は全くのでたらめだという。 この研究は、『American Journal of Geriatric Psychiatry』(米国老年精神医学会誌)の来月号に掲載されるもので、55〜76歳のボランティアたちの脳回路が調査された。 [USA Todayの記事によると、調査対象となったのは24人で、そのうち半数が、ネット検索の体験が無い人だった。fMRI装置の下で「本を読む」と「ネット検索をする」の両方を行ない、脳の各部位の活動を測定した]
Operaが、ウェブ開発者がウェブページの構造を確認できる新しい検索エンジンを開発している。 「Metadata Analysis and Mining Application(MAMA)」検索エンジンにより、ウェブ開発者はどこでどの機能が使われているのか確認し、データを収集して、傾向を分析したり、発見したりできるようになる。 Operaはプレスリリースの中で、MAMAは、「どれだけのサイトがカスケーディングスタイルシート(CSS)を使っているのか?」といった一般的な疑問に答え、さらに「Web 2.0がどのくらい普及しているのか」といったより複雑な疑問にも答えられるよう取り組んでいくと述べた。 これは、ウェブページの裏側にあるコードやスタイル、テクノロジをインデックス化することにより実現される。 Operaによれば、MAMAはウェブ開発者を支援し、インスピレーションを与えるだけでなく、ブラ
Googleは米国時間10月13日、ドイツで2件の著作権侵害訴訟に敗訴した。しかし報道によると、同社は控訴する意向だという。 Bloombergニュースサービスによると、Michael Bernhard氏が、自ら所有する写真の1枚をGoogleにプレビューサムネイルとして無断使用されたとしてGoogleを提訴していた裁判で、ドイツの裁判所はGoogleの行為は著作権侵害に当たるとの裁定を下したという。 また別の裁判で、ドイツの裁判所は、同じく著作権侵害でGoogleを提訴していたThomas Horn氏に勝訴の判決を下した。同氏は、自分が著作権を保有するドイツの漫画をGoogleが検索結果に表示したとして提訴していた。 Bloombergによると、Bernhard氏の裁判で、裁判所は、サムネイルが元の画像に比べてはるかに小さいことや、解像度が低いことは問題ではないと裁定したという。 Goo
Welcome to the Xapian project website. Xapian is an Open Source Search Engine Library, released under the GPL v2+. It's written in C++, with bindings to allow use from Perl Python 2, Python 3, PHP, Java, Tcl, C#, Ruby, Lua, Erlang, Node.js and R (so far!) Xapian is a highly adaptable toolkit which allows developers to easily add advanced indexing and search facilities to their own applications. It
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く