[B! 全文検索] seal2501のブックマーク

seal2501 id:seal2501

全文検索に関するseal2501のブックマーク (2)

Elasticsearchのひらがなでの検索時のトリックについて雑談 - はてだBlog（仮称）
はじめに Elasticsearch(kuromoji)では、アナライザーに「kuromoji_readingform」というものがあり、これを使うと「読み」に関して、表記揺れや曖昧検索相当に対応できます。ただし、この「読み」部分については、実は、kuromojiの形態素解析(分かち書き/token化)とセットになる話なので、一番ベーシックなアナライズの設定組み合わせの範囲では実は次のようなことが発生します。「渡辺」「渡邊」のような「端」「橋」のような、（そのようになるように検索クエリを用いれば）期待どおり互いに検索時にヒットする一方で、ひらがな「わたなべ」で、漢字の「渡辺」や「渡邊」を（ただしく読めていると思われるにもかかわらず）これらをヒットさせられないこれは、「読み」は当てられているものの、形態素解析でトークン化されたものに対して、転置インデックスの各エントリに対して当ては
seal2501 2024/03/12
Elasticsearch

全文検索
リンク
乗るしかないこのビッグウェーブに〜Gatsby 移行〜 – ちとくのホームページ
2019/02 まで WordPress で管理していた chitoku.jp ですがこの度 Gatsby に移行しました！ TL;DRGatsby で TypeScript なら gatsby-plugin-ts-loader + tsconfig-paths-webpack-pluginAlgolia で日本語の検索をするときは Keep diacritics on characters に注意babel-plugin-react-intl-auto に出した PR がマージされた1gatsby-transf ormer-remark に出した PR がマージされた2remark-grid-tables に出した PR がマージされた3Gatsby の IE サポートは半分嘘なので残り半分は自分でやるGatsby とはGatsby は React 製の静的サイトジェネレーターです。Mar
seal2501 2024/03/09
昔と挙動変わったのかな... それとも自分の投入データが意図した通りトークナイズできてないだけ？ “Remove all diacritics (eg accents) が日本語の濁点・半濁点を対象としており、「ハハ」と「パパ」が区別なく検索される”

全文検索
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx