タグ

jonysandのブックマーク (3,429)

  • 最新のテーブルデータ向けNNモデルをまとめてみた

    はじめに 突然ですが、みなさんはテーブルデータの分類や回帰タスクを解くとき、どのようなモデルを使っていますか? とりあえずCPUベースですぐに動かせて、それなりの精度が出せる、LightGBMなどの勾配ブースティング決定木(GBDT)モデルでまずは試してみるという方が多いのではないでしょうか。 実際、Kaggleなどの機械学習コンペティションにおいても、テーブルデータに対してはGBDTを試す、というのがここ十年近くの王道となっていたと思います。 一方で、ニューラルネット(NN)ベースのモデルとしては、決定木的な挙動とNNモデルを組み合わせたTabNetなどのモデルが有名でしたが、計算コストが高く、パラメータの緻密な調整が必要で、それでいてGBDTに匹敵する性能が出ない場合もある、といったデメリットがネックとなり、広く使われていたとは言い難い状況だったと思います。 かくいう私も、「テーブルデ

    最新のテーブルデータ向けNNモデルをまとめてみた
    jonysand
    jonysand 2025/07/20
  • AIエージェントのサービス構築を検討しているあなたへ

    はじめに 記事では、昨今話題の AI エージェントサービスをこれから作る方へ、AI エージェントシステムを作る上での抑えるべきポイントと実践的なハンズオンにて DeepDive していきたいと思います。 記事は 2 部構成になっており、以下の構成です。 第 1 部: AI エージェント の基概念とエージェントシステム構築のガイド 第 2 部: Azure AI Agent Service を使ったワークフロールーティングの実装 第1部では、OpenAI 社のa-practical-guide-to-building-agents を参考に、AI エージェントの基概念とエージェントシステム構築のガイドを解説します。 第2部では、Anthropic のブログ記事 Building Effective Agents – Workflow Routing で紹介されている ワークフロールー

    AIエージェントのサービス構築を検討しているあなたへ
    jonysand
    jonysand 2025/07/14
  • プログラミングのためのBGMや環境音など。仕事や勉強の邪魔にならない無料で使えそうな音源集。2025年版

    プログラミングのためのBGMや環境音など。仕事や勉強の邪魔にならない無料で使えそうな音源集。2025年版 在宅で仕事や勉強をしている時間が増えてくると、ずっと無音だと寂しい気がして、できれば仕事の邪魔にならないBGMや環境音があるといいなあ、と思ったことはありませんか? 今年も、そうした音源を最新のものにアップデートした2025年版を紹介しましょう。昨年の記事のブックマークで教えていただいた音源なども参考にさせていただきました。 記事の前半は音楽、後半は環境音を中心に紹介します。紹介した音源のほとんどは無料で聴けるものにしましたので、仕事や勉強に気軽に役立てていただければ幸いです。 作業用BGMの定番としてのLoFiチャンネル 今回も、まずは作業用BGMの定番の1つになったチルアウトミュージックとしてのLoFi HipHop/LoFi Beats系を紹介しましょう。 LoFi HipHop

    プログラミングのためのBGMや環境音など。仕事や勉強の邪魔にならない無料で使えそうな音源集。2025年版
    jonysand
    jonysand 2025/07/07
  • Claude Code に壊されないための denyルール完全ガイド - izanami

    結論:Claude Codeのdenyは、ガッツリ書いておけ ワイは、Claude Code と Supabase MCP で、Supabase のDB全部削除させてしまったことがある。目の前でテーブルが「ッポン」といった感じで消えてトラウマになった 思い返せば permissions.deny に書いておけばよかったのかもしれない permissions.deny とはなんぞや? Claude Codeのpermissions.denyは、AIが危険な操作や機密情報へのアクセスを行わないよう制限する設定やね。これがあるおかげで、AIに任せても「壊さない・漏らさない・暴走しない」が実現される AIに対してのガードレール設計ですね この記事では、Claude Code の deny リストを読み解きながら、「なぜその操作が禁止されているのか」「自分の環境でも取り入れるべきか?」を考えてみる

    Claude Code に壊されないための denyルール完全ガイド - izanami
    jonysand
    jonysand 2025/06/23
  • なぜ私たちは住所正規化エンジンをRustで"再発明"したのか? - FFIによる多言語高速化と開発者体験の裏側 - Sansan Tech Blog

    Sansan Engineering Unit マスターデータグループ(データ戦略部門)の松です。 私たちのチームは、「Activating Business Data」というミッションを掲げ、企業の活動の礎となる重要なデータ、いわゆる「マスターデータ」とその利活用という課題に、技術を駆使して向き合っている組織です。 さて、ビジネスデータを扱う上で「住所」は欠かせない情報です。 それは単に「モノを届ける場所」を示すだけではありません。 お客様を深く知るための「解像度」になる: 顧客のオフィスの位置を正確に知ることは、効果的なマーケティングや営業戦略を立てる上で不可欠です。 データ統合の「鍵」になる: 複数のサービスやデータベースに散らばったお客様の情報を「同一人物である」と正しく繋ぎ合わせる(名寄せする)際、住所は氏名と並んで最も重要なキー情報となります。 このように、正確な住所データは

    なぜ私たちは住所正規化エンジンをRustで"再発明"したのか? - FFIによる多言語高速化と開発者体験の裏側 - Sansan Tech Blog
    jonysand
    jonysand 2025/06/22
  • How I Use Claude Code

    One month ago, I subscribed to Claude Max. I've been using AI agents including Claude Code for some time prior, but with the flat pricing, my usage skyrocketed and it's become a daily driver for many tasks. I find myself going to VS Code much less often now. Since AI agents are new for everyone right now, I thought it might be fun to share some patterns I've been noticing recently. Here's how I us

    How I Use Claude Code
    jonysand
    jonysand 2025/06/13
  • たった7分でこの破壊力「豚バラと新じゃがの黒こしょう鬼まぶし炒め」というご飯泥棒レシピ - メシ通 | ホットペッパーグルメ

    こんにちは、料理ブロガーの山リコピンです。 ジュワッとあふれる脂のうま味がたまらない豚バラ肉。とくに薄切り肉は火の通りが早くて調理しやすく、いろいろな味付けで楽しめるので、疲れて帰った平日の自炊にもおすすめの材です。 今回はその豚バラと、皮むき不要で使える旬の新じゃがでササッとできる炒め物レシピです。 しょうゆベースの甘辛い味付けに、にんにくと黒こしょうの刺激がガツンと効いて、まさに“ご飯泥棒”なひと皿。ここでは大盛りご飯にインスタントのみそ汁、漬け物を添えて定スタイルにしてみました。定を肴に缶ビールを開けちゃうのもいいですね。 それでは早速レシピです。 山リコピンの「豚バラと新じゃがの黒こしょう鬼まぶし炒め」 【材料】1人分 【調理時間】 約7分 豚バラ肉(薄切り) 150g 新じゃがいも 1個(150g程度) ごま油 大さじ1/2 粗びき黒こしょう 小さじ1/2+お好みの量

    たった7分でこの破壊力「豚バラと新じゃがの黒こしょう鬼まぶし炒め」というご飯泥棒レシピ - メシ通 | ホットペッパーグルメ
    jonysand
    jonysand 2025/06/09
  • Type Help by William Rous

    A puzzle-mystery game inspired by Return of the Obra Dinn, Her Story, Unheard and The Roottrees are Dead. Investigate the files on an old computer that once belonged to a mysterious outside agent. The files detail the gruesome story of Galley House, a case that was said to be unsolvable. What really happened at Galley House? And what did the agent find out that lead to their death? Delve through d

    Type Help by William Rous
    jonysand
    jonysand 2025/06/09
  • llama.cppでGGUF変換やってみた

    20250121 追記 この記事を書いた時点から、コマンド体系とかどんどん変わってるので、一番下に最新の手順をメモとして追加していく(気が向いたら)。llama.cppのREADMEも参照。 https://github.com/ggerganov/llama.cpp

    llama.cppでGGUF変換やってみた
    jonysand
    jonysand 2025/06/02
  • Streaming UIプラクティス

    アプリケーションユーザーにとってパフォーマンスとは、特定の指標に基づいて判断される定量的なものだけでなく、アプリケーションの総合的な体験を通じて感じる定性的なものでもあります。そのため、ユーザーがアプリケーションを「遅い」と感じる要因は様々です。 Googleは以前より、ユーザー中心のパフォーマンスを提唱しています。Core Web Vitalsは、ユーザーが感じるパフォーマンスを定量的に計測するために作成された指標群で、現在最も重要なパフォーマンス指標の一つです。しかし、Core Web Vitalsだけではパフォーマンスに関するUXの全てを網羅できるわけではありません。Core Web Vitalsの改善は重要ですが、最終的にはUX全体を最適化することが必要です。 稿では、ページ読み込み時に「遅い」という印象をユーザーに与えないために筆者がよく用いるStreaming UIとそのプラ

    Streaming UIプラクティス
    jonysand
    jonysand 2025/06/02
  • Metaに学ぶ、大規模開発のデータフェッチ設計と最適化

    稿で扱うデータフェッチは高速なサーバー間通信を前提にしているため、バックエンドは細粒度なREST APIで設計することが最適だと考えます。 データフェッチの設計パターン 筆者の考えでは、データフェッチの設計は大きく2パターンに分けられます。データフェッチ層を設けるなどするような中央集権型の設計と、データフェッチコロケーションに代表される自律分散型の設計です。 中央集権型: 責務を集約し、一元管理を重視する 自律分散型: 責務を末端に分散し、自律性を重視する MetaやReactにおける自律分散型の設計の歴史については、筆者の前回の記事で詳細に解説しています。興味のある方はご参照ください。 解説 冒頭で触れたように、Metaでは自律分散型の設計が重視されており、特に大規模開発の保守性において重要だと考えられています。データフェッチ層を設けるような中央集権型の設計はなぜ好まれないのでしょう?

    Metaに学ぶ、大規模開発のデータフェッチ設計と最適化
    jonysand
    jonysand 2025/05/26
  • 【2025年5月完全版】RAG の教科書

    はじめに 昨今、AI の進化により、様々な分野での応用が進んでいます。特に、自然言語処理(NLP)の分野では、RAG( Retrieval-Augmented Generation)が注目されています。RAG は、情報検索と生成を組み合わせた手法であり、特に大規模言語モデル(LLM)と組み合わせることで、その性能を大幅に向上させることができます。 また、NativeRAG や GraphRAG, AgentRAG などさまざまな RAG のバリエーションが登場しており、これらは特定のユースケースやデータセットに対して最適化されています。 今回は、RAG の基的な概念から、RAG のプロジェクトの進め方、精度向上の方法に至るまで詳しく解説します。 みなさんの GenAI Application の開発に役立てていただければ幸いです。 記事は 5 万文字を超える大作となっております。 お時

    【2025年5月完全版】RAG の教科書
    jonysand
    jonysand 2025/05/26
  • コーディングエージェントを作ってるけどうまくいかなかった話 ~あるいは二ヶ月本気でコーディングエージェントと向き合った話~ / Two Month Agent Struggle

    https://connpass.com/event/353478/ 登壇資料です。 - エディタ間借り型コーディングエージェントの仕組みと限界 - 負けパターン集と、その回避対策 - コーディングエージェントのこれから

    コーディングエージェントを作ってるけどうまくいかなかった話 ~あるいは二ヶ月本気でコーディングエージェントと向き合った話~ / Two Month Agent Struggle
    jonysand
    jonysand 2025/05/21
  • 日本で一番わかりやすくてためになる小さな飲食店の始め方 300万円でお店をやろう|林伸次

    たまにお客様から「お店でお酒を出すのって、何か免許はいるんですか?」とか「夜の12時をこえてお酒を出すのって風営法はどう関係しているんですか?」とか「お店を出すのに調理師免許がいるんですよね」とかって質問をされることがあるのですが、実は、日では、「品衛生責任者」という資格を持っているだけで小さい飲店は始められます。この「小さい」ですが、店内で店員の数とお客様を足してその数が30人までのことです。 ちなみに、僕がやっているbar bossaは席数は18席で、働いているのは僕1人だけなので、品衛生責任者の資格だけで大丈夫です。これで24時間、お酒も出せますし、焼き肉も刺身も出せます。 店内での店員数とお客様の数が30人以上の場合は防火管理者というのが必要です。 どちらも講習を受けるだけです。テストもないです。 品衛生責任者というのは、保健所に連絡して、「今度、飲店を渋谷でやろうと思

    日本で一番わかりやすくてためになる小さな飲食店の始め方 300万円でお店をやろう|林伸次
    jonysand
    jonysand 2025/05/11
  • GitHub - Shubhamsaboo/awesome-llm-apps: Collection of awesome LLM apps with AI Agents and RAG using OpenAI, Anthropic, Gemini and opensource models.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - Shubhamsaboo/awesome-llm-apps: Collection of awesome LLM apps with AI Agents and RAG using OpenAI, Anthropic, Gemini and opensource models.
    jonysand
    jonysand 2025/05/10
  • ゼロからコーディングエージェントを作るならこんなふうに🛠️

    3秒まとめ コーディングエージェントはXMLベースのツール定義とツールの実装で作れる 最低限必要なツールはListFile、ReadFile、WriteFile、AskQuestion、ExecuteCommand、Completeの6つ LLMにXML形式でツールを使わせることで、プログラムと会話の融合が実現できる 実装は意外と簡単!Go言語なら数百行で基機能が作れる サンプルコードはGoで書いていますが、特にコーディングエージェントを作るための言語依存はありません。また、サンプルコードは概要を示すためのもので確実な動作を保証するものではありませんのでご注意ください。 どんな人向けの記事? コーディングエージェントに興味がある方 LLMを使ったコーディングエージェントを自作してみたい方 コーディングエージェントの仕組みを作りながら学びたい方 はじめに みなさん、Cline使ってますか?

    ゼロからコーディングエージェントを作るならこんなふうに🛠️
    jonysand
    jonysand 2025/05/01
  • 日本語データセットでBERTopicを使ってバーっとトピックモデリングやってみた!|PREVNET.inc_データサイエンス部

    PREVENT開発部がスタートさせたアドベントカレンダー。PREVENT開発チームが情報発信を盛り上げるために企画されました。この機会を見逃す手はない!ということで、データサイエンス部も参加することになりました。 いくつかの記事を執筆予定ですので、どうぞご期待ください! おい、BERTopicってなんなんだ?今回は、トピックモデリングライブラリ「BERTopic」を使って、日語のデータセットを解析した体験をご紹介します。公式チュートリアルは英語のデータセットを対象としたものが多いですが、日語データで利用する際にはいくつかの工夫が必要でした。まだ試行錯誤の段階ではありますが、初めて触れる方にとって少しでも参考になる内容になれば幸いです。 執筆担当はトッティこと戸田です。よろしくお願いします。 BERTopicとは?BERTopicは、文章データからテーマ(トピック)を抽出するためのトピッ

    日本語データセットでBERTopicを使ってバーっとトピックモデリングやってみた!|PREVNET.inc_データサイエンス部
  • Qwen3 の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Qwen3: Think Deeper, Act Faster 1. Qwen3日 (2025年4月28日) 、「Qwen3」をリリースしました。「Qwen3-235B-A22B」は、「DeepSeek-R1」「o1」「o3-mini」「Grok-3」「Gemini-2.5-Pro」などの他のトップティアモデルと比較して、コーディング、数学、一般的な機能などのベンチマーク評価で競争力のある結果を達成しています。さらに、小型のMoEである「Qwen3-30B-A3B」は、10倍のアクティブパラメータを持つ「QwQ-32B」を凌駕し、「Qwen3-4B」のような小さなモデルでさえ、「Qwen2.5-72B-Instruct」の性能に匹敵します。 2つのMoEモデルをオープンウェイト化しています。「Qwen3-235B-A22B」は、総パラメ

    Qwen3 の概要|npaka
    jonysand
    jonysand 2025/04/30
  • 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー

    関連URL Tanuki-8x8B Leaderboard3 Tanuki-8B Leaderboard3 大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など 全体像 フルスクラッチで開発した大規模言語モデルTanuki-8B, 8x8Bの性能についての技術的な詳細 Japanese MT-Benchにおける性能の詳細とJasterに関する一部言及 ChatbotArena的なシステムでTanuki-8x8Bを始めとする大規模言語モデルの日語性能を評価する(2024年8月) ブラインドテスト形式で種々のモデル出力の優劣を人手で評価した結果と、各種ベンチマークとの関係性 大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー 開発の鍵となった合成データ戦略に至るまでの試行錯誤など Tanuki-8B,8x8Bの開発完了までに考えていたこ

    大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー
    jonysand
    jonysand 2025/04/28
  • 0.5BパラメータのLLMを一から作ろうとして心が折れかけた話

    この記事について 今回Transformerを理解したいという目的でDecoder-OnlyのLLMをスクラッチで作ることにしました。 というのも、この約2年、新しいモデルが発表されなかった月はないほど目まぐるしく変化していくローカルLLMを追っていく中で、楽しさもある反面、よく分からないブラックボックスとして扱い続けるということにもやもやした気持ちを感じていました。 そこで自分もモデルを一から作ってみたらよくわかるんじゃないかな?という気持ちでこのプロジェクトをスタートしました。 既にローカルLLMのコミュニティでは一からモデルを作っている方は複数いるものの、今回は自身のTransformerに対する理解を深めることが目的ですから、なるべく頼らずにいこうと決めました。 (これが一番の過ちだったかもしれません...。) かなり長くなってしまったので「まとめ」へのリンクを貼っておきます。 ま

    0.5BパラメータのLLMを一から作ろうとして心が折れかけた話
    jonysand
    jonysand 2025/04/27
    事後学習(ファインチューニング)は事前学習で獲得した知識を抽出するものであり、事前学習で獲得していない知識を事後学習で獲得することはできない