タグ

Stable DiffusionとWhisperに関するdiet55のブックマーク (2)

  • AIによる画像生成や文字おこしもOK、Linuxフリーソフトを使いこなす

    Linuxはサーバーによく使われているのに加え、Windowsのようにパソコン用OSとしても利用できる。過去に挑戦して断念したことがある人も無理なく学べるように、ステップアップ式でLinuxを解説する。 Step 43 AIを使って人の顔を正確に検出する方法 AI人工知能)を使った顔検出の方法は数多く、主には(1)特徴量を人間が設計する手法、(2)特徴量を大量のデータからディープラーニングで学習する手法の二つがあります。「特徴量」とは、AIの分野では予測の手がかりとなる重要な数字のことです。例えば顔検出のような画像処理の分野では、「縦のシマが多い」「特定の色が多い」といった情報が特徴量となります。今回は、上記の二つの手法を実際に試して比較してみましょう。 顔検出に使う特徴量として有名な「ハールライク(Haar-like)特徴量」を使った手法を紹介します。ハールライク特徴量は、画像の明暗差

    AIによる画像生成や文字おこしもOK、Linuxフリーソフトを使いこなす
    diet55
    diet55 2023/03/27
    「Stable Diffusionは(中略)GPU無しのPCでも10Gバイト以上のメモリーを搭載していれば、画像生成自体は可能です。」「LiveWhisperでリアルタイム変換」
  • そして音声入力ならさらなら進化。左手にwindows 11、右手に androidの音声入力を持つことにしました。 - 勝間和代が徹底的にマニアックな話をアップするブログ

    相変わらずwindowsandroidの音声入力のどちらを使うかということを考えていたのですが、そうだ、どちらも使えば良いということに気づきました。 初めのうちは左手側に両方のリモコンを置いていたのですが、そのうちどっちがどちらかわからなくなるので、とりあえず、家においてはより使うウィンドウズ11の音声入力のリモコンを左手に持ちっぱなしにして、それでうまくいかなくなった時だけ右手のアンドロイド側のリモコンを使うようなイメージで併用しています。 そうしますと結果としてキーボードで入力をすることがほとんどなくなりました。どちらの音声入力にも得意不得意があるので、片方が不得意なものはもう片方で押さえてあげれば良いわけです。 特に長文はwindows 11のは得意ですがちょっと反応が遅いですし、グーグルは短文が得意ですが、同音異義語をよく間違えてしまうので、メインの文章はwindows 11に

    そして音声入力ならさらなら進化。左手にwindows 11、右手に androidの音声入力を持つことにしました。 - 勝間和代が徹底的にマニアックな話をアップするブログ
    diet55
    diet55 2022/12/17
    「特に長文はwindows 11のは得意ですがちょっと反応が遅いですし、グーグルは短文が得意ですが、同音異義語をよく間違えてしまうので、」Stable Diffusionで遊んでいるよりは、Whisperのlargeモデル……。
  • 1