[B! 言語] iinalabkojochoのブックマーク

Meta、4000言語の話し言葉を理解する多言語LLM「MMS」をオープンソース化

米Metaは5月22日（現地時間）、4000以上の音声言語を識別できる多言語大規模言語モデル「Massively Multilingual Speech」（MMS）のモデルとを研究コミュニティにオープンソースで公開したと発表した。 MMSプロジェクトでは、自己教師あり学習モデルの「wav2vec 2.0」、1100以上のラベル付き言語データ、約4000のラベルなし言語データのデータセットを使ってモデルを構築したという。4000以上の音声言語識別は既存技術の40倍の能力だとしている。言語の音声データ収集に当たっては、多くの言語に翻訳されている聖書などの宗教文書の音声録音を活用した。1100以上の言語で新約聖書の朗読のデータセットを作成することで、言語ごとに平均32時間のデータを用意した。プロジェクトの詳細については公式ブログを参照されたい。「われわれの目標は、人々が好きな言語で情報に簡

iinalabkojocho 2023/05/23

倫理問題も頭をよぎるけど、OSSならではの民主化も大きい。

言語
AI

リンク

『マッドハニー』有毒の花の蜜をブレンドしたしたミツバチが出すハチミツは幻覚を起こす事が古代から知られていたらしい

巫俊（ふしゅん） @fushunia 新刊の昆虫の本にびっくりすることが書かれてたのですが、トルコなどには「幻覚を起こす蜂蜜」マッドハニーが採取される地域があって、幻覚症状を起こす有毒の花の蜜をブレンドしたミツバチが出すハチミツは、幻覚を起こすことが古代から知られてたそうです。 2022-07-04 01:03:29 巫俊（ふしゅん） @fushunia インドやイランの神話には幻覚を起こす酒ソーマ（ハオマ）が出てきて、そうした酒が神話化されると、インドの乳海攪拌神話に出てくる神々が飲む不死の酒アムリタだとかになり、預言者ゾロアスターの出生にも関わってたりするのですが、印欧語族の元の神話では「ハチミツの酒」だったとされてます。 2022-07-04 01:06:50 巫俊（ふしゅん） @fushunia ハチミツの酒と幻覚を起こす酒では、ちょっと違いがあるなと思ってたんですが、ハチミツの中

iinalabkojocho 2022/07/10

これ個人輸入できるから興味あるのだが試してみることができないでいる。。。

リンク

ハードが速くならないと、もうソフトウェアって速度上がらないのだろうか

流行る言語なんて、どんどん遅くなっていくばかり。 GPUを使うってのも、どちらかというと機械学習のような都合のいい問題を探してきてる。ソフトウェア工学ってのも聞かなくなった。

iinalabkojocho 2022/05/14

8bitマイコンおじさんがガリッガリにアセンブラで高速化したものは既に魔法と区別がつかないと言うか一般の方の目につかないだけじゃないかい？ムーアの法則に依存して進化してきたもん。ハード、ソフトは一体の進化

リンク

https://twitter.com/ikedanob/status/1515299597778026497

iinalabkojocho 2022/04/18

世界的に「もう終わった方」扱いであるが。。。。池田さんは自己認識と世界との関係をどう思われているのか心配。少なくともチョムスキーの言語論は礎となったからね。

リンク

実用 Go言語

業務プログラミングの現場でも採用されるようになってきたGo言語。文法はシンプルで学びやすいという特徴を持っていますが、複雑な要件を実現するには、プログラミング言語が提供する構成要素（文法やライブラリ）をさまざまに組み合わせる必要があります。本書は、そんなGoを使う上でのポイントを単なる文法詳解ではなく「よりGoらしく書くには」「実用的なアプリケーションを書くには」といった観点から紹介します。構造体やインタフェースの使い方からJSON、CSVファイル、Excel、固定長ファイルの扱い方、またログやテスト、環境構築など現場に即した幅広いトピックについて、「Goらしいプログラムの書き方」をその背景と共に教えてくれる先輩のような書籍です。まえがき 1章　「Goらしさ」に触れる 1.1　変数やパッケージ、メソッドなどに名前を付けるには 1.1.1　変数名 1.1.2　パッケージ名 1.1.3　

iinalabkojocho 2022/04/07

Goが一般化するのは胸熱。しかし業務に使いたいか。。。周りにいない^ ^

リンク

「公式が勝手に言ってるだけ」からはじめる文学理論半世紀

最近、二次元に魂を奪われ二次創作に萌える二次豚とでも呼ぶべき存在どもが、「公式が勝手に言ってるだけ」「原作とアニメで言ってないだけ」という種類の鳴き声を発明した。歴史学などの一部学問においてはこうした態度が倫理的に要請されてきた、ということはニコニコ大百科でも指摘されているが、そもそもこうした態度はここ半世紀ほど「文学」「テキスト」「作品」といった物事を専門家が語るために用いられてきたものがほぼ起源であろうと思う。「テクスト論」と呼ばれるものがそれである（構造主義の話はしません）。すなわち「勝手に言ってるだけ」「言ってないけど言ってる」は、文学者がこの半世紀格闘し続けてきたテーマなのである。ちなみに本稿は、加藤典洋『テクストから遠く離れて』をなんとなく参考にして書かれたので、興味のある方はそちらも読まれるとより楽しいかと思う。さて、半世紀ほど前まで、たとえば夏目漱石の作品を批評する、

iinalabkojocho 2022/03/12

鳴き声も含めてアレゴリーの意味は生成する場ごとにある。それはさておき歴史的事実の解明（感情史などを含む）時に鳴き声こそ真実だと勝手に事実を作り出す修正主義者はメタレベルでも駆逐しなきゃは変わらない。

リンク

そもそも敬語になっていない…｢させていただく｣と言われるとイラッとする言語学的な理由便利な表現だからこそ不快に思う

「させていただく」は関西発祥？「させていただく」は関西と関係が深いと言われています。それが関東に、そして全国に広がったとされています。一向宗の信者であった近江商人が行商しながら全国に広めたという説もあります。司馬遼太郎の『街道をゆく24　近江散歩、奈良散歩』から関連箇所を引用します。日本語には、させて頂きます、というふしぎな語法がある。この語法は上方から出た。ちかごろは東京弁にも入りこんで、標準語を混乱（？）させている。「それでは帰らせて頂きます」。（中略）「はい、おかげ様で、元気に暮させて頂いております」。この語法は、浄土真宗（真宗・門徒・本願寺）の教義上から出たもので、（中略）絶対他力を想定してしか成立しない。（中略）「地下鉄で虎ノ門までゆかせて頂きました」などと言う。相手の銭で乗ったわけではない。自分の足と銭で地下鉄に乗ったのに、「頂きました」などというのは、他力への信仰が

iinalabkojocho 2022/02/20

割りかしガチな研究なのね。ただし言葉は生き物でつどつど変わる。兎も角間接表現にしておけば丁寧と言う流れは変わらない。し、ある種のテンプレ化は言語の国際化にも不可欠。英語なんてテンプレですよ。

リンク

日本語に敬語はない。｜yhkondo

この記事は「言語学な人々　Advent Calender 2021」の13日目の記事として書かれました。アドベントも中程まで来て、シュトーレンがだんだんと小さくなっています。聖書の敬語キリストの誕生日が12月25日であるとは実は聖書には書いてないのですが、キリストの降誕を記念するクリスマスなので、聖書を読んでみたくなります。最新の翻訳である「聖書協会共同訳」で、「マタイによる福音書」を読んでみましょう。「共同訳」といういうのは、カソリックもプロテスタントも一緒に翻訳に参画しているという意味です。イエスがヘロデ王の時代にユダヤのベツレヘムでお生まれになったとき、東方の博士たちがエルサレムにやって来て言った。「ユダヤ人の王としてお生まれになった方は、どこにおられますか。私たちは東方でその方の星を見たので、拝みに来たのです。」これを聞いて、ヘロデ王は不安を抱いた。マタイによる福音書・2章・

iinalabkojocho 2021/12/13

語り手は存在しない。だから敬語はない。語り手が責務を負わされかねないとき、言葉は尊敬になり謙譲になり、敬語になる。かように語り手不明にはない。

リンク

起源日本語韓国語ツングース語モンゴル語チュルク語トランスユーラシア語 2021.11.10 マックス・プランク人類史科学研究所ドイツ 20211113｜極論空手形 / Extreme Argument Fictitious Bill

起源日本語韓国語ツングース語モンゴル語チュルク語トランスユーラシア語 2021.11.10 マックス・プランク人類史科学研究所ドイツ 20211113 #MaxPlanckInstituteForTheScienceOfHumanHistory #MartineRobbeets #Transeurasian #Languages #Japonic #Koreanic #Tungusic #Mongolic #Turkic #FarmingHypothesis #ProtoTranseurasianFamily 日本語、韓国語、ツングース語、モンゴル語、チュルク語と共に、トランスユーラシア語に属しています。別名『アルタイ語』と呼ばれています。この語族は、西のトルコからモンゴルを経て東の韓国と日本、カムチャツカ半島に至る広い地域に分布しています。現在、トランスユーラシア語に

iinalabkojocho 2021/11/14

いやー。ロマンのかたまりだよなぁ。コンピュータを使った大規模な調査の結果なんだろうね。大規模データを取り扱うことができることで考古学やそれに連なる分野ってもっと分かりそう。面白い。

リンク

【字幕が話題】『シン・エヴァンゲリオン劇場版』を字幕版で見たときに思ったこと30連発！ Amazon Prime Video独占配信中

» 【字幕が話題】『シン・エヴァンゲリオン劇場版』を字幕版で見たときに思ったこと30連発！ Amazon Prime Video独占配信中特集【字幕が話題】『シン・エヴァンゲリオン劇場版』を字幕版で見たときに思ったこと30連発！ Amazon Prime Video独占配信中冨樫さや 2021年8月14日去る8月13日、Amazon Prime Videoから『シン・エヴァンゲリオン劇場版』が世界240以上の国と地域で独占配信された。すでに視聴した方も多いだろうが、SNSで一躍話題になったのが「日本語字幕つき」で見られるというところ。日本人だから字幕はいらないよ、と思うかもしれないが、もとより哲学的で難解な専門用語が頻出する同作。劇場では聞き取れないセリフも多かったはずだ。それらが字幕によって理解でき、まったく違う映画体験になるという。というわけで、字幕版を見直して思ったこ

iinalabkojocho 2021/08/15

外語吹替は凄くて英語で途中途中楽しんでる。

リンク

「実践知」の著者に惹かれる理由　創元社の編集者・内貴麻美さん｜じんぶん堂

記事：じんぶん堂企画室創元社編集局の内貴麻美さん。同社の公式キャラクター・ひつじのソジーもインタビューに同席してくれた（東京都千代田区神保町にある同社東京支店にて。記事内写真はすべて、撮影時のみマスクを外してもらって撮影）書籍情報はこちら中高時代はバスケットボール、大学では本に没頭「大阪に出版社があるのですか？」。出版社は東京にあるのが当然のように言われたのに奮起し、書籍小売りから出版業に転じて生まれたのが、大阪に本社を持つ出版社の創元社だ。かつて小林秀雄が編集顧問を務めたこともある東京支店で編集者として働く内貴さんを訪ねた。神保町にある東京支社は総勢５人。営業４人と、編集の内貴さんだ。神戸で生まれ育った内貴さんは、昨年６月、結婚を機に夫が在住する東京に異動した。普段から書店巡りが好きだが、コロナ禍により東京ではあまり新規開拓ができていないと残念そうだ。内貴さんが初めて企画・

iinalabkojocho 2021/07/02

創元社の東京支社がもともと東京創元社として独立した。だがまた東京支社が復活していたのかー。全く知らなかった。。。

リンク

企業にとってのプログラミング言語の位置づけ - 覚書

プログラミング言語の良し悪しについては昔から活発に議論されてきました。このような議論の中で企業がどのようなプログラミング言語を採用するかについて釈然としない思いをしたかたも多々いらっしゃるかと思います。典型的には「なぜ自分の会社では俺の好きな言語を採用しないのか」です。この「なぜ」の一部に回答する、かつ、そこに共感しないまでも理解してもらうのが本記事の目的です。この手の会話は炎上しがちであり、かつ、私はそのようなことはしたくないので個々の言語の名前は挙げません。そのためやや抽象的な表現が多くなりがちですがご容赦ください。また、筆者はここで書く価値観が絶対というつもりはなく、読者のみなさま個人のプロジェクトは自分の欲望の赴くままに好きなものを使えばいいと思っています。企業は継続的にプログラムの開発やメンテナンスをする必要があります。これを念頭に置くと、使いこなせる人が多い言語であれば複数

iinalabkojocho 2021/06/20

まあそうだよね。と思う。言語だけでなく動作環境とか企業にとっては投資案件。エンジニアにとっても個人的な投資だよね

リンク

pLaTeX が本格的にやばいかもという話 - Acetaminophen’s diary

最近（この1週間ほど）で LaTeX 周りで起きていることについて，声明を出しておきます。端的に言うと「pLaTeX，本格的にやばい」。 pLaTeX hyperref error with pdfmanagement-testphase 今 LaTeX の世界で何が起きているのか，ざっと説明します。ここ1年ほどの LaTeX は大きく変わっている 2020-02-02 以降，本家の LaTeX2e に多くの変更が入っています。2020 年の2回のリリースについては，Online.tex 2020 での私の講演資料「最近の LaTeX は〇〇」【PDF 直リンク】も参考になるでしょう。 LaTeX2e 2020-02-02: 新 NFSS 導入（シリーズとシェープの多軸化，ファミリ毎の実際のシリーズ値の設定，…），カーネルへの expl3 読込 LaTeX2e 2020-10-01: フ

iinalabkojocho 2021/06/18

“pLaTeX が本格的にやばいかもという話” 読んで門外漢でもヤバイと思う。海外開発に理解してもらう。。。ヤバイ。。。

リンク

Rが好きすぎてRでJVMを実装したnoteエンジニアに話を聞いてみた｜note株式会社

そんなあるときに、めもりーさんという方がPHPでJVMを実装しているツイートを見つけました。「これはおもしろいな」と思うと同時に「PHPでできるならRでもできるだろう」という思いがこみ上げてきて開発することにしました。ーそんなに簡単にやってみようと思ったんですね（笑）もともとコンパイラやインタプリタは作ったことがあったので、仮想マシンも作れるかなって（笑）私が作ったjvmrrはFizz BuzzくらいのJavaコードは実行することができるのですが、めもりーさんの資料のおかげで開発するためのハードルが低く済みました。ーそもそもなぜRで「変なもの」を開発するようになったのでしょうか？ Rって言語仕様が変わっていて本当におもしろいんですよ。それをもっとみんなに知ってほしくて言語仕様を活かしたものを作って公開するようになりました。Rってデータサイエンティストや研究者しか使わないイメージ

iinalabkojocho 2021/06/16

“高級なJavaのコードがどういうバイトコードにコンパイルされるのかを知っていくのがおもしろい。” すげぇ、Rで実行される仮想マシン。。。

リンク

「うる覚え」「永遠と」といった変な言葉遣いは、書き文字を知らず日常生活から『耳コピ』してるからなのではという話

青井邦夫 @AoiKunio 最近よく「うる覚え」というのを見るけど、いつからなのか？方言という説もあるけど、昔は見たことがない。「うろ覚え」が正しいと私は信じています。金子賢一 @Kenichi_Kaneko 20年程前から感じていたけど、「うる覚え」や「永遠と（延々と）」「ゆう（言う・いう）」といった変な言葉遣いは、本を読まずその書き文字を知らず（当然単語の成り立ちも知らず）TVや日常会話の中からだけで用法も含め何となく”耳コピ”した人々が意外と多いからだと思う。 twitter.com/AoiKunio/statu… 金子賢一 @Kenichi_Kaneko 銃器の「照準」を、オンラインFPSゲームの流行で「標準」と言う層が多くなった、という話を聞いたのはもう10年程前だ… ボイスチャットじゃ「しょうじゅん」「ひょうじゅん」聞き分けにくいし、”自分が知ってる単語の中から”当てはめよ

iinalabkojocho 2021/03/03

なるほど。コミュつよつよでも漢字はダメってことがあるんだろうな。

リンク

さようなら、カウンター

私はこの講演の中で、「あなた方が、ほんとうに、母国のことばの発音で読まれたいと思ったら、カンジを使ってはいけません。朝鮮人に日本語を学ぶギリがないと同様に、日本人にも朝鮮語や朝鮮でのカンジの読み方を学ばなければならぬという理由はありません。日本人に、朝鮮人の名前をその発音通りに読ませるためには、あなたがたはカンジをやめてカタカナだけで名前を書いてください」と言ったところ、まあたとえてみれば、私は「袋叩き」のような状態になってしまった。中にお腹の大きな女性がいて、その人は演壇上の私をキッと見据えて、「私はこのお腹の中の子に、立派なカンジの名前をつけてやります」と言ったものだ。私はあまりのキハクにちょっとこわくなって、そそくさと壇をおりた。司会者のチォエさんが、「田中さんは、決して悪い考えで言われたのではないのです。わたしたちの味方です」ととりなしてくれたが、会場はおさまらなかった。

iinalabkojocho 2021/03/01

これはその通りで、差別もマイノリティも「社会」の一部である以上「マイノリティが言っているから正しい」は分断を招くよね。状況を常に考えることにする。

リンク

｢言葉に重みと力がない人｣が､無意識に発している"ある口癖" 言語化能力が高い人の毎日の習慣

「言葉に力がある人」は何が違うかあなたの周りには「言葉にエネルギーがあるな」と思える人はいますか？言語化能力に優れている人の一つの特徴として、言葉にエネルギーがあるというのが挙げられます。では、言葉にエネルギーがある人というのは具体的にはどのような人を指すのでしょうか？いろいろな答えがあると思いますが、私は「自分の言葉で語れる人」の放つ言葉にエネルギーを感じることが多くあります。さらに掘り下げていくと、自信を持って自分の言葉で語れる人というのは、何かしら「断定」する表現を使っています。それは決してきつい語調で相手を否定したり、上から目線で物事を決めつけたような言い回しということではありません。どのようなことに対しても第一声から「私は～が好きです／嫌いです」「私はA案に賛成です／反対です」と自分なりの明確な答えを持ち、人前で言い切ることができるという意味です。「どっちでもいいや」

iinalabkojocho 2021/02/28

何何な人が、何何をしている習慣系の記事はたとえデータとして正確でも相関を越えなくて法則でも何でもないので無視して良いと思います。こう言う本が売れるんだろうけどキッツイワー泣

リンク

言語の研究者はことばの規範とどう付き合う（べき）か，についてちょっとだけ - 誰がログ

はじめに下記の話題に関して，「言語の研究者は（軽々しく／何があっても）ことば遣いに関する規範に口出しするのは良くない」という反応を見かけたので，関連して今の自分の考えを少し書いておこうと思いました。 togetter.com 解説や問題の整理という類のものではなく，実際の研究者がどう考えているかということの1例だと思ってください。とりあえず以下ジェンダーに関わる話はぜんぜんしていません。というか書いた後に思ったのですがとてもごちゃごちゃしているので，もっと良い議論ができる人の叩き台になれば僥倖です（叩けるほどの強度もないかも）。言語学と規範言語学の入門では，どれくらい詳しくやるかは差があるでしょうが，必ずと言っていいほど「言語学は規範的ではなく記述的である」というような話が出てきます。重要なポイントの1つなので，内容をかなり絞り込んで作った下記の「言語学入門入門」でも取り上げています

iinalabkojocho 2021/01/05

規範的でないことは、一つの研究倫理。そのほかに社会的倫理も、その解釈もあり得る。どの部分を研究するかによって変わるわけで文化的側面の解釈には変化について記述的であるとき規範にも触れないわけにない。難問

リンク

飯間浩明 on Twitter: "ファミマの「お母さん食堂」の名前を変えたい、と署名運動が立ち上がったことについて、賛否の議論があります。「日本語研究者がだんまりなのは変だと思う、議論に言語学的な科学性を与えるべきでは」との近藤泰弘さん（日本語学）のご意見に、なる… https://t.co/dy7xHUmduB"

ファミマの「お母さん食堂」の名前を変えたい、と署名運動が立ち上がったことについて、賛否の議論があります。「日本語研究者がだんまりなのは変だと思う、議論に言語学的な科学性を与えるべきでは」との近藤泰弘さん（日本語学）のご意見に、なる… https://t.co/dy7xHUmduB

iinalabkojocho 2021/01/02

誠実さの塊の様な見解。ことばは流動し、変化することを知っているからこそのこの意見。固定化は望ましくないんだよね。言葉も価値も。なぜかと言えば「そう言うものではないから」だよ。

リンク

第1回　ヘブライ語：鴨志田聡子さん（1/4）｜インタビュー「「その他の外国文学」の翻訳者」

翻訳大国と言われる日本。日本からは、なかなか情報にアクセスしづらいマイナー言語でも文学は綴られている。それらマイナー言語の文学を読めるのは翻訳者がいるからだ。あえて狭き門をくぐり、そして今度は広くしようと努めているのはなぜか。マイナー言語の翻訳者のみなさんに、「その他」の深さを尋ねるシリーズ連載。社会言語学者、鴨志田聡子さんは、昨年、イスラエルのYA小説『アンチ』で翻訳家としてデビューした。原書はイスラエルでの出版ということで、ヘブライ語で書かれている。決して多くはないイスラエル文学、ヘブライ語の翻訳者が誕生したことは、ガイブン読者にはうれしいニュースだ。こんなニッチな世界に飛び込んでくれた鴨志田さんにぜひヘブライ語にかける思いを聞こう、というつもりだった。しかし意外にも開口一番、「ヘブライ語は苦手、できればやりたくないと逃げてきたのが正直なところなんです」。このことばの裏には、もと

iinalabkojocho 2020/12/12

“原書はイスラエルでの出版ということで、ヘブライ語で書かれている。決して多くはないイスラエル文学、ヘブライ語の翻訳者が誕生したことは、ガイブン読者にはうれしいニュースだ。”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (58)

言語に関するiinalabkojochoのブックマーク (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年12月第4週）

「あとで読む」タグで振り返る2024年〜今年の「あとで読む」、今年のうちに〜

今週のはてなブックマーク数ランキング（2024年12月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (58)

言語に関するiinalabkojochoのブックマーク (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年12月第4週）

「あとで読む」タグで振り返る2024年 〜今年の「あとで読む」、今年のうちに〜

今週のはてなブックマーク数ランキング（2024年12月第3週）

公式Twitter

キーボードショートカット一覧

公式Twitter

はてなのサービス

「あとで読む」タグで振り返る2024年〜今年の「あとで読む」、今年のうちに〜