最近tempescopeのアナウンスのため英語でツイートする機会が多くなったのですが、 日本語なら140文字制限内に詰め込める内容が、英語だと入りきらずにモヤモヤすることがあります。 英語は表音文字なので当然ですね。 そこで140文字制約の中では日本語がどれぐらい多く喋れるのか、機械翻訳を使って検証してみました。 方法 今回の検証では「各言語で書かれたツイートを英語で書いた場合、何文字分になるか」を計算することで、各言語の「密度」を評価します。 (1) TwitterのストリームAPIで三日分ぐらいのツイートを取得 「140文字で詰め込める量がどれぐらいか」を評価したいので、長め(120文字以上)のツイートだけを収集しました。 短いツイートは文字数制限を意識しない冗長な文法が使われがちなため「140文字に詰め込める内容はいくらか」という趣旨に合わないと考えたからです。 またリンクが含まれる