タグ

unicodeに関するlazexのブックマーク (4)

  • Unicode汚染の危機 - Googleによる絵文字収録の愚行

    CNetの記事によると、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクトを進行中だそうである。 しかしこれはデータの設計という観点からすると極めて愚かな行為である。今日は声を大にしてこのような愚行に対して異を唱えたい。絵文字をUnicode化してはいけない理由は次の通りである。 1. 絵はあくまでも絵であって文字ではない。 絵文字は言語の一部を形成するものではない。単語に利用することも出来ないし、文字自体を発音できるわけでもない。文字コードに文字以外のデータを導入するべきではない。 2. 別の解決法が存在する。 そもそも絵文字の問題はマークアップ処理すれば解決する。例えば端末自体がHTMLメールを送信することが出来ればまったく問題にならない。 3. 互換性の問題。 文字を利用するアプリケーションはなにも携帯メールだけではない。Go

    Unicode汚染の危機 - Googleによる絵文字収録の愚行
    lazex
    lazex 2015/11/27
    言ってることはわからなくはないけど、Unicodeに入れたほうがいいと思うな。絵であっても文字だし「:rain」みたいなものを使うよりは他と同じ「文字」として扱えた方が使いやすい。
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • Unicode ~UCS-4とUCS-2~(文字コード関連) | 読み物 | ウナのIT資格一問一答

    今回はこのUnicodeという文字集合を、もう少し詳しく見ていきましょう。 まずはたとえ話をします。 ある小学校を考えます。この小学校には1~6まで6つの「学年」があり、1つの学年には1~3までの3つの「クラス」があり、1つのクラスには1~5までの5つの「班」があるとします。 1つの班に所属する生徒は6人で、班の中では1~6まで6つの「班員番号」が割り当てられているすると、この小学校には6(班員番号)×5(班)×3(クラス)×6(学年)=540人の生徒がいることになります。 生徒は学年・クラス・班・班員番号を指定すれば一意に識別できます。学年・クラス・班・班員番号という4つの要素で540人を分類しているともいえます。 この例と同じように、Unicodeで定義されている世界中の文字は群・面・区・点という4つの要素で分類されます。 UCS-4という規格では128の群、256の面、256の区、2

  • これは備忘録 Unicode エスケープシーケンス 変換

    Unicode エスケープシーケンス(\uXXXX)形式 に変換するもの ついでにHTMLの数字文字参照、文字実体参照にも対応させてみた。 メモ Unicode の UTF-8 エンコーディングは ASCII 文字と互換性があります。 Unicode 文字の U+0020 から U+007E までは ASCII 文字の 0x20 から 0x7E と同等です。 ASCII はラテンアルファベットをサポートしており、7 ビット文字セットを使用します。 UTF-8 は各文字について 1 オクテットから 4 オクテットを使用します。 (「オクテット」は 1 バイト、すなわち 8 ビット)。 \uXXXX形式 は多分、javajavascriptで使用可能。 数値文字参照(文字参照):数値文字参照は、10進数もしくは16進数によって文書文字集合における該当文字を指定する方法 例: 「©

  • 1