[B! unicode] labochoのブックマーク

特集 : 絵文字が開いてしまった「パンドラの箱」

2008年11月27日、Googleが携帯電話で使われる絵文字をUnicodeに収録するプロジェクトを発表した。このニュースが意味することは何か。絵文字のUnicode収録の舞台裏を探る。

labocho 2014/06/18

リンク

UTS #18: Unicode Regular Expressions

Summary This document describes guidelines for how to adapt regular expression engines to use Unicode. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a normative reference by other specifications. A Unicode Technical S

labocho 2013/12/18

正規表現

unicode

リンク

Playing Cards - Unicode Consortium

labocho 2013/10/14

トランプ

unicode

リンク

The Split is Not Enough: Unicode Whitespace Shenigans for Rubyists

That code is legal Ruby! If you ran it, you'd see 8. How? There's a tale to tell.. The String with the Golden Space I was on IRC in #nwrug enjoying festive cheer with fellow Northern Rubyists when ysr23 presented a curious probl em. He was using a Twitter library that returned a tweet, "@twellyme film", in a string called reply. The probl em was that despite calling reply.split, the string refused t

labocho 2012/11/27

space かと思ったら nom-break space だった👉[[:space]]でマッチできる👉識別子に使ってみる

ruby
unicode

リンク

Unicode 半角・全角形 - CyberLibrarian

範囲：FF00～FFEF Unicodeの半角・全角形（The Unicode Standard Halfwidth and Fullwidth Forms）を十六進数の数値文字参照で記述した表です。 Fullwidth ASCII variants（全角ASCII） Unicode 表示名称備考 FF01

labocho 2012/02/07

unicode

リンク

Twitterに登場する動物ʕ•̫͡•ʔの顔文字を構造解析する - RyoAnna

Tweet Twitterで見かけるようになったオバケのような動物の顔文字。 Yahoo知恵袋にこの顔文字についての問い合わせがあった。 ✔ 最近ʕ•̫͡•ʔとか༼⍨༽を見かけますが、これはどんな仕組みになっているのですか？ - Yahoo!知恵袋質問の回答として当ブログの記事がリンクされているが、この顔文字は本当に合成用区分符号で構成されているのだろうか。気になったので調べることにした。実は、先の記事でUnicoder Liteを紹介した後、アプリの作者さんからメールを頂いていた。そこにUnicoder Pro (App Store 450円)なら顔文字を解析できると書いてあったので試した。簡単にできた。 1）IPA発音記号拡張 0295 2）一般句読点 2022 3）合成用区分符号 0361 4）合成用区分符号 032B 5）一般句読点 2022 6）IPA発音記号拡張 02

labocho 2011/09/03

リンク

http://unicode-utils.rubyforge.org/

labocho 2011/08/24

文字名とか簡単に参照できる

リンク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

labocho 2011/08/11

リンク

Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo

Unicode のコードポイントを指定して文字を得たり、逆にある文字のコードポイントを調べたり、ということをする機会は結構多いと思います。が、Ruby でそれをやる方法をぐぐってもあまり上位に情報が出てこないなー、と思ったので簡単にまとめておきます。 Unicode コードポイントとはそもそも Unicode コードポイントとは何か。 Unicode というのは世界中の文字が集められた文字集合であり、Unicode に収録されている文字には順番に番号が振られています。この番号のことをコードポイントといいます。あるコードポイントが指す文字を表現するときに "U+" という文字の後ろに 16 進数表記のコードポイントを書いて表すことがあります。例えば、コードポイント 0x3041 が指す文字 (ひらがなの「あ」) を U+3041 と書いて表します。各文字とコードポイントの関係は

labocho 2011/04/09

ruby
unicode

リンク

UAX #15: Unicode Normalization Forms

Summary This annex describes normalization forms for Unicode text. When implementations keep strings in a normalized form, they can be assured that equivalent strings have a unique binary representation. This annex also provides examples, additional specifications regarding normalization of Unicode text, and information about conformance testing for Unicode normalization forms. Status This documen

labocho 2010/09/28

正規化

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

unicodeに関するlabochoのブックマーク (10)

お知らせ

はてなブックマークの計画メンテナンスのお知らせ（2025年1月31日(金) 深夜1:30〜3:00）

ブックマークしたエントリーのタイトル変更機能の提供を一時的に停止します

【復旧済】「マイホットエントリー」「お気に入り」「関心ワード」が利用できない障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス