タグ

日本語とunicodeに関するat_yasuのブックマーク (3)

  • CJK統合漢字拡張Fがヤバイ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    がCJK統合漢字拡張F1/F2に提案している文字には、すでにUCSに入っている漢字と見分けがつかない例がいくつもある。これらは、提案書*1に「Similar and Variation」として既存の文字の符号位置が記載されているものの一部であり、つまり、似ている漢字の存在は百も承知で提案しているわけだ。 以下、そのような例を拾ってみた。左右に並べた文字のうち「UCS」欄に符号位置が入っているほうが、既存のもの。個々の文字について述べることはしないが、要するに「別字の衝突であれば、形が同じでも別の符号を与える」ということだろう。 だが、ちょっと待ってほしい。それって実はものすごく根的な方針転換じゃないですか? 「機」の簡体字の「机」も「つくえ」の「机」も、形が同じである以上、同じ符号位置(U+673A)に包摂・統合するというのがCJK統合漢字の大原則であったはず*2。ここでいきなりそれ

    CJK統合漢字拡張Fがヤバイ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 漢字データベースプロジェクト

    概要 『漢字データベースプロジェクト』は、Unicode / UCS (Universal Multiple-Octet Coded Character Sets) によって符号化された漢字(CJK統合漢字)の情報交換・検索照合・分析に役立つ様々なデータベースを整備することを目的に、2003年度に日学術振興会科学研究費補助金・研究成果公開促進費(データベース)の援助を受けて開始しました。 各種漢字データファイルは、GitHubにて管理されており、GitHubサーバから取得することができます。 ライセンスについて プロジェクトのデータは、GPLライセンスおよびMITライセンスにて配布しています。 GPLライセンスによる配布 IDSデータ(ids.txt) 説文解字注(六書音均表等を含む)データ 宋廣韻データ 學生字典データ MITライセンスによる配布 上記以外のすべてのデータ(以下を含

  • 続・Encodeでラクラク日本語処理 - Articles Advent Calendar 2010 Casual

    この考え方が当に正しいかを確かめるために、UnicodeのコードポイントがU+00E8である「è」という文字を使って試してみましょう。 use strict; use warnings; use utf8; use Encode qw/is_utf8 encode_utf8/; sub disp_hex($) { use bytes; join ' ', map {sprintf '0x%X', ord($_)} split //, $_[0]; } my $utf8flagged = 'è'; # 内部表現がUTF-8の「è」 my $latin1 = "\x{00E8}"; # 内部表現がLatin-1の「è」 for ($utf8flagged, $latin1) { print "Dump: ", disp_hex($_), "\n"; print "UTF-8 flag: ",

    続・Encodeでラクラク日本語処理 - Articles Advent Calendar 2010 Casual
  • 1