INTERNET Watchの連載の新しい原稿が、本日公開されたようです。 なぜUnicode正規化は生まれたか このあたり、もう2ヵ月くらい前に書いていたので、今読むと懐かしいなあ。 ※追記 書き忘れてました。今回の分は全部で6回分です。つまり来週の水曜日までつづくということかな。また、バックナンバーのサイトが以下に出来ています。 “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」一覧(2008年)
UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ 2008-05-01-3 [Programming] UTF-8 の全角ハイフン(便宜上こう呼びます)を Perl の正規表現でマッチさせようとしてはまりました。 全角ハイフンってのは「−」です。 やろうとしたことは、テキストファイル(UTF-8)を読み込んで、 その中の全角ハイフンを半角ハイフンに変換するという作業。 Perl スクリプトはこんな感じ。 use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { s/\p{Hyphen}/-/g; # または s/−/-/g; print; } 入力「12−234−5」に対して、 出力「12-234-5」を想定。 しかし一部の全角ハイフンだけが半角
NetBeansの中の人経由でこれを発見した。 Without default value for source encoding, platform encoding is used, which is bad for build reproducibility. Then setting a default value consistently across every Maven plugin will improve build reproducibility. Proposed default value: ISO-8859-1, which must be supported by every JVM (see java.nio.Charset) and is already the default value for some plugins (the majority of
「表外漢字字体表」の答申をうけて、新聞業界も続々と表外漢字を伝統的字体に戻しはじめた。平成16年にはJIS規格も国語審議会の答申を生かすべく改正され、「かもめ」のコードは朝日字体に譲って、あらたに「かもめの正字体」に対応するコードが作られた。 違う。JIS規格において「鴎」と「鷗」の文字コードが分離されたのは、1990年10月1日のJIS X 0212制定の時点だ。JIS X 0212の76区31点に「鷗」が収録されたことで、JIS X 0208の18区10点の「鴎」との分離がおこなわれた、と考えるべきだ。この結果、1995年1月1日制定のJIS X 0221においても「鴎」と「鷗」は異なる文字コードとなっており、Windows 98ですら「鴎」と「鷗」の両方を表示できた。あるいは、JIS X 0213に限ったとしても、2000年1月20日の制定時点で「鴎」と「鷗」には別の文字コードが付与
2007年03月18日06:00 カテゴリCodeLightweight Languages EUC-UTF8の可能性 404 Blog Not Found:シフトJISを残すべきか?のコメント欄の、UTFCPのLightConeさんとMatzさんの会話をぼ〜っと眺めているうちに、ひらめきました。 EUCとUTF-8って、マッシュアップできなくね? 鍵は\xFFにあります。このバイト、EUCにもUTF-8にも絶対あらわれないのです。 さすれば、あとはこう定義するだけです。 EUC-UTF8-CHAR = EUC-CHAR | \xFF + UTF-8-CHAR LightConeさん曰く、 UTFCP2の特徴として,日本と中国の漢字の主要部分が二バイトで現せる 特徴もありますが.他に, 後ろのバイトから正確に一文字づつ逆戻りできるという事があるのを知ってますか. 正確に逆戻り出来るのは,プ
これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今回は,エンコーディングについて考えてみたい。 これまでの記事でも書いてきたが,文字処理とエンコーディングに関する問題は,何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など,既存のWindowsでも同様だ。例えば,「鴎」の旧字である「シナカモメ」は,Unicodeでしか扱えない文字だが,Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには,アプリケーション・ソフトが,文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に,文字情報が無くなってしま
いよいよ一般向けの発売が迫った次世代OSの「Windows Vista」。2007年1月15日に行われた報道機関向けの発表会では、PCメーカー18社がVistaに対応した新製品を発表した。その一方で、従来のOSで作成した文字が、Vistaでは違った字体で表示される、という問題を指摘する声も挙がっている。マイクロソフト社も、対応するフォントを提供するなどの対策を講じてはいるが、細かい字体の違いを重視するユーザーは、注意が必要だ。 Vistaのフォントは新規格に対応したのだが 製品には「地デジ対応チューナー」を搭載するなど「家電」としての機能を大幅に強化、セキュリティー面が向上するなど、様々な面が刷新されたVistaだが、刷新されたポイントのひとつが、日本語のフォント環境だ。従来は文字コードの制約のため、「印刷物で使われている漢字とPC上に表示される漢字が異なる」、つまり、「略字」の使用を余儀
11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,本来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日本語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(本名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ
UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く