タグ

encodingに関するkoroharoのブックマーク (7)

  • 改行コードの違いを体感してみる - ザリガニが見ていた...。

    テキストを入力して、保存して、再び画面に入力したままを表示する。これはコンピュータを操作する上で、最も基的な欲求である。出来て当然のことなのだけど、稀に出来なくて思い悩むことがある。 最近のGUI環境は気が利いているので、ほとんどの場合、良きに計らい正しく表示してくれる。しかし、コマンドの世界では、文字コードにまつわるすべての設定を自分でコントロールする必要がある。すると、とたんにこの最も基的な欲求を満たせなくなることが多い。(自分のこと) なぜ文字化けしてしまうのか?なぜ1行しか表示されないのか?なぜgrepで検索されないのか?なぜ1行ずつループ処理してくれないのか?文字コードにまつわる疑問は多い...。基的なことを理解していれば、思い悩む必要はないのに、毎回無駄に悩んで、時間を浪費している気がする。 まずは文字コードの違いから、ちゃんと調べ直してみた。 実験環境 OSX 10.9

    改行コードの違いを体感してみる - ザリガニが見ていた...。
  • UTF-8にもいろいろある - ザリガニが見ていた...。

    前回からの続き。 改行コードの違いを体感してみる - ザリガニが見ていた...。 文字エンコードとロケールを体感する - ザリガニが見ていた...。 改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。 実験環境 OSX 10.8 Mountain Lion以前((OSX 10.9 Mavericksでは、Mac仕様なNFDのUTF-8を表示しようとするとエラーになってしまったため、10.8以前の環境で実験した。Assertion failed: (width > 0), function conv_c, file /SourceCache/shell_cmds/shell_cmds-175/hexdump/conv.c, line 137. ** ** Abort trap: 6

    UTF-8にもいろいろある - ザリガニが見ていた...。
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
    koroharo
    koroharo 2010/07/11
    グリフについての話も含めるといいと思われ。
  • Developer'sWorks - Vista文字とチェック方法

    Vista文字とチェック方法 WindowsVistaでは JIS X 0213:2004 の対応が行われ、MSゴシックとMS明朝のアップデートが行われています。 また、新しいフォントとして メイリオ が標準搭載されています。 メイリオ(Meiryo)はWindows Vistaに標準で搭載されているClearType対応日フォントです。 より細かい階調制御で文字のジャギーを減らし、曲線もきれいに表示できるという特色があります。 このページでは、これら変更による Java上の影響や注意点をまとめていきます。

  • レビューで鍛えるJavaコーディング力 その7(文字コードチェック) - 谷本 心 in せろ部屋

    今回は、文字コードのチェック(エンコーディングチェック)を行う処理に関する問題です。 問題 以下のコードの問題を指摘し、修正してください。 ただし、問題は複数あることもあれば、全くないこともあります。 public class StringValidator { private static boolean checkCharacterCode(String str, String encoding) { if (str == null) { return true; } try { byte[] bytes = str.getBytes(encoding); return str.equals(new String(bytes, encoding)); } catch (UnsupportedEncodingException ex) { throw new RuntimeExcepti

    レビューで鍛えるJavaコーディング力 その7(文字コードチェック) - 谷本 心 in せろ部屋
  • 第7回■文字エンコーディングが生み出すぜい弱性を知る

    文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。 文字エンコーディングに依存する問題をさらに分類すると2種類ある。(1)文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と,(2)文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。 不正な文字エンコーディング(1)――冗長なUTF-8符号化問題 まず,(1)の不正な文字エンコーディングの代表として,冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン(表1に再掲)を見ると,コード・ポイントの範囲ごとにビット・パターンが割り当てられているが,ビット・パターン上は,より多くのバイト数を使っても同じコー

    第7回■文字エンコーディングが生み出すぜい弱性を知る
  • 2004-10-19

    電網徘徊録より. IDEAのウリが,またひとつ無くなった... XSLを適用したいXMLファイルのプロローグに,こんな風に記述する. <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="style.xsl"?>あとは,XMLをIEで開くだけ. #Firefoxでもできた. というエンコーディング名がJDK1.4.2から使えるようになったことを,今更知った. JavaのEUCコンバータがアレなのは知ってたんだけど,eucjp-openを使うことで,丸数字とかローマ数字といった機種依存文字が文字化けせずにEUCに変換できるようになった. #Windows-31Jに対するエンコードなんすか?これ. 相変わらず文字コードは頭がゴチャゴチャする.:-( とりあえず関連しそうなリンクをメモ. 文字コ

    2004-10-19
  • 1