タグ

usabilityと文字コードに関するmaple_magicianのブックマーク (2)

  • Vistaで化ける字,化けない字(続報)

    前報で述べた通り,マイクロソフトのWindows Vistaでは,文字コードにUnicodeを使いながら,Unicodeとは異なる文字コード規格のJIS X 0213をサポートする,という方式を取っている。というのも,Windows 98日語版以降ずっとサポートしてきたCP932(名はWindows Codepage 932,いわゆるMS 漢字コード)やJIS X 0212を捨てるわけにはいかないので,CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う,というやり方を取らざるをえないのである。 前報では,JIS X 0213の第一水準~第三水準漢字7614字について,Vistaで新たに採用された日フォントセットであるメイリオとXP以前のMSゴシックを見比べ,7614字のうち325字*が,VistaとXP以前との間で文字化けする(ここでは来表

    Vistaで化ける字,化けない字(続報)
    maple_magician
    maple_magician 2006/12/27
    「゛」「゜」をカナの後においた場合、それを合成するか否かはUnicode対応アプリ次第らしく。Unicodeへのマッピングだけでもややこしいのに、そこにサロゲートペアと文字合成が絡み合うのか……ああ訳がわからないorz
  • KoichiYasuokaのブックマーク - はてなブックマーク

    チベット語モデルTibetan-BERT-wwmは「དཔོན་དམག་དང་གཟིགས་སྐྱོང་བྱེད་ཡུལ་གྱི་ཁྲིམས་མཐུན་ཁེ་དབང་ལ་སྲང་སྐྱོབ་བྱེད་པ།」をどうトークナイズするのか言語処理colaboratoryトークナイズチベット語 Yatao Liang, Hui Lv, Yan Li, La Duo, Chuanyi Liu, and Qingguo Zhou『Tibetan-BERT-wwm: A Tibetan Pretrained Model With Whole Word Masking for Text Classification』を横目に、Tibetan-BERT-wwmのトークナイザが「དཔོན་དམག་དང་གཟིགས་སྐྱོང་བྱེད་ཡུལ་གྱི་ཁྲིམས་མཐུན་ཁེ་དབང་ལ་སྲང་སྐྱོབ་བ

    maple_magician
    maple_magician 2006/12/16
    安岡先生自身の記事がブックマークされている。被言及件数が一目瞭然……なるほど、こういう使い方も出来るわけか。
  • 1