タグ

japaneseに関するpoppenのブックマーク (51)

  • Perl5 で半角カタカナにマッチする正規表現を簡単にかく方法について - tokuhirom's blog

    Perl5 で半角カタカナにマッチする正規表現を簡単にかく方法について にしても、こちらのサイトでも言われていますが、なぜ半角カナ専用のUnicodeブロックがないのかと小一時間(ry http://blog.livedoor.jp/sasata299/archives/51194035.html http://d.hatena.ne.jp/pasela/20081003/ll_unicode ということで、 sub InHankakuKatakana { "FF65\tFF9F" } という一行をはっつけると、つかえるようになりますね。 #!/usr/bin/perl use strict; use warnings; use utf8; use Test::More; sub InHankakuKatakana { "FF65\tFF9F" } ok("\x{FF65}" =~ qr/

  • GitHub - taichino/jcconv: jcconv "JapaneseCharacterCONVerter", interconvert hiragana, katakana, halfwidth kana'

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - taichino/jcconv: jcconv "JapaneseCharacterCONVerter", interconvert hiragana, katakana, halfwidth kana'
  • ひらがな・カタカナ・半角カナを相互に変換するjcconvを書いた – taichino.com

    クローラで日語情報を収集してると、ひらがな・カタカナを相互に変換したい事が割とあります。毎回適当に処理するのが嫌になってきたので、相互変換するpythonモジュールを書きました。 使い方は以下の様な感じです。 >>> from jcconv import * >>> print hira2kata('あいうえお') # hiragana to katakana アイウエオ >>> print kata2hira('カタカナ') # katakana to hiragana かたかな >>> print half2hira('ハンカクカタカナ') # half-width kana to hiragana はんかくかたかな >>> print half2wide('hello jcconv') # half-width alphabet to wide-width hello jcconv

  • blogSetomits: zenhan.py 0.4

    全角/半角変換を行う Python モジュールの zenhan.py をくわばらくんが改良してくれました。ものはzenhan-0.4.tar.gzです。 変更内容は大きくは以下の2点です。 1. 変換の高速化 変換結果を一文字ずつ += でつなげてた箇所を、いったんリストに append して最後に join でつなげて返すように。これによって 2,600文字を半角から全角: 0.025sec(ver 0.3) → 0.006sec(ver 0.4) 26,000文字を半角から全角: 1.681sec(ver 0.3) → 0.062sec(ver 0.4) 260,000文字を半角から全角: 115.818sec(ver 0.3) → 0.621sec(ver 0.4) と、数が多い場合に劇的に速くなりました。 2. 空文字を与えたときの挙動 0.3 では空文字が渡された場合は例外を送出

  • 旧・Macの手書き説明書 - FC2 BLOG パスワード認証

    ブログ パスワード認証 閲覧するには管理人が設定した パスワードの入力が必要です。 管理人からのメッセージ https://mac-tegaki.comへ移転中 閲覧パスワード Copyright © since 1999 FC2 inc. All Rights Reserved.

  • Perlで日本語(ISO-2022-JP)メールを送信(まとめ) - kopug memo

    UTF-8で作成されたメール文をMIME::Lite及びEncodeを使用してメールを送信をする。 そこで問題となってくるのが下記の3点。 1.チルダ(全角)等の文字化け("〜 ‖ − ¢ £ ¬ ") 2.機種依存文字が含まれていた場合の対応 3.MIME::Lite で smtp送信する場合、Return-Pathが有効にならない 1.チルダ(全角)等の文字化け("〜 ‖ − ¢ £ ¬ ")に関する解決方法: これは有名らしいのですが、Encode::JPが採用している UnicodeConsortium の写像表 に問題があるとかで、 一部の文字が化けます。チルダとか。 しようがないので こんな風に対応しておきました。 my %map = ( "\x{ff5e}" => "\x{301c}", # 〜 (1-33, WAVE DASH) "\x{2225}" => "\x{201

    Perlで日本語(ISO-2022-JP)メールを送信(まとめ) - kopug memo
  • Ruby,Perl,Pythonのメモ〜文字コードと文字列長〜 - numozoの日記

    メモ: ・日語の取り扱いのめも その2(文字列長、バイト長について) ・バージョンはruby 1.9.1p129,perl v5.10.0,Python 3.0.1 ・バージョンが古いと動かない ・ついでに 404 Blog Not Found:perl, python & ruby - chr() vs. Unicode と 404 Blog Not Found:perl, python & ruby - ord() vs. Unicode の情報は古いので、今の書き方を書いとく ruby perl python 文字列長 文字コード指定が正しいなら文字数 utfフラグ付きなら文字数 code unit数(文字数でない)*1 configureで--with-wide-unicodeすれば文字数 ※1ただし、コンパイル時のオプションで変えられるらしい 参照:DSAS開発者の部屋:Pyt

    Ruby,Perl,Pythonのメモ〜文字コードと文字列長〜 - numozoの日記
  • 正確な文章の書き方

    このページでは、正確な文章を書くための秘訣をまとめてみようと思います。それほど文章がうまいとはいえない私が、文章の書き方について述べるのですから、むこうみずな行為であることは百も承知です。しかし、数年に渡って探求した正確な文章の書き方が、少しでもみなさんの役に立てばという思いを自分への励ましに代えて筆をとります。 ここでお話するのは、「文章をいかに正確に書くか」や「自分の考えをどうやったら適切に表現できるか」であって、決して「どうやったら人を感動させる名文句が書けるのか」ではありません。 このページを読んだら「科学技術文献」を書くための技術が少しは身に付くのではないかと期待しています。しかし、 人はいさ 心も知らず ふるさとは 花ぞ昔の 香ににほひける (紀貫之) などのような心に残る文章が頭に浮かぶようになるわけではありません。 絵の書き方に例えて言うなら、ここで述べる内容は、色彩や調和

  • 漢数字→数値変換メソッド - ’(rubikitch wanna be (a . lisper))

    P230 - "七千百二十三"といった、漢数字による数の表現を「7123」のような数値に変換するメソッドkan2numを定義してみよう - krystal: プログラミング超初心者(文系) - Rubyist とりあえず1〜9999対応。 # -*- coding: euc-jp -*- KANNUM_1_9 = { ''=>1, '一'=>1, '二'=>2, '三'=>3, '四'=>4, '五'=>5, '六'=>6, '七'=>7, '八'=>8, '九'=>9 } def kan2num(kan) # _1000→●千 __1000→● _1000, __1000, _100, __100, _10, __10, __1 = kan.match(/\A((.*)千)?((.*)百)?((.*)十)?(.*)\z/).captures ret = __1 == '' ? 0 : K

    漢数字→数値変換メソッド - ’(rubikitch wanna be (a . lisper))
  • ルビ振りAPIで「ふりがな」を付けよう!

    ルビ振りAPIで「ふりがな」を付けよう! 2008-10-11-2 [Programming][NLP] Yahoo!デベロッパーネットワークで、ちょっと前に「ルビ振りAPI」が公開されました。 Yahoo!デベロッパーネットワーク - テキスト解析 - ルビ振り http://developer.yahoo.co.jp/jlp/FuriganaService/V1/furigana.html ルビ振りWebサービス 漢字かな交じり文に、ひらがなとローマ字のふりがな(ルビ)を付けます。 この記事では、その特徴と簡単なサンプルプログラムを紹介します。 特徴 ふりがなを付けるだけなら形態素解析API[2008-04-05-5] を使ってもよいのですが、このルビ振りAPIは 対象とする漢字グループを選択できるところがポイントです。 例えば、小学N年生向けを選択すると(N-1)年生までに習う 漢字

    ルビ振りAPIで「ふりがな」を付けよう!
  • Ruby on Rails をカンタン日本語化。 RailsJa, ActionMailerJa を公開しました。 - imishin.com

    Ruby on Rails を簡単に日語化する RailsJa, ActionMailerJa を公開しました。 プラグインをインストールするだけで、Rails アプリケーションと ActionMailer の日語対応ができます。 経緯 現在の Ruby on Rails の日語化の定番と言えば、Ruby-GetText です。 しかし、多国語対応ではなく、単に日語対応したいだけであれば、少し大げさな印象がありました。 そこで、Ruby on Rails をカンタンに日語対応できるようなプラグインを開発してみました。 それぞれのプラグインの詳細は以下のページをご覧下さい。 RailsJa ActionMailerJa

  • ヤフーが読みがな設定API「ルビ振りWebサービス」を公開 | エンタープライズ | マイコミジャーナル

    ヤフーは16日、開発者向けサイト「Yahoo!デベロッパーネットワーク」を通じて、日語文章に含まれる漢字に読みがなをつけるためのAPI「ルビ振りWebサービス」を公開した。利用には、Yahoo! JAPAN IDおよびアプリケーションIDの登録と、Yahoo!デベロッパーネットワークが提供するソフトウェア開発キット (SDK) が必要。 ルビ振りWebサービスは、漢字にルビを付けて表示する「Yahoo!きっず」の補助機能「よみがなツール」をAPI化したもの。形態素解析エンジン「WebMA」に用意された語彙数約50万語の辞書を使い、漢字かな交じり文の漢字部分の読みをひらがなやローマ字に変換する機能を提供する。 「よみがなツール」同様、利用者の学習レベルに応じたよみがなの表示も可能。1989年に文部科学省が告示した小学校学習指導要領の付録「学年別漢字配当表」を参考にパラメータを設定、1〜6が

  • kcode - 各種文字コードを表示する

    更新日: $Date: 2005-11-20 08:29:56 $ UTC ($Revision: 1.2 $) 公開日: 2004/04/01 目的 「Shift_JISで『あ』のコードってなんだっけ?」とか「UCS-2のU+3042ってどの文字だっけ?」といった際に、 ターミナルで手軽に確認できるようにするツールである。 機能 標準入力もしくはコマンドライン引数から、 文字そのものか文字エンコーディングの16進数表記を受け取り、 各種文字エンコーディングでの16進数表記とUnicode, IncのUnihan DatabaseのURLを出力する。 出力する16進数表記の文字エンコーディングの種類は以下の通り。

  • CSS - ルビ再び : 404 Blog Not Found

    2008年07月15日17:15 カテゴリLightweight Languages CSS - ルビ再び 以前、 404 Blog Not Found:css - ルビもCSSで という記事を書いたのだが、Firefox 3でどうもきちんと表示されない。これは困った。どうしてもルビを使いたい記事があるのだ。 というわけで、今度は大の記事をそのままコピペするのではなく、CSSをきちんと理解した上で書き直してみた。 その結果が、以下である。 ここのblog主は <ruby>小飼<rp(></rp><rt>こがい</rt><rp>)</rp></ruby> <ruby>弾<rp>(</rp><rt>だん</rt><rp>)</rp></ruby> といいます。 ここのblog主は 小飼(こがい) 弾(だん) といいます。 ruby { display:inline-table !import

    CSS - ルビ再び : 404 Blog Not Found
  • moji 日本語の文字種判定、文字種変換(半角→全角、ひらがな→カタカナなど)を行います。

    Moji モジュール 日語の文字種判定、文字種変換(半角→全角、ひらがな→カタカナなど)を行います。 インストール: 以下のコマンドを実行してください。 $ sudo gem install moji 使い方: Ruby 1.8: $KCODE を指定してから require "moji" してください。 Moji モジュールの関数に渡す文字列の文字コードは $KCODE と一致させてください。 Ruby 1.9: どの文字コードの文字列を渡しても大丈夫ですが、 String#encoding が正しく設定されている 必要があります。正規表現を返す関数( Moji.kata など)は Encoding.default_internal (設定されてない場合はUTF-8)用の正規表現を返します。その他のエンコーディング用の正規表現は Moji.kata(Encoding::SJIS) など

  • 和名配色 for Perl - NeverBlog::Likk::Unexistable;

    パソコンが示す色に注意しよう。色は色名から選ぶ。 | BPnetビズカレッジ | nikkei BPnet 〈日経BPネット〉 JIS慣用色名 - Wikipedia 辺りを読んで、perlモジュール Color::Japanese をサクっと書きました。 作成するに当たって、color-japanese - 日の色名パレット ライブラリ - *Trace Output* も見たのですが、rubyサッパリ分かりませんので色リスト部分だけ頂きました。 以下モジュール内容 package Color::Japanese; use strict; use warnings; our $VERSION = '0.1'; our $dic_name; our $dic_code; while(<DATA>){#リストから逆・正引き辞書作成 chomp($_); my ($code,$hebon_c

    和名配色 for Perl - NeverBlog::Likk::Unexistable;
  • acts_as_summarizable_japaneseリリース。 - 青空を探す、旅の記録。

    Rails用の文章要約プラグイン、 acts_as_summarizable_japaneseをリリースしました。カケラの樹、月燈火で使用している文章要約エンジンをプラグイン化した物です。同梱のエンジンライブラリを単独で使うことも可能です。 どうぞご利用下さい。

    acts_as_summarizable_japaneseリリース。 - 青空を探す、旅の記録。
  • Ajax IME: Web-based Japanese Input Method

    Webベースの日本語入力サービスです。海外からでもブラウザさえあれば日語を入力す ることができます。 特別なソフトは必要ありません。 使い方 お使いのコンピュータの日本語入力を切りかえて直接入力にします。 Alt-o (Ctrl-9) で Ajax IMEモードに変更します。(ボタンで切り替えるかえることもできます) 適当な文をローマ字で入力します。 spaceを押して漢字に変換します。続けて押すことで候補選択を行います。 returnを押す、もしくは次の入力を開始することで入力を確定します。 F9で強制的にカタカナに、F8で強制的にアルファベットに変換します。 再度 Alt-o (Ctrl-9)で直接入力に戻ります 海外旅行先や留学先, 海外のネットカフェなど日本語入力環境が 無いパソコンからご使用ください。 Firefox と Internet Explorer で動作確認をしていま

  • 読み方がわからない漢字をWebサービスでなんとかする方法 - rytich's diary

    サイトを運営していたら 『ぼくの名前は廬です。不愉快ですので即刻訂正してください。』とFaxが届いたときに備えてWebサービスを使って即刻訂正する練習。 パーツごとに分ける IMEとかでマウスからなんたらするのはうまくいったためしがないし部首名とかぜんぜんわからんし。 廬には『广』とか『皿』が含まれているのでそのパーツを探します。 http://fonts.jp/archives/search/ 『皿』は「さら」でいいですが、『广』を一発で搾り出す若さがないので上記Webサービスで『店』などを分解して『广』をコピー。 パーツから漢字を検索 次にパーツを組み合わせて目当ての漢字を探します。 http://www2.theta.co.jp/kanji/findrecords.php?-db=HyperRetrieval ハイパー検索:に『广』をペーストして、『皿』を入力 検索実行すると… 今回

    読み方がわからない漢字をWebサービスでなんとかする方法 - rytich's diary
  • 意味を間違えやすい言葉

    【意味を間違えやすい言葉】 ここでは、来の意味を間違って使われやすい言葉、または意味によって使い分けの必要な言葉をご紹介します。(50音順) 卒業前の学生に対し、企業が早い時期から採用内定を出すことは、正しくは「青田買い」といいます。「青田」は、稲がまだ実っていない田の意味で、「青田刈り」は、昔の軍事作戦の一つで、敵が兵糧不足になるように、敵地のまだ青い田を刈り取ってしまうことを指していました。したがって、いくら早い段階の採用内定とはいえ、「青田刈り」の言葉を使うと、まだ実る前の役に立たない学生を採用するという失礼な意味になってしまいます。 「意思」は、自分の思いや考えのことで、「意志」はそのうちでも、何とかしたいという積極的な心の持ち方を意味します。ただ、法律用語としてはすべて「意思」を使っています。 「いしひょうじ」は、自分の考えを相手に向かって明らかにすることですから、「意