GetHTMLW 8.3.0: Windows Mobile つかってる?

GetHTMLW 8.3.0 ― 2011/11/03 00:15

とある老舗の雑誌社の方から、プログラムの紹介打診を受けましたので現状の最新バージョンをアップロードしました。

Ver.8.3.0: http://www.ne.jp/asahi/net/pockey/program/gethtmlw-8.3.0.zip

_ hige ― 2012/04/29 18:57

よく便利に使わせてもらっています
許容URL設定で正規表現を使えるようにはなりませんでしょうか?
取得範囲を上手く設定出来るようになるのですが。。。
いかがですか?

_ 管理人 ― 2012/05/01 11:09

hige さん、コメントありがとうございます。
なるほど、それはおもしろいかもしれないですね。
すぐにはできませんが、時間があったときに試してみます。

以下自分用メモ
line 127 in regcheck.cpp,
int RegistCheckClass::check_underhome(char *url);

_ 管理人 ― 2012/05/04 20:17

hige さん、
試しに作ってみました。
ver 8.3.0 のdownload path (URL) のファイル名を
gethtmlw-8.4.0TR1.zip
に変えてダウンロードしてください。
ｈｔｔｐ：／／ｗｗｗ．ｎｅ．ｊｐ／ａｓａｈｉ／ｎｅｔ／ｐｏｃｋｅｙ／ｐｒｏｇｒａｍ／ｇｅｔｈｔｍｌｗ－８．４．０ＴＲ１．ｚｉｐ

_ 管理人 ― 2012/05/04 20:22

使い方の説明を忘れていました。
許容URL設定の指定を正規表現表記でしたい場合は、指定文字列の先頭を
*
で始めてください。
例) URL 内の /image/ という文字を含む URL は許容という場合
*/image/
例) URL 内の banner という文字を含む URL は拒否という場合
!*banner

_ hige ― 2012/05/15 20:11

うおおおすごい許容範囲が一発です
ありがとうございます
blog内のリンク先の画像が簡単に落とせるようになりました
すごすぐる

_ 通りすがり ― 2012/10/09 15:22

ありがとうございます。
GetHTML 使わせていただいている者です。

日本語で表記されているURLで「取得できません」とダイアログが出ます。
（status:NoGood）

何か解決策がありましたらお教え頂ければ幸いです。

_ hoge ― 2013/01/03 22:35

はじめましてGetHTMLW(8.3.0)を使わせてもらっています。
ProxyModo2で特定の状況で強制終了するという問題が起りました。
設定は「prohibit.lws」に「.* *psv」と記述して全てのものを保存し、旧データも全て残しておく設定です。
しばらく使っていて、どうやら拡張子のないページやコンテンツ(主にgooブログやso-netブログ、他にはURLに2バイト文字を使用しているページ等)を読み込み保存して、
そのページやコンテンツをもう一度を読み込んで保存しようとする(更新時？)と、旧データの名前を変更できずに強制終了してしまうようです。(現在20GB 60万ファイル)
念のために0ファイルの状態からやり直してみましたが、強制終了は発生しませんでしたが、旧データのページやコンテンツは名前を変更して保存が出来ていませんでした。
もしかしたら、私の設定の仕方が間違っている場合があるかもしれませんので、その場合は正しい設定方法を教えてください。

それと、URLに2バイト文字を使用しているページを保存するときにファイル名が文字化けしてしまいます。
どうやら、URLはUTF-8文字コードのようで、それがGetHTMLWを通して保存するとShift-JIS文字コードで保存されているのが原因で文字化けが発生しているようです。修正お願いします。

あと、個人的な要望なのですがGetHTMLWを設定を別々にして複数起動できるようにしてほしいです。
複数のブラウザでProxyModo2とLocalModeを切り替えて使っているのですが、たまにどっちに切り替えているのか忘れてミスをしてしまうことがありますので、できればよろしくお願いします。

長々となってすみませんが、以上です。

_ 通りすがり2 ― 2013/12/01 16:44

ありがとうございます。長年愛用させてもらっております。
気がついた点を２つ
リトライリストの文字列フィルター部分「０：」の文字化け、エディターで修正するとフィルターが利きます
URLが２５６文字（たぶん）を超えたときの強制終了
私の環境（XP）によるものかもしれませんが、一応ご報告まで

_ 管理人 ― 2015/12/30 01:22

通りすがり2様、
feedbackありがとうございます。
もう二年も前なのでご覧になっていないか記憶から無くなっているかとは思いますが、
もし覚えていたら、
「リトライリストの文字列フィルター部分「０：」の文字化け、エディターで修正するとフィルターが利きます」の件、もう少し詳しく教えて頂けると対処が出来るかもしれません。

また、「URLが２５６文字（たぶん）を超えたときの強制終了」の件、URL自体は 1024文字だったか、4096文字だったか、リミッタを設けて強制終了しないようにはじいているつもりなのですが、特定の URL で問題が発生するのかもしれません。落ちる URL をご連絡いただけると対処できるかもしれません。

_ すい ― 2018/02/04 17:28

GetHTMLW、こんな場所があったのか、という事で、気になる書き込みもあるので私も書き込み。
GetHTMLW 大昔から便利に利用させて頂いています。

＞ URLが２５６文字（たぶん）を超えたときの強制終了

これ、多分違うと思います。
「ローカルに保存されているキャッシュファイルのパスが 260バイトを超えている場合に落ちる」
かと。

Windows ではファイルパス長さは 260文字までという制限仕様がありますよね？ MAX_PATH ?
多分それがらみ。
正確には
・Unicode アプリは 260文字まで(文字数)
・非Unicodeアプリは 260バイトまで(バイト数)
でしたっけ？
GetHTMLW は非Unicodeアプリなので 260バイトまで。

当方、落ちるルールが判明済みなので、個別に対処済みで問題無しですが。

1. perl 使って gethtml.hif 全内容をバイナリファイルとしてゴソッと読み込み、

2. 内容を \x00 で split、ファイル毎に分割して以下の処理

3. 行等が XF: の行があれば、XF: 以降の文字列長さ(バイト数)を取得
XF: が無いファイルであれば先頭行の URL の文字列長さ(バイト数)を取得

4. 取得した文字列長さ(バイト数)が260バイトを超えているものがあれば警告を出す。

5. 260バイトを超えている物があった場合、GetHTMLW 起動していない状態で gethtml.hif をエディタで修正。
該当ファイルのパスを XF: を使い、実ファイル共々、短く修正する、
あるいは該当ファイルの情報をバッサリ削除。

という処理を定期的に実施してメンテ。これで落ちなくなりました。。。
が、もし GetHTMLW 側で対処して貰えれば楽になりますね～～。

_ 管理人 ― 2019/11/07 10:39

「すい」様、コメント・考察ありがとうございます。テンポラリファイルのファイル名の長さチェック、時間ができたら確認してみます。

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

トラックバック

このエントリのトラックバックURL: http://gethtmlw.asablo.jp/blog/2011/11/03/6184821/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。

<<前次>>

SEO

最近の記事

このブログについて

カテゴリ一覧

最近のコメント

最近のトラックバック

バックナンバー

RSS

GetHTMLW 8.3.0 ― 2011/11/03 00:15

コメント

_ hige ― 2012/04/29 18:57

_ 管理人 ― 2012/05/01 11:09

_ 管理人 ― 2012/05/04 20:17

_ 管理人 ― 2012/05/04 20:22

_ hige ― 2012/05/15 20:11

_ 通りすがり ― 2012/10/09 15:22

_ hoge ― 2013/01/03 22:35

_ 通りすがり2 ― 2013/12/01 16:44

_ 管理人 ― 2015/12/30 01:22

_ すい ― 2018/02/04 17:28

_ 管理人 ― 2019/11/07 10:39

トラックバック

<< 2011/11 >>
日	月	火	水	木	金	土
		01	02	03	04	05
06	07	08	09	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

最近の記事

このブログについて

カテゴリ一覧

最近のコメント

最近のトラックバック

バックナンバー

RSS

ログイン

GetHTMLW 8.3.0 ― 2011/11/03 00:15

コメント

_ hige ― 2012/04/29 18:57

_ 管理人 ― 2012/05/01 11:09

_ 管理人 ― 2012/05/04 20:17

_ 管理人 ― 2012/05/04 20:22

_ hige ― 2012/05/15 20:11

_ 通りすがり ― 2012/10/09 15:22

_ hoge ― 2013/01/03 22:35

_ 通りすがり2 ― 2013/12/01 16:44

_ 管理人 ― 2015/12/30 01:22

_ すい ― 2018/02/04 17:28

_ 管理人 ― 2019/11/07 10:39

トラックバック