packNews.iniファイルの書式

packNews.iniファイルの書式 (v.0.7の書式です。0.7ではパラメータが追加されました。）

ファイル名はpackNews.ini

iniファイルの例

E[tab]18[tab]c:\temp\news\[tab]NOAUTO[tab]NODAILY[tab]10[tab]CONTENTS[cr][lf]

アサヒコム国際[tab]http://www.asahi.com/international/list.html[tab]http://www.asahi.coml[tab]Kokusai.html[tab] [tab][tab][tab][tab][tab] [tab]RemoveAll[tab][tab][tab]15[cr][lf]

goo芸能[tab]http://news.goo.ne.jp/news/geino/index.html[tab]http://news.goo.ne.jp[tab]Geino.html[tab]

【芸能全般】[tab][tab][tab] [tab][tab]RemoveTableTag[tab]KeepPix[tab][cr][lf]

　

以下続く…

最初の行はソフトの動作設定です。項目の区切りはTab(0x09)です。

最初の項目はPocketPCの言語設定です。ここに(例のように）"E"を入れておくと英語版IEでうまく画面に合わせて改行してくれるように一定間隔でスペースを挿入します。多分日本語版のPocketPCには不要だと思います。その場合には”E"以外の適当な文字を入れておいてください。
次の数字は前項で指定した際にスペースを入れる間隔(文字数)です。うちのIEでは18でうまくいっているのですが表示がきれいでない場合は普通にIEで1行に表示される文字数くらいの数字を入れて調整してみてください。日本語版で使用の際にも適当な数字を入れて置いてください。
つぎはダウンロードしたファイルを入れるパスです。パスがなければ勝手に作ります。　エラーログ（packNews.log）もここに出力されます。　テンポラリファイルもここに作ります、が終了時に消します。
AUTO/NOAUTO 自動実行フラグ。これがAUTOだと起動直後に指定どおりダウンロードし、ダウンロード終了時にプログラムを閉じます。
DAILY/NODAILY この項がDAILYだと3で指定したディレクトリの下に日付ディレクトリを作りそこにファイルを出力します。日付ディレクトリでファイルを整理することが出来ます。
次の数字は各サイト（インデックス）でダウンロードする記事数です。ここが空白だとインデックスページにある記事すべてをダウンロードします。
CONTENTS/NOCONTENTS この項がCONTENTSだと出力先のディレクトリに目次ページのファイル(index.html）を作ります。目次ページの中にダウンロードした記事ファイルのリンクを張ります。5でDAILYを指定すると日付ディレクトリに目次ページを作り、更に1つ上(3で指定したディレクトリ）に日毎の目次ページにリンクを貼った総目次(index.html)ファイルを作ります。

2行目以降がダウンロードのためのインデックスページの設定です。

1行(CRLFで区切る）に1つのインデックスページに関する設定を記述します。項目の区切りはtab(0x09)です。
最初の項目は自分でつける見出し名です。これはファイルの最初に書き出されます。見出し名の最初に’があるとコメントアウトされているとみなしてダウンロードしません。
次がインデックスページのhtml。
その次はニュースページが収められているサーバのアドレス(?)。インデックスページのソースを見ると分かるのですが、大抵ニュースページのアドレスが相対アドレスで書かれています。ので省略されている部分をここに書いておきます。
次は出力先のファイル名。
次2つがインデックスページでニュースページのhtmlを探すための'フィルタ'文字列です。プログラムはこの2つの文字列の間にかかれているhtmlアドレスを取り出します。不要なリンクを捨てるためのフィルタです。インデックスページのソースを見てうまいこと決めてください。
次の2つはリンクで飛んでいった先のニュースページで見出しを探すための'フィルタ'文字列です。プログラムはこの2つの文字列の間にかかれている部分を見出しと思ってファイルに出力します。見出しは一応Boldで出力されます。（がうちのIEでは区別がつかない…）
次の2つはニュースページで記事本文を探すための'フィルタ'文字列です。プログラムはこの2つの文字列の間にかかれている部分を記事としてファイルに出力します。
RemoveAll: ここにRemoveAｌｌと入れると、HTMLタグをすべて取り除きテキスト出力をします。
RemoveTable/RemoveTableTag: ここにRemoveTableと入れるとTable（Tableタグで定義された）を丸ごと取り除きます。記事中に写真や表がありそれらを丸ごと取り除きたい場合に指定します。RemoveTableTagを入れるとTableタグと関連のタグのみを取り除きTableの内容は残します。記事がTableタグを使って整形されているときに指定します。また写真を残す（次項）場合はTableタグを使って写真が埋め込まれている場合があるのでその際にも指定します。
KeepPix: 写真等を残したい場合に指定します。<img src=で記述されたファイルをダウンロードして、リンクを残します。
次の数字はこのサイト（インデックス）でダウンロードする記事数の制限です。ここが空白だとインデックスページにある記事すべてをダウンロードします。1行目ですべてのサイトに対する制限を設定できますが、この項の値といずれか少ないほうで制限します。

同梱のｉniファイルに現在までに動作が確認できたサイトの設定が含まれていますので参考にしてください。

でもうまく動作させるためには設定をかなり試行錯誤しないといけないかもしれません。iniファイルの設定がうまくできない方は作者までご連絡ください。こっちでつくってみます。

またiniファイルの作成の為にソースコードが必要な方はお知らせください。お送りします。interactiveに動かしながらいじると効率的に作業できますので。

うまくDLできないとお悩みの方へ

DL中の画面には作業しているサイトのアドレス等が表示してあります。

最初の行は見に行っているインデックスページのアドレス。2行目がDLしている記事のページのアドレスです。記事のアドレスがちゃんと切り出せているか確認してください。どのようにアドレスが化けているかが設定修正のヒントになります。

またｖ.0.6.80以降、データと同じパスにログファイル(packNews.log)を作成、エラーメッセージを出力するようにしました。エラーメッセージもなるべくパラメータの試行錯誤に役立つようにしました。ご利用ください。

インデックスページでリストされている記事のアドレスは.html、.htmファイルまたは.asp+パラメータであること。それ以外のアドレスは無視します。