4. 設定の詳細

 

A. Configulation

 

メインメニューで 設定→現在の.iniファイルの編集 を選択すると以下の画面が開きダウンロードするサイトの設定を編集することができます。

 

 

  • サイト名の前のチェックボックスをチェックするとそのサイトをダウンロードします。ダウンロードしないサイトのチェックははずしてください。 全部チェック, 全部はずす ボタンで表示されているすべてのサイトのチェックをつけたりはずしたりできます。

  • サイト名は変更可能です。

  • 出力ファイル名も変更可能です。

  • 詳細ボタンを押すと、そのサイトについての詳細の定義が変更できます。 B に示す画面が開きます。

  • 削除ボタンを押すと、そのサイトを削除できます。

  • 1画面には10サイトしか表示されません。 <>ボタンで表示サイトを切り替えることが出来ます。

  • 読み込みボタンで設定の読み込みが出来ます。(別項参照)

  • 閉じるボタンで変更を保存せずに終了、OKボタンで保存後終了

  • 名前を付けて保存ボタンで別のファイル名で保存できます。現在のファイルを流用して他の曜日に使う.iniファイルを作るときに便利です。

B. 詳細設定の詳細

 

Aの設定画面で詳細ボタンを押すと以下のような画面が開きサイトの詳細が設定できます。

同梱されているiniファイルに設定されているサイトは、大体最適化されている(はず)ですからあまりいじる必要はないと思います.

 

詳細設定画面

 

  • 最初の行がサイト名(ファイルの最初に出力されます)

  • 出力ファイル名: 出力ファイル名

  • インデックスアドレス: 最初に記事のアドレスを読みに行くアドレスです。

  • ホストアドレスヘッダ: indexページでは相対アドレスで記事ページを参照していることが多いのですが、その場合に省略されているホスト(ドメイン)部分をここに入れておきます。

  • ダウンロード記事数: ここに数字を入れておくとそれ以上あっても指定した記事数以上ダウンロードしません。Configurationページでも同様に設定できますが、こちらはサイトごとに設定できます。両方設定してあると小さいほうの数字の設定が有効になります。

以降の3組はアドレスや記事を切り出すための文字列です。2つの文字列の間にあるのが必要なアドレスや記事だと判断します。htmlファイルのソースを読んでうまく設定してください。

  • インデックスを切り出す文字列: インデックスページで記事ページアドレスを切り出すためのフィルタ

  • ヘッダを切り出す文字列:記事ページで見出しを切り出すためのフィルタ

  • 記事を切り出す文字列: 記事ページで本文を切り出すためのフィルタ

* インデックスを切り出す文字列を空白にするとインデックスアドレスで指定したページの内容だけを出力します。(1ページのみのDL)

 

 

記事ページに対する詳細の設定

  • タグを全部除去: これをオンにすると記事中のすべてのタグを除去します。テキストのみの出力になります。(改行は追加します)

  • テーブルタグ

    • 全部のテーブルを保持:これをオンにすると記事中のテーブルタグをすべて残します。記事中に表がある場合にはオンにしておくと表が読めます。

    • テーブルタグのみ除去: これをオンにすると記事中のテーブルタグのみを取り除き、タグの間の内容は残します。テーブルタグを使って整形しているページの場合に使います。記事中のイメージは大抵テーブルタグで整形されているのでイメージを残すときはこれを指定するとうまくいくことが多いです。

    • テーブルをすべて除去:これをオンにするとテーブルをすべて除去します。テーブルタグとその間にある内容も除去します。

  • 画像を保持: これをオンにすると記事中のイメージ(写真など)を残します。

  • 最小サイズ: 規定値では256バイト以下の画像はダウンロードしません。これ以下の画像のダウンロードが必要な場合はここに最小の画像サイズを入力します。

  • 削除:このボタンを押すとこのサイトの設定すべてを削除します。

  • 閉じるで変更を保存せずに終了、OKボタンで保存後終了 ボタン

 

3. 使い方のヒント

テキストファイル出力

HTMLはブラウザが重い、テキストビュワーでさくさく読みたい方は、Config Detail画面でRemove all tagsをチェックしてください。タグをすべて取り除いた上、改行(<BR>、<P>タグ)は改行(CRLF)に置き換えて出力します。

 

見出しのみの出力

インデックスページの見出し(ヘッドライン)だけ読みたい方は、Config Detail画面で、Filter Strings for indexをFilter Strings for textに移して、Filter Strings for headlineとFilter Strings for textを空にしてください。(やったことないけどたぶんこれで見出しだけの出力ができると思います…)