[Reference:<_A95@freyasx.ML_>]
Newsgroups: mail-lists.freyasx
[FreyaSX] Re: FreyaSX action=URL
In message <_A95@freyasx.ML_> on 08/28/06(15:27:06)
you Shinichi Maruyama <pc4aabth4-6mmg7go7iqdw.ml@delegate.org>, Shinichi Maruyama <pc4aabth4-6mmg7go7iqdw.ml@delegate.org> wrote:
|丸山です。
|
|ysato> |ysato> delegated REACHABLE="*.domain" -Fany2fdif idx -h100 -r URL
|
| この形式で動かしてみました。DeleGate は 9.2.4-pre18 を使いまし
|た。
| リンクを追いかけるところは、良い感じでした。が、なかなか終了し
|なくなり、結局中止しました。まだログを精査していないのですが、どうも同
|じような URL を何度も見に行っているような気がします。どこかで Loop し
|ているのかもしれません。
|
| 特に robot 的な機能は入っていないとのことでしたが、この形式で
|動かしたとき、URL の重複をチェックするようなことは可能でしょうか。1度
|見に行ったところは、2度と行かないと言うような。
さすがにそれはやっています。1回のany2fdifの実行の中で、同じURLは1度しか
たどらないようになっているはずです。
any2fdif の出力として、idx.fdif とともに、索引に追加したURLのリストを
記録した idx.summ というファイルができていると思いますが、その4番めの
フィールドがURLのCRC32値、5番めURLです。この両者が同じ行が複数
含まれているようなら、一致検査のどこかが間違っているのでしょう。
|PS.
| 今朝未明に出したものがエラーで戻りましたので、再度出しています。
|重複があったらすみません。
どんなふうなエラーでしょうか?エラーメールを送っていただけますか?
9 9
┌─┐┬┌──┬┐ //\^^ ( ~ ); {Do the more with the less -- B. Fuller}
├─┤│└─┐│ / 877m\_< >_ <URL:http://www.delegate.org/delegate/>
┴ └┴──┘┴──────────────────────────────
佐藤豊@情報技術研究部門.産業技術総合研究所(独立行政法人)
|