Article freyasx/96 of [1-99] on the server localhost:7119
  upper oldest olders older1 this newer1 newers latest
search
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
[Reference:<_A95@freyasx.ML_>]
Newsgroups: mail-lists.freyasx

[FreyaSX] Re: FreyaSX action=URL
28 Aug 2006 07:42:31 GMT ysato@delegate.org (Yutaka Sato)
The DeleGate Project

In message <_A95@freyasx.ML_> on 08/28/06(15:27:06)
you Shinichi Maruyama <pc4aabth4-6mmg7go7iqdw.ml@delegate.org>, Shinichi Maruyama <pc4aabth4-6mmg7go7iqdw.ml@delegate.org> wrote:
 |丸山です。
 |
 |ysato>  |ysato>   delegated REACHABLE="*.domain" -Fany2fdif idx -h100 -r URL
 |
 |	この形式で動かしてみました。DeleGate は 9.2.4-pre18 を使いまし
 |た。
 |	リンクを追いかけるところは、良い感じでした。が、なかなか終了し
 |なくなり、結局中止しました。まだログを精査していないのですが、どうも同
 |じような URL を何度も見に行っているような気がします。どこかで Loop し
 |ているのかもしれません。
 |
 |	特に robot 的な機能は入っていないとのことでしたが、この形式で
 |動かしたとき、URL の重複をチェックするようなことは可能でしょうか。1度
 |見に行ったところは、2度と行かないと言うような。

さすがにそれはやっています。1回のany2fdifの実行の中で、同じURLは1度しか
たどらないようになっているはずです。

any2fdif の出力として、idx.fdif とともに、索引に追加したURLのリストを
記録した idx.summ というファイルができていると思いますが、その4番めの
フィールドがURLのCRC32値、5番めURLです。この両者が同じ行が複数
含まれているようなら、一致検査のどこかが間違っているのでしょう。


 |PS.
 |	今朝未明に出したものがエラーで戻りましたので、再度出しています。
 |重複があったらすみません。

どんなふうなエラーでしょうか?エラーメールを送っていただけますか?

                   9 9  
┌─┐┬┌──┬┐ //\^^ ( ~ ); {Do the more with the less -- B. Fuller}
├─┤│└─┐│ / 877m\_<   >_ <URL:http://www.delegate.org/delegate/>
┴ └┴──┘┴──────────────────────────────
佐藤豊@情報技術研究部門.産業技術総合研究所(独立行政法人)

  admin search upper oldest olders older1 this newer1 newers latest
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
@_@V