Article freyasx/8 of [1-99] on the server localhost:7119
  upper oldest olders older1 this newer1 newers latest
search
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
[Reference:<_A7@freyasx.ML_>]
Newsgroups: mail-lists.freyasx

[FreyaSX] Re: FreyaSX-0.97 リリース
25 Jul 2004 05:42:08 GMT ysato@delegate.org (Yutaka Sato)
The DeleGate Project

In message <_A7@freyasx.ML_> on 07/25/04(12:38:29) I wrote:
 |On 07/24/04(21:19) you ysato@delegate (Yutaka Sato) wrote
 |in <_A5@freyasx.ML_>
 | | |100万件の文書。32種類の属性。128段階の出現位置。出現位置は適合度のスコア
 | | |のためだけに使われていると思うので、例えば256バイト単位くらいで十分だと
 |
 |違いました。フレーズ検索に必要なんですね。前後の語との接続情報として。

どうしたわけか「出現位置は適合度のスコアのために使われてる」とずっと思って
ました。最初のほうに現れるほど重みをつけるとか。
しかしそういう事実はありませんでした(^^;

 | | |思う。また、32Kバイト以降の場合「それ以降」で十分なのではないかと。ある
 | | |いは出現位置の対数でも良いかも。
 | | |(このオフセット値は結局、文書内の行番号にすることにしました。また差分
 | | |による圧縮の効率を多少良くするように?位置情報は、
 | | |
 | | |  テキストポインタ = {ドキュメント番号:20, 行位置:7, 種別:5}
 | |
 | |という拡張をしたため、索引ファイルの互換性がなくなりました。
 | |現在のところ、link: というのと digest: というのを拡張しています。
 | |link: は Google などで提供されている「〜を参照しているもの」という検索です。
 | |digest: は「ドキュメントのダイジェスト(256文字)中に〜を含む」という検索です。
 | |
 | |ただし、これらの検索語としては現在のところ、単語しか書けません。つまり、
 | |「link:delegate」はOK ですが、
 | |「link:www.delegate.org」はダメで
 | |「link:www link:delegate link:org」は OK です:p
 |
 |たはは。べろ出してる場合じゃなかった:p
 |そんなわけで、FreyaSX-0.97.0 ではフレーズ検索機能が無くなってしまい
 |ましたとさ。
 |
 |となると対処法としては、ポインタ長を長くしてオフセットを収めるか、
 |XMapを復活させるか?

とりあえず、

   テキストポインタ = {ドキュメント番号:20, 種別:4, 文字位置:8}

に変更したら、フレーズ検索機能は復活しました。ただ、256バイト毎に文字位置
の値が0に戻るので、このままでは、その境界にかかっているフレーズは見つから
ないことになります。うーん、

   テキストポインタ = {種別:5, 文字位置:27}

みたいにして、ドキュメント番号はオリジナルに戻してXMapを2文検索、という
あたりが落としどころでしょうかね。

                   D G  
┌─┐┬┌──┬┐ //\^^ ( - ); {Do the more with the less -- B. Fuller}
├─┤│└─┐│ / 877m\_<   >_ <URL:http://www.delegate.org/delegate/>
┴ └┴──┘┴──────────────────────────────
佐藤豊@情報技術研究部門.産業技術総合研究所(独立行政法人)

  admin search upper oldest olders older1 this newer1 newers latest
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
@_@V