Article freyasx/5 of [1-110] on the server localhost:119
  upper oldest olders older1 this newer1 newers latest
search
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
[Reference:<_A4@freyasx.ML_>]
Newsgroups: mail-lists.freyasx

[FreyaSX] FreyaSX-0.97 リリース
24 Jul 2004 12:19:23 GMT ysato@delegate.org (Yutaka Sato)
The DeleGate Project


On 07/23/04(22:43) you ysato@delegate (Yutaka Sato) wrote
in <_A4@freyasx.ML_>
 | |今後「link:」の他にも拡張したくなったときのために、予備のフィールド
 | |を作っておくべきか?それとも使わないフィールドのためにファイルが
 | |大きくなるのはいかがなものか?使ってるフィールドだけ保存するように
 | |できるか?もしそうなら、プログラムを書き換えずに自由に拡張できるような
 | |仕組みを入れておきたい。
...
 |テキストの出現位置情報を、{ドキュメント番号, 種別, オフセット} にすれば
 |良さそう。これを、従来と同じ 32ビットで表現すると、それぞれ {20, 5, 7}
 |ビットという感じ。
 |100万件の文書。32種類の属性。128段階の出現位置。出現位置は適合度のスコア
 |のためだけに使われていると思うので、例えば256バイト単位くらいで十分だと
 |思う。また、32Kバイト以降の場合「それ以降」で十分なのではないかと。ある
 |いは出現位置の対数でも良いかも。
 |(このオフセット値は結局、文書内の行番号にすることにしました。また差分
 |による圧縮の効率を多少良くするように?位置情報は、
 |
 |  テキストポインタ = {ドキュメント番号:20, 行位置:7, 種別:5}

という拡張をしたため、索引ファイルの互換性がなくなりました。
現在のところ、link: というのと digest: というのを拡張しています。
link: は Google などで提供されている「〜を参照しているもの」という検索です。
digest: は「ドキュメントのダイジェスト(256文字)中に〜を含む」という検索です。

ただし、これらの検索語としては現在のところ、単語しか書けません。つまり、
「link:delegate」はOK ですが、
「link:www.delegate.org」はダメで
「link:www link:delegate link:org」は OK です:p

                   D G  
┌─┐┬┌──┬┐ //\^^ ( - ); {Do the more with the less -- B. Fuller}
├─┤│└─┐│ / 877m\_<   >_ <URL:http://www.delegate.org/delegate/>
┴ └┴──┘┴──────────────────────────────
佐藤豊@情報技術研究部門.産業技術総合研究所(独立行政法人)

  admin search upper oldest olders older1 this newer1 newers latest
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
@_@V