Article freyasx/62 of [1-110] on the server localhost:119
  upper oldest olders older1 this newer1 newers latest
search
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
[Reference:<_A59@freyasx.ML_>]
Newsgroups: mail-lists.freyasx

[FreyaSX] Re: FreyaSX-0.99.13 リリース (辞書の廃止 と ^カタカナ演算子の導入)
10 Oct 2005 19:19:56 GMT ysato@delegate.org (Yutaka Sato)
The DeleGate Project


FreyaSX-0.99.13 をリリースしました。

・検索結果中の複数の検索語をハイライトできるようにした
・デフォルトでは形態素辞書を使うのをやめた(-D オプションで使用可能)
・「^カタカナ」記法を導入(カタカナ文字列の先頭部分列にのみマッチ)
・Win32上で any2fdif がファイルの日付を壊すバグを修正(DeleGate/9.0.5-pre7)

形態素辞書はこれまでもなくても構いませんでしたし、辞書にヒットした場合に
それに連接する語の検索ができなくなる場合があるのが嫌なので、使うのをやめ
ました。これにより、例えば「行政法人」などが検索できなかった問題が解消
されます。
一方、これによるデメリットは、索引ファイルが多少大きくなることですが、
DeleGate-MLの例では、10%程度しか増加しないので、この際デフォルトでは
辞書を使わないことにしました。

また、例えば「ストール」で検索すると「インストール」などもひっかかるわけ
ですが、これは従来「ストール -インストール」などとして除いてやる必要が
ありました。さらに、後方の文字列を共有する単語が多数の場合、例えば
「ロード」に対して「アップロード/ダウンロード/ブロードバンド/ ...」などを
除いてやるのは大変面倒です。

そこで、「^ロード」とすると、「ロード」がカタカナ文字列の先頭にある場合
にだけマッチするようにしました。逆に「ロード」を途中に含むカタカナ文字列
を探すには「ロード -^ロード」とすればOKです。

これは、たとえばプレインテキストの中でカタカナ文字列の途中で改行されて
いても対処するようにしています(そうしないほうが良い場合もあると思いますし、
現状では実装もかなりテキトーですが)。「同一文字種の連続」とか、一般化は
色々できると思いますが、とりえあず有用なのはカタカナ語の検索だと思います
ので「今回はこんなところです」

                   D G  
┌─┐┬┌──┬┐ //\^^ ( - ); {Do the more with the less -- B. Fuller}
├─┤│└─┐│ / 877m\_<   >_ <URL:http://www.delegate.org/delegate/>
┴ └┴──┘┴──────────────────────────────
佐藤豊@情報技術研究部門.産業技術総合研究所(独立行政法人)

  admin search upper oldest olders older1 this newer1 newers latest
[Top/Up] [oldest] - [Older+chunk] - [Newer+chunk] - [newest + Check]
@_@V