Lucene如何实现增量索引?

本文探讨了使用Lucene进行增量索引的方法,包括如何通过判断文件是否已存在来避免重复索引,以及如何利用索引段机制和delta机制来提高索引效率。
发信人: jaty (妖狐), 信区: SearchEngineTech
标  题: Lucene如何实现增量索引?
发信站: 水木社区 (Tue Mar 13 13:34:52 2007), 站内

假设要对一个目录建立索引,建好后,只有当该目录下有新的文件的时候才需要将新文件加入原有的索引里,而不需要完全重新建立索引。
--

※ 来源:·水木社区 http://newsmth.net·[FROM: 211.100.22.*]

[ 本篇全文] [本篇作者: jaty] [ 进入讨论区] [ 返回顶部]
2
发信人: jaty (妖狐), 信区: SearchEngineTech
标  题: Re: Lucene如何实现增量索引?
发信站: 水木社区 (Tue Mar 13 15:52:16 2007), 站内

具体代码怎么写?
我现在写的是 writer = new IndexWriter(INDEX_DIR, new StandardAnalyzer(), true);
这样好像是每次都重新建立索引。把true改成false后,是增量索引。不过是每次新建索引时都会把之前建立过的索引再建立一遍。也就是说,如果只有一个文件在该目录下,经过5次建立索引后,索引里将有5个该文件。
【 在 agedosier (agedosier) 的大作中提到: 】
:  索引段机制。



--

※ 来源:·水木社区 http://newsmth.net·[FROM: 211.100.22.*]

[ 本篇全文] [本篇作者: zms] [ 进入讨论区] [ 返回顶部]
3
发信人: zms (来福), 信区: SearchEngineTech
标  题: Re: Lucene如何实现增量索引?
发信站: 水木社区 (Tue Mar 13 18:02:09 2007), 站内


【 在 jaty (妖狐) 的大作中提到: 】
: 具体代码怎么写?
: 我现在写的是 writer = new IndexWriter(INDEX_DIR, new StandardAnalyzer(), true);
第三个参数是create,是重新创建的意思,它会把目录下已有的东东清掉


要达到你的目的,你要 判断哪些文件是新的
你可以在Document里保存已有文件的路径或者name
在addDocument前,先查一下看有没有这个Document

: 这样好像是每次都重新建立索引。把true改成false后,是增量索引。不过是每次新建索引时都会把之前建立过的索引再建立一遍。也就是说,如果只有一个文件在该目录下,经过5次建立索引后,索引里将有5个该文件。
: ...................

--
★:  
 ¨  


※ 来源:·水木社区 newsmth.net·[FROM: 123.112.108.*]

[ 本篇全文] [本篇作者: genesoul] [ 进入讨论区] [ 返回顶部]
4
发信人: genesoul (dfdf), 信区: SearchEngineTech
标  题: Re: Lucene如何实现增量索引?
发信站: 水木社区 (Tue Mar 13 18:42:57 2007), 站内

delta 机制
【 在 jaty (妖狐) 的大作中提到: 】
: 假设要对一个目录建立索引,建好后,只有当该目录下有新的文件的时候才需要将新文件加入原有的索引里,而不需要完全重新建立索引。



--

※ 来源:·水木社区 http://newsmth.net·[FROM: 159.226.63.*]

[ 本篇全文] [本篇作者: jaty] [ 进入讨论区] [ 返回顶部]
5
发信人: jaty (妖狐), 信区: SearchEngineTech
标  题: Re: Lucene如何实现增量索引?
发信站: 水木社区 (Wed Mar 14 08:53:20 2007), 站内

什么意思?有相关源码没有,谢谢!
【 在 genesoul (dfdf) 的大作中提到: 】
: delta 机制



--

※ 来源:·水木社区 http://newsmth.net·[FROM: 211.100.22.*]

[ 本篇全文] [本篇作者: jaty] [ 进入讨论区] [ 返回顶部]
6
发信人: jaty (妖狐), 信区: SearchEngineTech
标  题: Re: Lucene如何实现增量索引?
发信站: 水木社区 (Wed Mar 14 13:11:12 2007), 站内

怎么在已有的索引里查找指定的文件name啊?(我建索引时,已经将文件name添加进去了)
【 在 zms (来福) 的大作中提到: 】
: 第三个参数是create,是重新创建的意思,它会把目录下已有的东东清掉
: 要达到你的目的,你要 判断哪些文件是新的
: 你可以在Document里保存已有文件的路径或者name
: ...................



--

※ 来源:·水木社区 http://newsmth.net·[FROM: 211.100.22.*]

[ 本篇全文] [本篇作者: christies] [ 进入讨论区] [ 返回顶部]
7
发信人: christies (飞天~~AC生活体验中...), 信区: SearchEngineTech
标  题: Re: Lucene如何实现增量索引?
发信站: 水木社区 (Wed Mar 14 13:31:06 2007), 站内

indexsearcher啊,按照name field查找
【 在 jaty (妖狐) 的大作中提到: 】
: 怎么在已有的索引里查找指定的文件name啊?(我建索引时,已经将文件name添加进去了)


--
  不管向我们提什么问题      我们都会一一解答
    为了防止世界被破坏        为了维护世界的和平
      坚持爱与真实的罪恶        最有魅力的反派人物
        白色的未来由光明的明天来创造
          跨过银河的火箭队的两个人是 武藏! 小次郎!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值