There can be no Triumph without Loss,No Victory without Suffering,No Freedom without Sacrifice.
All you have to decide is what to do with the time that is given to you.
Get busy Living, or Get busy Dying?
  首页 | 留言给我 | 订阅 Rss | CLI | 黄白之恋 Posts:158   Hits: 1326867    Comments: 168    
 日历归档
<<  <  2018 - 11  >  >>
SuMoTuWeThFrSa
    123
45678910
11121314151617
18192021222324
252627282930
 About Me
 Name: ZhangSichu
 Sex: Male
 Age: 32
 Email: ZhangSichu@gmail.com
 MSN: ZhangSichu@hotmail.com
 Home: ZhangSichu.com
 WeiBo: weibo.com/zhangsichu
 个人推荐
 分类归档
  ·C++/C(5)  RSS
  ·软件工程(1)  RSS
  ·杂事/随感(26)  RSS
  ·.Net/Java(30)  RSS
  ·面向对象程序设计(5)  RSS
  ·汇编/破解(0)  RSS
  ·平面设计(3)  RSS
  ·SQL(5)  RSS
  ·COM/COM+(2)  RSS
  ·Web开发(81)  RSS
 My Friends
Back Forward Refresh Home 2018年11月15日 星期四 RSS CLI Mine Sweeper. In Javascript.

  Nutch Windows下可用扩展
字体大小 [ ]

Nutch 一款开源搜索引擎基于Lucene,使用倒排索引技术,对网页进行索引。基于Hadoop,支持分布式数据存取。Nutch一直默认在Linux下运行,需要Linux/Shell脚本的支持,Nutch才可以良好的运行。同时Nutch支持多国语言分词器分词,可以对不同语言的网页使用不同语言的分词器来对网页进行分词。
  Nutch的插件机制,使得Nutch可以分析Word PDF Excel等多种文件格式资源。使用Nutch技术完全可以为中小企业搭建一个内部的搜索引擎。
  下面的Nutch.exe Recrawl.exe 使用.Net 2.0 编写。移植了Shell 使得Nutch完全可以在Windows平台下运行,同时支持增量采集和索引。 (同时附加 Paoding分词扩展,增量采集索引合并,Tomcat 重启脚本, 代码)

File: ZSpark
  Posted @ 11/11/2008 10:59:18 AM | Hits (6693) | Comments (1

  Comment
 #re:Nutch Windows下可用扩展  6/10/2009 10:54:19 AM  hh
xiexie
  Post Comment
标题 *
作者 *
密码 记住我
评论 *
    


Stable in Firefox 1.5 2.0Stable in IE6 IE7Stable in MozillaStable in Netscape
ZhangSichu.com V0.1.7507
Powered By ZhangSichu
Copyright © ZhangSichu
Download ZhangSichu.com source code. Download source code