There can be no Triumph without Loss,No Victory without Suffering,No Freedom without Sacrifice.
All you have to decide is what to do with the time that is given to you.
Get busy Living, or Get busy Dying?
  首页 | 留言给我 | 订阅 Rss | CLI | 黄白之恋 Posts:158   Hits: 5052204    Comments: 173    
<<  <  2024 - 04  >  >>
 About Me
 Name: ZhangSichu
 Sex: Male
 Age: 32
  ·C++/C(5)  RSS
  ·软件工程(1)  RSS
  ·杂事/随感(26)  RSS
  ·.Net/Java(30)  RSS
  ·面向对象程序设计(5)  RSS
  ·汇编/破解(0)  RSS
  ·平面设计(3)  RSS
  ·SQL(5)  RSS
  ·COM/COM+(2)  RSS
  ·Web开发(81)  RSS
 My Friends
Back Forward Refresh Home 2024年4月16日 星期二 RSS CLI Mine Sweeper. In Javascript.

  Nutch Windows下可用扩展
字体大小 [ ]

Nutch 一款开源搜索引擎基于Lucene,使用倒排索引技术,对网页进行索引。基于Hadoop,支持分布式数据存取。Nutch一直默认在Linux下运行,需要Linux/Shell脚本的支持,Nutch才可以良好的运行。同时Nutch支持多国语言分词器分词,可以对不同语言的网页使用不同语言的分词器来对网页进行分词。
  Nutch的插件机制,使得Nutch可以分析Word PDF Excel等多种文件格式资源。使用Nutch技术完全可以为中小企业搭建一个内部的搜索引擎。
  下面的Nutch.exe Recrawl.exe 使用.Net 2.0 编写。移植了Shell 使得Nutch完全可以在Windows平台下运行,同时支持增量采集和索引。 (同时附加 Paoding分词扩展,增量采集索引合并,Tomcat 重启脚本, 代码)

File: ZSpark
  Posted @ 11/11/2008 10:59:18 AM | Hits (9240) | Comments (1

 #re:Nutch Windows下可用扩展  6/10/2009 10:54:19 AM  hh
  Post Comment
标题 *
作者 *
密码 记住我
评论 *

Stable in Firefox 1.5 2.0Stable in IE6 IE7Stable in MozillaStable in Netscape V0.1.7507
Powered By ZhangSichu
Copyright © ZhangSichu
Download source code. Download source code