日历归档 |
|
<< < 2024 - 12 > >> | Su | Mo | Tu | We | Th | Fr | Sa | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
|
|
|
About Me |
|
|
ZhangSichu |
|
Male |
|
32 |
|
ZhangSichu@gmail.com |
|
ZhangSichu@hotmail.com |
|
ZhangSichu.com |
|
weibo.com/zhangsichu |
|
|
|
个人推荐 |
|
|
|
|
分类归档 |
|
|
|
|
My Friends |
|
|
|
|
Nutch Windows下可用扩展
|
Nutch 一款开源搜索引擎基于Lucene,使用倒排索引技术,对网页进行索引。基于Hadoop,支持分布式数据存取。Nutch一直默认在Linux下运行,需要Linux/Shell脚本的支持,Nutch才可以良好的运行。同时Nutch支持多国语言分词器分词,可以对不同语言的网页使用不同语言的分词器来对网页进行分词。 Nutch的插件机制,使得Nutch可以分析Word PDF Excel等多种文件格式资源。使用Nutch技术完全可以为中小企业搭建一个内部的搜索引擎。 下面的Nutch.exe Recrawl.exe 使用.Net 2.0 编写。移植了Shell 使得Nutch完全可以在Windows平台下运行,同时支持增量采集和索引。 (同时附加 Paoding分词扩展,增量采集索引合并,Tomcat 重启脚本, 代码)
File: ZSpark
|
|
#re:Nutch Windows下可用扩展 6/10/2009 10:54:19 AM hh
|
|
|
|
|
|