垂直搜索引擎 DDH

码农软件 · 软件分类 · 搜索引擎 · 2019-08-26 19:26:40

软件介绍

DDH垂直搜索引擎,开源授权协议LGPL, 是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),UCI(网页信息抽取系统)和SOLR(企业级搜索应用服务器)。无论从可扩展性,系统的性能方面还是稳定性方面,DDH垂直搜索引擎系统,都可以算的上顶级垂直搜索引擎系统之一。

DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要运行在Linux平台下。

DDH对Nutch做的调整
1: 加入了爬虫控制。可以根据用户的需要控制爬虫的抓取地址和路径。
2: 加入了信息分类功能。Nutch只对网页进行抓取,DDH在此基础上进行了信息分类调整,这样才能适用于不同的垂直搜索引擎系统。只需要输入类别编码,就能对爬虫进行控制。URL自动识别,大幅度提高了爬取效率。
3: 加入了索引数据分类功能。Nutch只是对网页进行了文字提取处理,而垂直搜索系统需要在网页信息抽取的基础上,指定索引路径进行提交。而且不符合要求的网页不会提交给索引,大幅度提高了索引效率。


DDH加入了UCI网页信息抽取系统
UCI可以对网页信息进行精确抽取,而且不受目标网页代码的限制,特别适合垂直搜索引擎使用。
UCI网页信息抽取技术,是一种适用于亿级数量的智能网页信息抽取技术,主要适用于互联网信息整合和搜索引擎中网页信息的提取。

DDH对Solr的调整
对Solr的schema.xml的用户定义字段类型及字段的配置文件进行了重新配置,使得适合垂直搜索引擎的使用。并加入了中文分词功能。

本文地址:https://codercto.com/soft/d/13234.html

趋势红利

趋势红利

刘润 / 文化发展出版社(原印刷工业出版社) / 2016-6-1 / 45.00

【编辑推荐】 1、国内顶尖的互联网转型专家,海尔、百度等知名企业战略顾问刘润送给传统企业的转型、创新“导航仪”,这个时代企业家的必修课 站在近200年商业全景图角度,刘润发现三种企业类型(产品型、渠道型、营销型),针对不同企业类型定制转型战略(找到自己的未来红利),方便 传统企业对号入座:不走错路就是节省时间,适合自己的最有效率。 本书内容还源自芬尼克兹、红领集团、名创优品、必要......一起来看看 《趋势红利》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换