垂直搜索引擎 DDH

码农软件 · 软件分类 · 搜索引擎 · 2019-08-26 19:26:40

软件介绍

DDH垂直搜索引擎,开源授权协议LGPL, 是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),UCI(网页信息抽取系统)和SOLR(企业级搜索应用服务器)。无论从可扩展性,系统的性能方面还是稳定性方面,DDH垂直搜索引擎系统,都可以算的上顶级垂直搜索引擎系统之一。

DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要运行在Linux平台下。

DDH对Nutch做的调整
1: 加入了爬虫控制。可以根据用户的需要控制爬虫的抓取地址和路径。
2: 加入了信息分类功能。Nutch只对网页进行抓取,DDH在此基础上进行了信息分类调整,这样才能适用于不同的垂直搜索引擎系统。只需要输入类别编码,就能对爬虫进行控制。URL自动识别,大幅度提高了爬取效率。
3: 加入了索引数据分类功能。Nutch只是对网页进行了文字提取处理,而垂直搜索系统需要在网页信息抽取的基础上,指定索引路径进行提交。而且不符合要求的网页不会提交给索引,大幅度提高了索引效率。


DDH加入了UCI网页信息抽取系统
UCI可以对网页信息进行精确抽取,而且不受目标网页代码的限制,特别适合垂直搜索引擎使用。
UCI网页信息抽取技术,是一种适用于亿级数量的智能网页信息抽取技术,主要适用于互联网信息整合和搜索引擎中网页信息的提取。

DDH对Solr的调整
对Solr的schema.xml的用户定义字段类型及字段的配置文件进行了重新配置,使得适合垂直搜索引擎的使用。并加入了中文分词功能。

本文地址:https://codercto.com/soft/d/13234.html

智能时代

智能时代

吴军 / 中信出版集团 / 2016-8 / 68.00

大数据和机器智能的出现,对我们的技术发展、商业和社会都会产生重大的影响。作者吴军在《智能时代:大数据与智能革命重新定义未来》中指出,首先,我们在过去认为非常难以解决的问题,会因为大数据和机器智能的使用而迎刃而解,比如解决癌症个性化治疗的难题。同时,大数据和机器智能还会彻底改变未来的商业模式,很多传统的行业都将采用智能技术实现升级换代,同时改变原有的商业模式。大数据和机器智能对于未来社会的影响是全方......一起来看看 《智能时代》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具