中文主题建模工具包 Familia

码农软件 · 软件分类 · 神经网络/人工智能 · 2019-10-14 17:57:34

授权协议: BSD
开发语言: C/C++
操作系统: 跨平台
软件首页: https://github.com/baidu/Familia
软件文档: https://github.com/baidu/Familia/blob/master/README.md
官方下载: https://github.com/baidu/Familia

软件介绍

Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型：Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。支持用户以“拿来即用”的方式进行文本分类、文本聚类、个性化推荐等多种场景的调研和应用。考虑到主题模型训练成本较高以及开源主题模型资源有限的现状，我们会陆续开放基于工业级语料训练的多个垂直领域的主题模型，以及这些模型在工业界的典型应用方式，助力主题模型技术的科研和落地。

应用介绍

Familia目前包含的主题模型的对应论文介绍可以参考相关论文。

主题模型在工业界的应用范式可以抽象为两大类: 语义表示和语义匹配。

语义表示 (Semantic Representation)

对文档进行主题降维，获得文档的语义表示，这些语义表示可以应用于文本分类、文本内容分析、CTR预估等下游应用。

语义匹配 (Semantic Matching)
计算文本间的语义匹配度，我们提供两种文本类型的相似度计算方式:

短文本-长文本相似度计算，使用场景包括文档关键词抽取、计算搜索引擎查询和网页的相似度等等。
长文本-长文本相似度计算，使用场景包括计算两篇文档的相似度、计算用户画像和新闻的相似度等等。

更详细的内容及工业界应用案例可以参考Familia Wiki

代码编译

第三方依赖包括gflags-2.0，glogs-0.3.4，protobuf-2.5.0, 同时要求编译器支持C++11, g++ >= 4.8, 兼容Linux和Mac操作系统。默认情况下执行以下脚本会自动获取依赖并安装。

$ sh build.sh # 包含获取并安装第三方依赖的过程

模型下载

$ cd model
$ sh download_model.sh

关于模型的详细配置说明可以参考模型说明

本文地址：https://codercto.com/soft/d/16756.html

码农书籍

Head First Python

Paul Barry / O'Reilly Media / 2010-11-30 / USD 49.99

Are you keen to add Python to your programming skills? Learn quickly and have some fun at the same time with Head First Python. This book takes you beyond typical how-to manuals with engaging images, ......一起来看看《Head First Python》这本书的介绍吧!

码农工具

中文主题建模工具包 Familia

软件介绍

应用介绍

代码编译

模型下载

Head First Python

MD5 加密

XML、JSON 在线转换

HEX CMYK 转换工具