ES源码学习之--Get API的实现逻辑

栏目: 后端 · 发布时间: 6年前

内容简介：Github上es项目讲述其易用性时，用来举例说明ES开箱即用的特性，用的就是Get API。片段摘取如下:Get API通常的用途有2点:1 检测添加的文档跟预期是否相符, 这在问题排查时超级实用。

Github上es项目讲述其易用性时，用来举例说明ES开箱即用的特性，用的就是Get API。片段摘取如下:

-- 添加文档
curl -XPUT 'http://localhost:9200/twitter/doc/1?pretty' -H 'Content-Type: application/json' -d '
{
    "user": "kimchy",
    "post_date": "2009-11-15×××3:12:00",
    "message": "Trying out Elasticsearch, so far so good?"
}'

-- 读取文档
curl -XGET 'http://localhost:9200/twitter/doc/1?pretty=true'

Get API通常的用途有2点:

1 检测添加的文档跟预期是否相符, 这在问题排查时超级实用。

2 根据id获取整个文档明细，用于搜索的fetch阶段。

研究ES的内部机制， Get API是一个极佳的切入点。通过Get API，可以了解到的知识点有：

a. ES的rest api实现方式。

b. ES的文档路由方式。

c. ES的RPC实现机制。

d. ES的translog.

e. ES如何使用lucene 的IndexSearcher。

f. ES如何根据id获取到lucene的 doc_id 。

g. ES如何根据lucene的 doc_id 获取文档明细。

.......

研究ES的内部机制，有助于释放ES的洪荒之力。例如：根据业务开发ES的plugin时，其内部流程是很好的借鉴。内部细节了解越多，越不容易踩坑。

GET API的核心流程如下:

s1: 接收客户端请求

看到controller.registerHandler()方法，很容易就联想到http的请求

public class RestGetAction extends BaseRestHandler {

     @Inject
    public RestGetAction(Settings settings, RestController controller, Client client) {
        super(settings, controller, client);
        controller.registerHandler(GET, "/{index}/{type}/{id}", this);
    } 

    @Override
    public void handleRequest(final RestRequest request, final RestChannel channel, final Client client) {
           ...
        client.get(getRequest, new RestBuilderListener<GetResponse>(channel) {
            ...
        });
    }
}

s2: 在当前节点执行该请求

public class NodeClient extends AbstractClient {
    ...
    @Override
    public <Request extends ActionRequest, Response extends ActionResponse, 
            RequestBuilder extends ActionRequestBuilder<Request, Response, RequestBuilder>> 
       void doExecute(Action<Request, Response, RequestBuilder> action, Request request, ActionListener<Response> listener) {
        TransportAction<Request, Response> transportAction = actions.get(action);
        ...
        transportAction.execute(request, listener);
    }
}

这里隐含了一个actions的映射表, 如下:
public class ActionModule extends AbstractModule {
    ...

    @Override
    protected void configure() {
        ...
        registerAction(GetAction.INSTANCE, TransportGetAction.class);
        ...
    }
}

s3: 定位文档所在分片

文档的定位思路很简单， 默认根据文档id, 用hash函数计算出文档的分片ShardId, 通过分片ShardId定位出NodeId。 
ES内部维护了一张类似路由表的对象，类名就是RoutingTable. 通过RoutingTable, 可以根据索引名称找到所有的分片；可以通过分片Id找到分片对应的集群Node. 
关于文档的定位，从应用的角度有两个知识点：routing和preference

public class TransportGetAction extends TransportSingleShardAction<GetRequest, GetResponse> {

    ...

    @Override
    protected ShardIterator shards(ClusterState state, InternalRequest request) {
        return clusterService.operationRouting()
                .getShards(clusterService.state(), request.concreteIndex(), request.request().type(), request.request().id(), request.request().routing(), request.request().preference());
    }
}

s4: 将请求转发到分片所在的节点

请求的分发，涉及到ES的RPC通信。上一步定位到NodeId, 将请求发送到该NodeId即可。
由于ES的每个Node代码都是一样的， 因此每个Node既承担Server也承担Client的责任，这跟其他的RPC框架有所不同。
核心方法是transportService.sendRequest() 和 messageReceived()。 

public abstract class TransportSingleShardAction<Request extends SingleShardRequest, Response extends ActionResponse> extends TransportAction<Request, Response> {

    class AsyncSingleAction {

        public void start() {
                transportService.sendRequest(clusterService.localNode(), transportShardAction, internalRequest.request(), new BaseTransportResponseHandler<Response>() {
                    ...     
                });
        }

    }

    private class ShardTransportHandler extends TransportRequestHandler<Request> {

        @Override
        public void messageReceived(final Request request, final TransportChannel channel) throws Exception {

            ...
            Response response = shardOperation(request, request.internalShardId);
            channel.sendResponse(response);
        }
    }

}

s5: 通过id读取索引文件获取该id对应的文档信息

这里分两个阶段:
step1: 将type和id合并成一个字段，从lucene的倒排索引中定位lucene的doc_id

step2: 根据doc_id从正向信息中获取明细。

public final class ShardGetService extends AbstractIndexShardComponent {

      ...

    private GetResult innerGet(String type, String id, String[] gFields, boolean realtime, long version, VersionType versionType, FetchSourceContext fetchSourceContext, boolean ignoreErrorsOnGeneratedFields) {
        fetchSourceContext = normalizeFetchSourceContent(fetchSourceContext, gFields);
                ...
                get = indexShard.get(new Engine.Get(realtime, new Term(UidFieldMapper.NAME, Uid.createUidAsBytes(typeX, id)))
                        .version(version).versionType(versionType));

                ...
               innerGetLoadFromStoredFields(type, id, gFields, fetchSourceContext, get, docMapper, ignoreErrorsOnGeneratedFields); 
        }
    }

(注: 如果是realtime=true, 则先从translog中读取source, 没有读取到才从索引中读取)

s5涉及到Lucene的内部实现，这里不展开赘述。

最后总结一下:

Get API是ES内部打通了整个流程的功能点。从功能上看，它足够简单；从实现上看，他又串联了ES的主流程，以它为切入口，不会像展示 You Know, for Search 的 RestMainAction 那样浮于表面；又不会像实现搜索的接口那样庞杂难懂。

以上所述就是小编给大家介绍的《ES源码学习之--Get API的实现逻辑》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Python语言程序设计

[美]梁勇(Lang Y. D.) / 李娜 / 机械工业出版社 / 2015-4 / 79.00元

本书采用“问题驱动”、“基础先行”和“实例和实践相结合”的方式，讲述如何使用Python语言进行程序设计。本书首先介绍Python程序设计的基本概念，接着介绍面向对象程序设计方法，最后介绍算法与数据结构方面的内容。为了帮助学生更好地掌握相关知识，本书每章都包括以下模块：学习目标，引言，关键点，检查点，问题，本章总结，测试题，编程题，注意、提示和警告。本书可以作为高等院校计算机及相关专业Py......一起来看看《Python语言程序设计》这本书的介绍吧!

码农工具

ES源码学习之--Get API的实现逻辑

Python语言程序设计

随机密码生成器

Base64 编码/解码

HEX HSV 转换工具