Data Lake Analytics: 以SQL方式查询Redis数据

栏目: 数据库 · 发布时间: 5年前

内容简介:Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于Redis 的支持, 这篇教程带你玩转 DLA 的 Redis 支持。创建数据库

Data Lake Analytics: 以 <a href='https://www.codercto.com/topics/18630.html'>SQL</a> 方式查询 <a href='https://www.codercto.com/topics/18994.html'>Redis</a> 数据

Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于Redis 的支持, 这篇教程带你玩转 DLA 的 Redis 支持。

创建数据库

在 DLA 里面创建一个底层映射到 Redis 的数据库的语法如下:

CREATE DATABASE redis_test
WITH DBPROPERTIES (

catalog = 'redis',
location = 'r-xxxxx.redis.rds.aliyuncs.com:6379/hello_',
password = 'xxxxx',
vpc_id = 'vpc-xxxxx',
instance_id = 'r-xxxxxx'

)

这里要特别说明一下这个 location 属性,前面 r-xxxxx.redis.rds.aliyuncs.com:6379 是redis服务器的域名和端口,最后的 hello_ 是一个前缀,具体的用途后面再细说,redis服务的域名和端口你可以从阿里云控制直接查询到:

Data Lake Analytics: 以SQL方式查询Redis数据

跟普通的建库语法不同的是这里多了两个属性: VPC_ID 和 INSTANCE_ID , 这是因为现在用户的 Redis 数据库都是处于用户自己的VPC内部,默认情况下 DLA 是访问不了用户 VPC 里面的资源的,为了让DLA能够访问到用户RDS里面的数据,我们需要利用阿里云的VPC反向访问技术。

权限声明: 当您通过上述方式建库,就视为您同意我们利用VPC反向访问的技术去读写您的 Redis 。

另外您还需要把 100.104.0.0/16 加入你的 Redis 的白名单列表,这是我们VPC反向访问的IP地段,如下图:

Data Lake Analytics: 以SQL方式查询Redis数据

创建表

数据库建完之后,我们可以建表了,我们先在你的 Redis 里初始化一些数据用来测试, 因为Redis是没有schema信息的,我们必须往里面插入数据才能生效,所以我们插入一些测试数据:

CSV格式的数据

set hello_world_1 1,james,10

set hello_world_2 2,bond,20

set hello_world_3 3,lily,30

set hello_world_4 4,lucy,20

JSON格式的数据

set hello_foo_1 '{"id":1,"name":"james","age":110}'

set hello_foo_2 '{"id": 2, "name": "bond", "age": 210}'

set hello_foo_3 '{"id": 3, "name": "lily", "age": 310}'

set hello_foo_4 '{"id": 3, "name": "lucy", "age": 210}'

我们插入了两种格式的数据,一种是CSV格式的,一种是JSON格式的,这是我们目前支持的两种格式,后面会分别演示。

然后就可以在 DLA 的数据库里面建立相应的映射表了:

CREATE EXTERNAL TABLE dla_person (

id int,
name varchar,
age int

) TBLPROPERTIES (

COLUMN_MAPPING = 'id,2;name,1;age,0',
TABLE_MAPPING = 'world_',
format = 'csv'

);

这里几个字段详细说明一下:

TABLE_MAPPING 让我们可以让DLA层面的表名映射到底层Redis里面指定模式的的一组key。回忆一下我们前面在建库的时候指过前缀 hello_ , 再与这里的 world_ 相结合,表达的意思就是:

表 dla_person 里面的数据映射到Redis数据库里面所有key的前缀为 hello_world_ 的数据。

这里,你也可以省略这个设置,默认的前缀跟表名一致,在上面的例子里面省略 TABLE_MAPPING, 那么最终查询的key的前缀为 hello_dla_person。

下一个我们关注一下参数 format, 这里指定Redis里面数据的格式,目前支持: csv, json 两种格式。

COLUMN_MAPPING 的作用是把DLA层面的列映射到底层的数据上,由于Redis底层没有column的概念,因此具体映射的方法根据 format 的不同而不同, 比如这里的 CSV, 我们知道CSV的数据被解析之后会形成一个string数组,对应的column_mapping就映射到底层这个数组的index(下标)。比如这里把 id 映射到下标 2, 把 name 映射到下标 1 等等。

column_mapping 也可以不设置,对于CSV格式来说会按照column声明的顺序依次映射到0, 1, 2等等。

这样我们就可以通过 MySQL 客户端连接到 DLA 数据库上面,就可以对 Redis 数据库里面的数据进行查询了:

mysql> select * from dla_person;
name id age
bond 20 2
lily 30 3
lucy 20 4
james 10 1

4 rows in set (0.18 sec)

熟悉SQL的同学一定觉得很爽吧,可以去熟悉的SQL语法去操作 Redis 数据库了。

JSON

上面演示的是CSV格式的数据,下面我们再来试试JSON格式的数据,我们再来创建一个新表:

CREATE EXTERNAL TABLE dla_person_json (

id int,
name varchar,
age int

) TBLPROPERTIES (

COLUMN_MAPPING = 'id,age;name,name;age,id',
TABLE_MAPPING = 'foo_',
format = 'json'

);

注意这里我们指定了 TABLE_MAPPING 为 foo_,结合数据库的前缀 hello_, 因此它最终查询的是Redis里面所有前缀为 hello_foo_ 的数据; 另外这里还指定了 COLUMN_MAPPING, 因为JSON数据里面是有字段名字的,因此DLA的层面的column的名字是映射到JSON数据里面字段的名字的,这里为了演示的需要故意把DLA的 id column映射到了 Redis的 age, 我们来查询看看结果:

mysql> select * from dla_person_json;
name id age
lucy 210 3
james 110 1
bond 210 2
lily 310 3

4 rows in set (0.12 sec)

如我们所愿,id column显示的是Redis里面对应的 age 字段的值。

总结

我们今天介绍了DLA对于Redis的支持,目前DLA支持的数据源已经包括: OSS, OTS, RDS(MySQL, SQLServer, Postgres), MongoDB, Redis等等 数据可以在这些数据源之间进行联合JOIN、流转

本文作者:xumingmingv

阅读原文

本文为云栖社区原创内容,未经允许不得转载。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

图解互联网金融

图解互联网金融

史册 / 化学工业出版社 / 2015-1-1 / 39.80元

《图解互联网金融》用“漫画+图解”的形式,为普通人讲述最实用的互联网金融知识。 全书从互联网金融的全景、第三方支付、P2P网贷、众筹、互联网销售平台、互联网理财、网络银行、互联网保险八个方面,全面解读了互联网金融的运营模式、发展前景和风险防控等内容。能帮助读者更好地利用互联网金融为自己创造财富。 《图解互联网金融》适合对互联网金融感兴趣的读者阅读。一起来看看 《图解互联网金融》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具