【云计算】分布式大数据迁移解析
小标 2018-12-13 来源 : 阅读 648 评论 0

摘要:本文主要向大家介绍了【云计算】分布式大数据迁移解析,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。

本文主要向大家介绍了【云计算】分布式大数据迁移解析,通过具体的内容向大家展现,希望对大家学习云计算有所帮助。


一 、 背景介绍 :


P2P公司不断的发展,系统不断的迭代,业务越来越多,系统也越来越多,最终整个公司技术部分根据业务划分成:借款端、理财端、和移动端 ,目前公司的数据库也拆成了三大块,基于诸多历史原因,表结构不明确、各个端表设计冗余、数据冗余,为业务部门梳理公司业务和制作有效报表带来了极大的困难。


二 、 需求与设计:


基于之上的历史原因,公司要求创建一个数仓,专门用来进行数据分析和智能报表研发。为此需要作出一款工具,将线上数据根据一定的规则,分发到对应的数据库所对应的表中, 并能进行数据更新同步。


需求用例:


 user.user_info
id主键
u_id用户id
u_name姓名
u_sex性别
u_age年龄
u_id_card身份证




 uinfo.user_detail

  id

  主键

  u_id

  用户id
u_role自然人 或 企业
u_type借款方 或 投资方
register_time创建时间
status状态


user_info 和 user_detail 一对多的关系,同一个用户可以同时是 借款方 和 投资方,角色可以是自然人或 企业 。


此时需要将用户只具备一个类型 (只能是借款人 或者 投资人 )的数据集合到数据库 report下的user_manager表中,并去掉u_id




 report.user_manager

  id

  主键
u_name姓名
sex性别
age年龄
id_card身份证
role角色
type类型
register_time注册时间
status状态


结合上图能看到几个需求点


源来自不同的库 (user 、 uinfo ),不同的表(user_info、user_detail)


目标于不同的库 、 不同的表 、 不同的字段


字段名称可以不一致


字段可丢失 (u_id)


对应一对一的数据,才能迁移,否则不参与同步


另外:还要能做到不定时地将源表中产生了更新的数据,同步更新到对应的目标表中


三、设计预期


能满足 对数据迁移自定义规则、 能处理大量数据 、 能高效处理


          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据安全频道!

本文由 @小标 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程