elt 虚拟货币

币圈行情 阅读 6 2023-06-21 22:59:32

Bitget下载

注册下载Bitget下载,邀请好友,即有机会赢取 3,000 USDT

APP下载   官网注册

这是大数据技术扫盲系列的第四篇【什么是ELT】

全文1000字,阅读需要5分钟


一、什么是ELT?

ELT是抽取(Extract)、加载(Load)、转换(Transform)的缩写。

数据抽取:ELT pipeline的起始端,字面含义不做解释,在架构数据抽取方案时,有两个关注点,第一个要对多数据源类型、多种数据结构保持一定的灵活性和适配,比如关系型数据库的结构化数据、XML、JSON、文本文件、API、消息流等;第二个是对增全量模式的支持,支持通过SQL查询的方式对增量数据进行抓取(物理删除无法捕获的风险)、通过变更日志的CDC增量抓取、全量抓取。

数据加载:ELT pipeline的目标端,可以是一个集中的数据库、数据仓库、数据湖。在这部分,需要关注,第一个注意数据写入的模式是追加还是覆盖,这个取决于约定的同步模式。尽量支持流程的幂等执行。第二个注意加载的数据和源端保持一致,作为贴源层。第三是方案需要考虑支持多点加载,即一次抽取分发多个目标端。

数据转换:将加载后的数据做加工,一般包括数据清洗和结构化处理、数据校验、数据关联、数据增强。

二、为什么不是ETL?

我们所熟知的是ETL,抽取、转换、加载,即数据在落地到目标端前做数据的转换操作。在现代数据技术栈中,提倡更多的是ELT,主要的原因有两个:

第一个是ELT比ETL有更广的适用范围:在当下数据平民化的趋势下,一份数据往往要应对更灵活的需求,意味着数据要尽量保证原汁原味。在抽取过程中转换,原始数据中有信息丢失,也意味着这个数据所能应用的场景已经被提前设计,在需求发生变化时,需要做调整。

第二个是存储和计算成本的不断降低,ETL自1970年出现后,在转换中裁剪数据,以减少下游在数据处理中对存储和计算资源的损耗。但当下存储成本和计算成本逐步降低,对海量数据的存储和计算不再昂贵,也使ELT成为更优选择.




相关内容

标签: 数据抽取 目标端 数据

elt 虚拟货币文档下载: PDF DOC TXT
文章来源: 小杰
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至举报,一经查实,本站将立刻删除。
上一篇: 虚拟货币卖出步骤 下一篇: AXPR是什么货币?官网和证券交易所AXPR币总量介绍。

相关资讯