56星座屋
当前位置: 首页 星座百科

大数据技术含义(大数据中的技术概念)

时间:2023-07-06 作者: 小编 阅读量: 4 栏目名: 星座百科

减少了数据冗余,但修改一个数据可能需要修改多张表。是目前最流行的关系型数据库管理系统之一。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。主要对ODS数据层做一些数据清洗和规范化的操作。用于提供后续的业务查询,OLAP分析,数据分发等。

大数据技术含义?编辑导语:相信大家平时用大数据处理产品时,会被各种的专业技术名词绕晕,然后傻傻分不清本篇文章中,作者将大数据中常用的一些技术名词作了汇总和分类感兴趣的小伙伴不妨来看看,说不定会用到哦,我来为大家科普一下关于大数据技术含义?以下内容希望对你有帮助!

大数据技术含义

编辑导语:相信大家平时用大数据处理产品时,会被各种的专业技术名词绕晕,然后傻傻分不清。本篇文章中,作者将大数据中常用的一些技术名词作了汇总和分类。感兴趣的小伙伴不妨来看看,说不定会用到哦。

在大数据处理产品中经常会碰到一些技术名词,在这里汇总整理。

一、数据源类型

1. 宽表 VS 窄表

宽表:指字段比较多的数据库表。通常是指业务主体相关的指标、纬度、属性关联在一起的一张数据库表。

广泛应用于数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提供数据挖掘模型训练过程中迭代计算的消息问题。

虽然提高了数据查询效率,但存在大量冗余。

窄表:严格按照数据库设计三范式。减少了数据冗余,但修改一个数据可能需要修改多张表。

数据库设计三范式:

    确保每列保持原子性;

    确保表中的每列都和主键相关;

    确保每列都和主键列直接相关,而不是间接相关。

2. MySQL

MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。是目前最流行的关系型数据库管理系统之一。

3. Oracle

Oracle是一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品,系统可移植性好、使用方便、功能强,适用于各类大、中、小微机环境。

它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。

4. GBase

GBase 是南大通用数据技术有限公司推出的自主品牌的数据库产品,在国内数据库市场具有较高的品牌知名度。

5. HBase

HBase是一个分布式的、面向列的开源数据库。

不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

6. FTP

FTP(File Transfer Protocol)是一套网络文件传输标准协议,访问远程资源, 实现用户往返传输文件、目录管理以及访问电子邮件等等, 即使双方计算机可能配有不同的操作系统和文件存储方式。

7. HDFS

HDFS是一个Hadoop分布式文件系统,HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。

而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

二、数据计算

1. MaxCompute

MaxCompute是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,可以经济并高效的分析处理海量数据。

2. Flink

Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。

Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。

3. Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。

4. 离线计算 VS 实时计算

离线计算:通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。

离线计算适用于实时性要求不高的场景,比如离线报表、数据分析等。常见计算框架:MapReduce,Spark SQL

实时计算:通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。

实时计算通常应用在实时性要求高的场景,比如实时ETL、实时监控等。常见计算框架:Spark Streaming,Flink

5. OLTP VS OLAP

OLTP(On-Line Transaction Processing):可称为在线事务处理,一般应用于在线业务交易系统,比如银行交易、订单交易等。

OLTP的主要特点是能够支持频繁的在线操作(增删改),以及快速的访问查询。

OLAP(On-Line Analytical Processing):可称为在线分析处理,较多的应用在数据仓库领域,支持复杂查询的数据分析,侧重于为业务提供决策支持。

目前常见是的实时OLAP场景,比如Druid(Apache Druid,不同于阿里Druid)、ClickHouse等存储组件能够较好的满足需求。

三、分布式相关

1. Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

2. HDFS

HDFS是一个Hadoop分布式文件系统。详情在上一小节中已介绍。

3. hive

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。

这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。

4. MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。

它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。

5. Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎,类似于Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;

但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

四、数据仓库

1. 简介

数据仓库(全称:Data Warehouse;简称:DW/DWH),是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。

它是一整套包括了ETL(extract-transform-load)、调度、建模在内的完整的理论体系。

2. 与数据库的差异

数据仓库是专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势。而数据库是用于捕获和存储数据。

3. 分层

ODS(Operation Data Store): 数据源头层,数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层(可理解为原始库),是后续数据仓库加工数据的来源。数据来源:业务库、埋点日志、消息队列。

DWD(Data Warehouse Details ):数据细节层,是业务层与数据仓库的隔离层。主要对ODS数据层做一些数据清洗和规范化的操作。数据清洗:去除空值、脏数据、超过极限范围的。

DWB(Data Warehouse Base):数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层,可理解为知识库字典、常用标准库。

DWS(Data Warehouse Service): 数据服务层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP分析,数据分发等。

ADS(ApplicationData Service):应用数据服务,该层主要是提供数据产品和数据分析使用的数据,一般会存储在ES、mysql等系统中供线上系统使用。

4. 数据地图

以数据搜索为基础,提供表使用说明、数据类目、数据血缘、字段血缘等工具,帮助数据表的使用者和拥有者更好地管理数据、协作开发。

5. 数据血缘

即数据的来龙去脉,主要包含数据的来源、数据的加工方式、映射关系以及数据出口。

数据血缘属于元数据的一部分,清晰的数据血缘是数据平台维持稳定的基础,更有利于数据变更影响分析以及数据问题排查。

本文由@丸子不爱吃丸子 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

    推荐阅读
  • 形成酸雨的主要气体是什么(形成酸雨的主要气体)

    以下内容大家不妨参考一二希望能帮到您!形成酸雨的主要气体是什么酸雨是指PH小于5.6的雨雪或其他形式的降水,形成的主要气体有二氧化硫、三氧化硫、硫化氢、二氧化氮。酸雨主要是人为的向大气中排放大量酸性物质所造成的。酸雨又分硝酸型酸雨和硫酸型酸雨。

  • 木棉花的花语是什么(木棉花的意义)

    接下来我们就一起去了解一下吧!珍惜眼前的幸福,珍惜身边的人给他们快乐与幸福。它的花期通常在3月或者4月份,在这一段时间盛开,而传说中四月的第十一天,是木棉花盛开的日子,所以4月11被定为木棉花的日子。

  • 炒凉皮不碎技巧(炒凉皮不碎有什么技巧)

    以下内容大家不妨参考一二希望能帮到您!炒凉皮不碎技巧炒凉皮不碎技巧:就是在做凉皮时不能炒太久,变软会失去筋度。胡萝卜切丝,蒜薹切段,葱切花,猪肉切丝,大蒜拍扁。成品凉皮一张张卷起切粗条,抖散备用。生抽,白糖,盐,鸡精,醋,胡椒粉调成汁备用。热锅倒适量食用油烧热加入大蒜,肉丝翻炒至金黄,加入胡萝卜丝和蒜薹炒熟,凉皮翻炒均匀后随即淋入调好的汁儿翻炒均匀。

  • 近几年灭绝的鱼(瞭望在长江源寻鱼)

    长江被誉为我国淡水渔业的摇篮、鱼类基因的宝库。据青海省渔业部门统计,长江流域青海段分布有土著鱼类21种。因此,严格意义上长江源的关键鱼类指的是裂腹鱼中的小头裸裂尻鱼。2019年,李伟带领团队参加长江源科考时,将小头裸裂尻鱼列为长江源鱼类研究的代表对象。2019年4月,科考小组五个人,两台车,开始了沿河寻觅之旅。“全球平均气温上升已是科学界的共识,位于青藏高原的长江源是全球气候变化的敏感区。”科考发现,江源地区

  • 鹧鸪在什么时候季节鸣叫(鹧鸪的孵化期有多长)

    鹧鸪在什么时候季节鸣叫鹧鸪一般会在繁殖季节鸣叫,繁殖期为3-6月,3-4月间开始求偶交配。求偶期间鸣叫更为频繁,常在山岩、树桩、灌木或乔木枝上鸣叫,尤以黎明和黄昏时更甚,往往是一鸟先鸣叫,其他雄鸟一起跟随,此起彼伏。鹧鸪的孵化期在21天左右,雏鸟出壳后不久即可跟随亲鸟活动。鹧鸪的繁殖期为每年的3-6月,3-4月间开始求偶交配,每窝产卵3-6枚,多时可达8枚,卵为椭圆形或梨形,颜色为淡皮黄色至黄褐色。

  • 秋天的诗词(这些都是关于秋天的诗句)

    迢迢新秋夕,亭亭月将圆《戊申岁六月中遇火》,今天小编就来说说关于秋天的诗词?《戊申岁六月中遇火》自古逢秋悲寂寥,我言秋日胜春朝。《秋词》是处红衰翠减,苒苒物华休。惟有长江水,无语东流。宋·柳永《八声甘州》落时西风时候,人共青山都瘦。《昭君怨》雨色秋来寒,风严清江爽。《酬裴侍御对雨感时见赠》秋声万户竹,寒色五陵松。唐·李颀《望秦川》秋色无远近,出门尽寒山。宋·苏轼《九日次韵王巩》

  • 广州有几种车牌(广州车牌你有吗)

    在广州的普通上班族,有房贷还想拥有一辆车,已经不容易了。但有车想让个广州牌,那更是难上加难,再加之限行,参与摇号,竞价的人是越来越多,那中标的机会更是渺茫了!截止日期是8日24时止。9月拟配置的中小客车增量指标共16313个,是这样分配的:1.以摇号方式向单位和个人配置节能车增量指标7285个,其中,单位指标100个,个人指标7185个。

  • qq注销账号有哪几个步骤(QQ将开注销帐号功能)

    1999年2月10日,一个名为OICQ、只有几百K的软件正式上线。当时,腾讯方面表示,这是QQ团队对帐号注销功能的灰度测试。网友截图出于安全考虑,也有网友表示支持有人说,QQ不推出注销服务有自己的考虑,这是为了防止用户QQ密码被他人知道后恶意注销,给用户带来无法挽回的损失。腾讯2018年第三季度财报显示,QQ智能终端月活跃账户同比增长6.9%至6.979亿。

  • 高跟鞋不合脚怎么办(穿高跟鞋不合脚怎么办)

    4、合理利用袜子,如果不喜欢垫各种鞋垫的朋友,可以穿一双船袜,再穿高跟鞋,那样既不影响穿着效果,也不影响美观,也是比较简单和实用的方法。

  • 年四旺名字打分104分 年四旺事迹

    文章目录:一、年四旺相关名字打分113二、年四旺相关名字评分115三、年四旺相关名字推荐四、年四旺相关名字大全五、其他人还看了一、年四旺相关名字打分113年灯石志明年橘纪红兵武尊道后书法孔多塞年贷款孙敬媛年立秋里蓝业珍冯景华年见朱诗词林于思冯桂年粤日林格孟昭毅年家薛邑马布鱼鲁初雪苏沫沫卜庆中年上年掌柜秦源达刘登龙严学锋国韵酒年线高成江裘梦年维泗红沙日年周王克斌王翔千毛淑红龙威信李万和年神范小慧王大