对现在热门的
大数据你了解吗?你知道
大数据都有哪些工作术语?想要学大数据的朋友快来看看吧!
送给初学者的
大数据关键术语:
1、算法
2、分析
3.、描述性分析
4、预测分析
5、规范分析
6、批处理
7、Cassandra
8.
云计算
9、集群计算
10、黑暗数据
11、数据湖
12、数据挖掘
13、数据科学家
14、分布式文件系统
15、ETL。ETL分别是extract,transform,load的首字母缩写,代表提取、转化和加载的过程,它具体是指“提取”原始数据,通过数据清洗/修饰的方式进行“转化”以获得 “适合使用”的数据,进而“加载”到合适的存储库中供系统使用的整个过程。
16. Hadoop。人们一想起大数据就能立即想到Hadoop。 Hadoop(拥有可爱的大象LOGO)是一个开源软件框架,主要组成部分是Hadoop分布式文件系统(HDFS),Hadoop部署了分布式硬件以支持大型数据集的存储、检索和分析。
17、内存计算
18、IOT最新的流行语是物联网(Internet of things,简称IOT)。IOT是通过互联网将嵌入式对象(传感器、可穿戴设备、汽车、冰箱等)中的计算设备互连在一起,并且能够发送/接收数据。IOT产生了大量的数据,这为呈现大数据分析提供了更多的机会。
19、机器学习。 机器学习是为了设计一种基于提供的数据能够进行不断学习、调整、改进的系统的设计方法。
20、MapReduce。MapReduce是一个编程模型,最好的理解方法是将Map和Reduce是看作两个独立的单元。在这种情况下,编程模型首先将大数据的数据集分成几个部分(技术术语上是称作“元组”),因此可以部署到不同位置的不同计算机上(即前文所述的集群计算),这些本质上是Map的组成部分。
21、NoSQL。NoSQL实际上是指被用来处理大量非结构化、或技术上被称作“图表”(例如关系型数据库的表)等数据的数据库管理系统。NoSQL数据库一般非常适用于大型数据系统,这得益于它们的灵活性以及大型非结构化数据库所必备的分布式结构。
22、R语言。R是一门在统计计算中表现非常优异的编程语言。如果你连R都不知道,那你就不是数据科学家。
23、Spark(Apache Spark)Apache Spark是一种快速的内存内数据处理引擎,它可以高效执行需要快速迭代访问数据集的流、机器学习或SQL工作负载。Spark通常比前文讨论的MapReduce快很多。
24、流处理。流处理旨在通过“连续”查询对实时和流数据进行操作。结合流分析(即在流内同时进行连续计算数学或统计分析的能力),流处理解决方案可以被用来实时处理非常大的数据。
25、结构化和非结构化数据。结构化数据是能够放入关系型数据库的最基本的数据类型,通过表的组织方式可以联系到任何其他数据。非结构化数据则是所有不能直接存入关系数据库中的数据,例如电子邮件、社交媒体上的帖子、人类录音等。