大数据5大关键处理技术
2023-10-16 11:07:24   来源: 趣味大数据   评论:0 点击:

  在大数据与人工智能发展如火如荼的今天,大数据部分技术已经在应用场景中愈发娴熟,但是在众多大数据技术中,有5大类相关技术是比较重要的技术,这5大类技术伴随着大数据产品、项目的整个生命周期和生存周期。

  今天,让我们一起来梳理和学习这5大关键技术,在众多技术中,找到比较关键的大数据技术,将之运用娴熟,更是我们大数据技术人孜孜不倦的追求与努力。

  01 关键技术之数据采集

  如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一,数据采集才是大数据产业的基石。

  那么什么是大数据采集技术呢?

  数据采集(DAQ):又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。

  数据分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其分为线上行为数据与内容数据两大类

  线上行为数据:页面数据、交互数据、表单数据、会话数据等。

  内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。

  1.1 数据采集与大数据采集区别
 

  传统数据采集

       1. 来源单一,数据量相对于大数据较小

  2. 结构单一

  3. 关系数据库和并行数据仓库
 

    大数据的数据采集

  1. 来源广泛,数据量巨大

  2. 数据类型丰富,包括结构化,半结构化,非结构化

  3. 分布式数据库
 

  1.2传统数据采集的不足

  传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。

  对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性
 

  1.3大数据采集方法

  系统日志采集方法

  很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

  网络数据采集方法

  网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

  其他数据采集方法

  对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
 

  02 关键技术之数据预处理

  高质量的决策必须依赖高质量的数据,而从现实世界中采集到的数据大多是不完整、结构不一致、含噪声的脏数据,无法直接用于数据分析或挖掘。数据预处理就是对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等。这个处理过程可以帮助我们将那些杂乱无章的数据转化为相对单一且便于处理的构型,以达到快速分析处理的目的。

  通常数据预处理包含三个部分:数据清理、数据集成、变换以及数据规约。
 

  2.1 数据清理

  并不是所有的数据都是有价值的,有些数据并不是我们所关心的内容,有些甚至是完全错误的干扰项。因此要对数据过滤、去噪,从而提取出有效的数据。

  数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。

  遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;

  噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。
 

  2.2 数据集成与变换

  数据集成是指把多个数据源中的数据整合并存储到一个一致的数据库中。这一过程中需要着重解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。

  由于来自多个数据集合的数据在命名上存在差异,因此等价的实体常具有不同的名称。如何更好地对来自多个实体的不同数据进行匹配是如何处理好数据集成的首要问题。

  数据冗余可能来源于数据属性命名的不一致,在解决数据冗余的过程中,可以利用皮尔逊积矩Ra,b来衡量数值属性,绝对值越大表明两者之间相关性越强。对于离散数据可以利用卡方检验来检测两个属性之间的关联。

  数据集成中最后一个重要问题便是数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。

  为了更好地对数据源中的数据进行挖掘,数据变换是必然结果。其主要过程有平滑、聚集、数据泛化(使用高层的概念来替换低层或原始数据)、规范化(对数据)以及属性构造等。
 

  2.3 数据规约

  数据规约主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。

  假若根据业务需求,从数据仓库中获取了分析所需要的数据,这个数据集可能非常庞大,而在海量数据上进行数据分析和数据挖掘的成本又极高。使用数据规约技术则可以实现数据集的规约表示,使得数据集变小的同时仍然近于保持原数据的完整性。在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。
 

  03 关键技术之存储及管理技术

  在大数据时代的背景下,海量的数据整理成为了各个企业急需解决的问题。

  云计算技术、物联网等技术快速发展,多样化已经成为数据信息的一项显著特点,为充分发挥信息应用价值,有效存储已经成为人们关注的热点。

  为了有效应对现实世界中复杂多样性的大数据处理需求,需要针对不同的大数据应用特征,从多个角度、多个层次对大数据进行存储和管理。

 

  3.1 存储管理面临的问题

  ●存储规模大

  大数据的一个显著特征就是数据量大,起始计算量单位至少是PB,甚至会采用更大的单位EB或ZB,导致存储规模相当大。

  ●种类多样,存储复杂

  目前大数据主要来源于搜索引擎服务、电子商务、社交网络、音视频、在线服务、个人数据业务、地理信息数据、传统企业、公共机构等领域。

  数据呈现方法众多,有结构化、半结构化和非结构化的数据形态,不仅使原有的存储模式无法满足数据时代的需求,还导致存储管理更加复杂。

  ●服务要求高

  大数据的价值密度低、数据增长速度快、处理速度快、时效性高,在这种情况下如何结合实际的业务,有效地组织管理、存储这些数据以能从浩瀚的数据中,挖掘其更深层次的数据价值,需要亟待解决。

  大规模的数据资源蕴含着巨大的社会价值,有效管理数据,对国家治理、社会管理、企业决策和个人生活、学习将带来巨大的作用和影响,因此在大数据时代,必须解决海量数据的高效存储问题。
 

  3.2 大数据存储管理技术

  近年来,企业也从大数据中受益,大幅度推动支出和投资,并允许他们与规模更大的企业进行竞争。

  所有事实和数字的存储和管理逐渐变得更加容易。以下是有效存储和管理大数据的三种方式。

  不断加密

  任何类型的数据对于任何一个企业来说都是至关重要的,而且通常被认为是私有的,并且在他们自己掌控的范围内是安全的。

  然而,黑客攻击经常被覆盖在业务故障中,最新的网络攻击活动在新闻报道不断充斥。因此,许多公司感到很难感到安全,尤其是当一些行业巨头经常成为攻击目标时。

  随着企业为保护资产全面开展工作,加密技术成为打击网络威胁的可行途径。将所有内容转换为代码,使用加密信息,只有收件人可以解码。

  如果没有其他的要求,则加密保护数据传输,增强在数字传输中有效地到达正确人群的机会。

  仓库存储

  大数据似乎难以管理,就像一个永无休止统计数据的复杂的漩涡。

  因此,将信息精简到单一的公司位置似乎是明智的,这是一个仓库,其中所有的数据和服务器都可以被充分地规划指定。

  然而,有些报告指出了反对这种方法的论据,指出即使是最大的存储中心,大数据的指数增长也不再能维持。

  然而,在某些情况下,企业可能会租用一个仓库来存储大量数据,在大数据超出的情况下,这是一个临时的解决方案,而LCP属性提供了一些很好的机会。

  毕竟,企业不会立即被大量的数据所淹没,因此,为物理机器租用仓库至少在短期内是可行的。这是一个简单有效的解决方案,但并不是永久的成本承诺。

  云端备份

  云存储服务推动了数字化转型,云计算的应用越来越繁荣。数据在一个位置不再受到风险控制,并随时随地可以访问,大型云计算公司(如谷歌云)将会更多地访问基本统计信息。

  3.3 结论

  目前原有的存储模式以及跟不上时代的步伐,无法满足数据时代的需求,导致信息处理技术无法承载信息的负荷量。

  这就需要对数据的存储技术和存储模式进行创新与研究,跟上数字化存储的技术的发展步伐,给用户提供一个具有高质量的数据存储体验。

  根据大数据的特点的每一种技术都各有所长,彼此都有各自的市场空间,在很长的一段时间内,满足不同应用的差异化需求。

  但为了更好的满足大数据时代的各种非结构化数据的存储需求,数据管理和存储技术仍需进一步改进和发展。
 

  04 关键技术之数据分析及挖掘

  数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

  一)数据挖掘对象

  根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

  二)数据挖掘流程

  1)定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

  2)数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;

  3)数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

  4)数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

  5)结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

  三)数据挖掘分类

  直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

  间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

  四)数据挖掘的方法

  1、神经网络方法

  神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

  2、遗传算法

  遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

  3、决策树方法

  决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

  4、覆盖正例排斥反例方法

  它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。

  5、统计分析方法

  在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

  6、模糊集方法

  即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

  大数据挖掘技术,目前,还需要改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

  五)着重突破技术

  1. 可视化分析

  不论是分析专家,还是普通用户,在分析大数据时,最基本的要求就是对数据进行可视化分析。经过可视化分析后,大数据的特点可以直观地呈现出来,将单一的表格变为丰富多彩的图形模式,简单明了、清晰直观,更易于读者接受。

  2. 数据挖掘算法

  数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建该模型,算法将首先分析用户提供的数据,针对特定类型的模式和趋势进行查找。并使用分析结果定义用于创建挖掘模型的最佳参数,将这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

  3. 预测性分析

  大数据分析最重要的应用领域之一就是预测性分析,预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等。

  4. 语义引擎

  非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统地去分析,提炼数据。语义引擎是语义技术最直接的应用,可以将人们从繁琐的搜索条目中解放出来,让用户更快、更准确、更全面地获得所需信息,提高用户的互联网体验。

  5. 数据质量和数据管理

  大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理无论是在学术研究还是在商业应用领域都极其重要,各个领域都需要保证分析结果的真实性和价值性。

  05 关键技术之五:大数据应用

  大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

  最后,是展现,主要是可视化,现在有很多工具,可以直接展现出各种静态和动态效果,非常酷炫。

相关热词搜索:数据安全

上一篇:数据泄露境外擅自删库了事?盘点典型数据安全处罚案例!
下一篇:大数据关键技术之数据采集基础

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306116;邮箱:aet@chinaaet.com。
分享到: 收藏