网站分析

大数据-大问题?

2018年2月1日星期四

大数据分析是检查包含各种数据类型(即大数据)的大数据集的过程,以发现隐藏的模式,未知的相关性,市场趋势,客户偏好和其他有用的业务信息。分析结果可以带来更有效的营销,新的收入机会,更好的客户服务,更高的运营效率,相对于竞争对手组织的竞争优势以及其他业务收益。

大数据分析的主要目标是通过使数据科学家,预测建模人员和其他分析专家能够分析大量交易数据以及常规商业智能可能无法利用的其他形式的数据,来帮助企业制定更明智的业务决策。 (BI)程序。这可能包括Web服务器日志和Internet点击流数据,社交媒体内容和社交网络活动报告,来自客户电子邮件和调查响应的文本,移动电话呼叫详细记录以及由连接到物联网的传感器捕获的机器数据。有些人专门将大数据与这种半结构化和非结构化数据相关联,但是像Gartner Inc.和Forrester Research Inc.这样的咨询公司也将事务和其他结构化数据视为大数据分析应用程序的有效组成部分。

可以使用通常用作高级分析学科(例如预测分析,数据挖掘,文本分析和统计分析)一部分的软件工具来分析大数据。主流BI软件和数据可视化工具也可以在分析过程中发挥作用。但是半结构化和非结构化数据可能不适用于基于关系数据库的传统数据仓库。此外,数据仓库可能无法处理需要频繁甚至连续更新的大数据集(例如,有关移动应用程序或石油和天然气管道性能的实时数据)带来的处理需求。结果,许多希望收集,处理和分析大数据的组织已转向一种较新的技术类别,其中包括Hadoop和相关工具,例如YARN,MapReduce,Spark,Hive和Pig以及NoSQL数据库。这些技术构成了开源软件框架的核心,该软件框架支持跨集群系统处理大型多样的数据集。

大数据分析的挑战:

对于大多数组织而言,大数据分析是一个挑战。考虑整个组织中收集的庞大数据量和不同格式的数据(结构化和非结构化数据),以及可以组合,对比和分析不同类型的数据以找到模式和其他有用业务的多种不同方式信息。
第一个挑战是打破数据孤岛,以访问组织存储在不同位置和不同系统中的所有数据。大数据的第二个挑战是创建可以像结构化数据一样容易地提取非结构化数据的平台。通常,如此庞大的数据量如此之大,以至于难以使用传统的数据库和软件方法进行处理。

对于大多数组织而言,大数据分析是一个挑战。考虑整个组织中收集的庞大数据量和不同格式的数据(结构化和非结构化数据),以及可以组合,对比和分析不同类型的数据以找到模式和其他有用业务的多种不同方式信息。
第一个挑战是打破数据孤岛,以访问组织存储在不同位置和不同系统中的所有数据。大数据的第二个挑战是创建可以像结构化数据一样容易地提取非结构化数据的平台。通常,如此庞大的数据量如此之大,以至于难以使用传统的数据库和软件方法进行处理。

在某些情况下,Hadoop集群和NoSQL系统被用作数据的登陆区和暂存区,然后再将其加载到数据仓库中进行分析,通常采用更有利于关系结构的汇总形式。不过,大数据供应商越来越多地采用Hadoop数据湖的概念,该湖用作组织传入的原始数据流的中央存储库。在这样的架构中,然后可以过滤数据的子集,以便在数据仓库和分析数据库中进行分析,或者可以使用批处理查询工具,流处理软件和Hadoop技术上的SQL在Hadoop技术上直接对其进行分析,这些SQL技术运行交互式,即席查询在SQL中。

可能使组织不愿采用大数据分析计划的陷阱包括缺乏内部分析技能以及雇用经验丰富的分析专业人员的高昂成本。通常涉及的信息量及其种类也可能导致数据管理头痛,包括数据质量和一致性问题。此外,集成Hadoop系统和数据仓库可能是一个挑战,尽管现在许多供应商都提供了Hadoop与关系数据库之间的软件连接器,以及具有大数据功能的其他数据集成工具。

 

发表评论

您的电子邮件地址不会被公开。 必需的地方已做标记 *

让我们建立一个伟大的项目

拖我们一条线