基于聚类计算数据挖掘的大数据可视化平台--中国期刊全文数据库

刊名： 教学与研究
        Teaching and Research
主办：  中国人民大学
周期：  月刊
出版地：北京市
语种：  中文;
开本：  大16开
ISSN： 0257-2826
CN：   11-1454/G4
邮发代号： 2-256

历史沿革：
现用刊名：教学与研究
创刊时间：1953

该刊被以下数据库收录：
CSSCI 中文社会科学引文索引（2012—2013）来源期刊（含扩展版）
核心期刊：
中文核心期刊(2011)
中文核心期刊(2008)
中文核心期刊(2004)
中文核心期刊(2000)
中文核心期刊(1996)
中文核心期刊(1992)

基于聚类计算数据挖掘的大数据可视化平台

【作者】孟祥斌朱佳梅

【机构】（黑龙江省哈尔滨石油学院）

【正文】摘要：本作品实现的是产品销售额等一系列参数的分析。在产品的整个寿命周期，包括从市场调研到售货服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。例如，一个企业的领导人要通过市场调查，分析所得数据以判定市场动向，从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。本作品不仅仅局限于某一层面的数据分析，如果有其他的系统数据也可以通过数据来改成其他的聚类分析大数据平台。
　　关键字：大数据；数据挖掘；数据分析；可视化
　　引言
　　大数据是当下讨论的最热烈的词汇，随着大数据而来的数据安全、数据分析、数据仓库、数据挖掘等等。中国庞大的人数和应用市场，其复杂性高并且充满变化，从而成为世界上拥有最复杂的大数据国家。解决这种由大规模数据引发的问题，探索以大数据为基础的解决方案，是中国产业升级、效率提高的重要手段。因此解决大数据这一问题不仅提高公司的竞争力，也能提高国家竞争力。
　　一、现状及分析
　　当前，大数据技术的应用涉及各个行业领域。
　　1、在金融行业的应用
　　近几年来，随着“互联网金融”概念的兴起，催生出了一大批金融机构的转型，相关产业服务应运而生。随着互联网金融向纵向发展，行业竞争趋近于白热化，金融机构的短板越来越明显。为了更好的获得最佳商机，金融行业也步入了大数据时代
　　2、在政府的应用
　　为充分运用大数据的先进理念，推进简政放权和政府职能转变，提高政府治理能力，我国一些省市运用大数据加强对市场主体服务和监管实施方案已然出炉。
　　3、在医疗的应用
　　随着医疗卫生信息化建设进程的不断加快，医疗数据的类型和规模也在以前所未有的速度迅猛增长，这些医疗数据能帮助医改在合理的时间内达到整合成为帮助医院进行更积极的经营决策的有用信息。
　　4、在经济管理的应用
　　淘宝网建立了“淘宝CPI”，通过采集淘宝网上390个类目的热门商品价格来统计CPI，预测某个时间段的经济走势比国家统计局的CPI还提前半个月。
　　5、在农业的应用
　　通过对手机上的农产品“移动支付”数据、“采购投入”数据和“补贴”数据分析，可准确预测农产品生产趋势，政府可依此决定出台激励实施和确定合适的作物存储量，还可以为农民提供服务。
　　6、在商业的应用
　　在淘宝网上买东西时，消费者会在阿里的广告交易平台上留下信息，阿里不仅从交易记录平台把消费记录拿来供自己使用，还会把消费记录卖给其他商家。
　　7、在银行的应用
　　在信用卡服务方面，银行首先利用移动互联网技术的定位功能确定商圈；其次利用用户活动轨迹追踪，确定高价值商业圈设计业务；再利用大数据进行客户需求的体验分析。既包括客户的需要，也包括客户的体验，最终实现用户体验的LIKE曲线。
　　二、系统设计
　　1、 Linux系统
　　本作品选择Linux系统。Linux系统有很多的的优点，首先就是他的开源，任何人都是可以查看他的源代码的，这使得他特别的安全，而windows则不开源，要经常的打补丁，修补漏洞。其次，Linux内核优化的很好，而windows则不同，微软的系统非常的复杂，而且运先行效率相对Linux要低很多。虽然Linux在桌面市场没有优势（只占1%多一点的占有率），但他在服务器行业的地位那是无敌的（20%多）。Linux占用系统资源特别少，早期的Linux，64M内存就能跑的很流畅，这也是他的优势。
　　2、 Hadoop
　　Hadoop实现了一个分布式文件系统，Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。它具有以下几个特点高可靠性、高扩展性、高效性、高容错性、低成本。
　　Hadoop技术生态圈：

　　3、 Spark
　　Spark是一个用来实现快速而通用的集群计算的平台。我们把表放到HDFS里，也就是放到大数据的文件管理系统里，通过Python把我们不同的表进行挖掘，通过聚类分析算法合并各个表，同时把各个表里的相关字段组合到一张大表里。
　　4、 Hive
　　Hive是最适合数据仓库应用程序的，其可以维护海量数据，而且可以对数据进行挖掘，然后形成意见和报告等。Hive不仅提供了一个熟悉SQL的用户所能熟悉的编程模型，还消除了大量的通用代码。
　　5、 HBase
　　HBase是一个分布式的、可伸缩的数据存储，其支持行级别的数据更新、快速查询和行级事务，HBase使用HDFS来持久化存储数据。
　　6、 YARN
　　YARN是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度。YRAN减小了资源消耗，并且让监测每一个子任务状态的程序分布式化，使其变得更加的安全、看起来也变得更加的优美。
　　7、Pycharm
　　我们的数据挖掘和算法用的是Python语言。安装的软件是Pycharm。首先让软件连接Hadoop，同时连接Spark。也就是说在Pycharm里可控制Linux操作系统，对Linux操作系统里的数据和各个表进行拼接。连接驱动，对数据进行拆分，拆分成mapreduce键值对。
　　三、系统设计方案
　　本项目从底层的大数据集群搭建，到中间层的利用算法进行数据挖掘，在到顶层的大数据可视化，属于大数据开发的一个完整开发过程。大数据开发是目前国内比较前沿的开发技术，每一层都有一些科技人员负责专职开发，对大数据的底层集群的搭建，到中间层的利用聚类分析算法对大数据挖掘，在到顶层的大数据可视化显示做一个完整的大数据开发过程。项目开发成员利用2年多对大数据的学习时间开发出了本项目，实现了利用大数据聚类计算数据挖掘的大数据可视化平台。软件搭建如下图所示。

　　四、结语
　　作品主要是想对大数据的底层集群的搭建，到中间层的利用聚类分析算法对大数据挖掘，在到顶层的大数据可视化显示做一个完整的大数据开发过程。大数据的集群搭建是项目难点之一，本项目利用虚拟机搭建了三台集群，一个元数据节点，三个数据节点，作为底层的集群通信。利用spark技术提高大数据的数据挖掘速度也是本项目难点之一，也就是不需要在硬盘存取数据，而是在内存中存取数据，比利用大数据mapreduce技术速度快了至少10倍以上。利用聚类分析算法合并各个表，把我们需要的数据和字段整合到一个大表中也是本项目的难点之一。把整合好的大表利用tableau软件做大数据可视化，也是本项目的难点之一。
　　参考文献：
　　[1] 陈杰. 本地文件系统数据更新模式研究[D]. 华中科技大学 2014
　　[2] 刘洋. 层次混合存储系统中缓存和预取技术研究[D]. 华中科技大学 2013
　　[3] 韩林. 云存储移动终端的固态缓存系统研究[D]. 华中科技大学 2014
　　[4] 陈云亮. 分级存储系统中基于进化算法的数据管理与保护关键技术研究[D]. 华中科技大学 2013
　　[5] 任崇广. 面向海量数据处理领域的云计算及其关键技术研究[D]. 南京理工大学 2013
　　[6] 李勇. 异构存储系统中的缓存技术研究[D]. 华中科技大学 2014
　　基金项目：黑龙江省大学生创新创业项目项目编号： 201813299023