﻿ 云环境中大数据挖掘的有效花费研究
 上海理工大学学报  2020, Vol. 42 Issue (3): 247-252 PDF

Effective cost of big data mining in cloud environment
ZHU Xiaodong, XU Yi, WEI Ziyu
Business School, University of Shanghai for Science and Technology, Shanghai 200093, China
Abstract: In order to balance the renting quantity of cloud computing resources and the accuracy of data mining in cloud, the optimum cost performance ratio is obtained. Taking the convolution neural network (CNN) as an example, the evolution patterns of the number of iterations and accuracy of CNN was explored. A lot of experiments were performed upon the image dataset MNIST and the text dataset IMDB. The results show that in different types of data sets, the machine time consumed increases sharply with a small increase in accuracy when the optimal solution is approached, which is called the long tail phenomena. Correspondingly, in the real cloud environment, when the long tail phenomenon of big data mining occurs and the accuracy is satisfied, terminating the performance of CNN in cloud in advance rather than at the convergence time can save a lot of cloud resource costs. The results have practical value and practical significance for the rational use of cloud computing resources and the reduction of cloud rental cost.
Key words: cloud computing resources     effective cost     convolutional neural network     long tail phenomenon

1 云计算的消费模型 1.1 云计算

1.2 消费模型

 $C = PT$ (1)

2 卷积神经网络相关概述 2.1 卷积神经网络

CNN的基本结构由输入层、卷积层、池化层（也称下采样层）、全连接层和输出层组成。卷积层和池化层一般根据所需情况取若干个，交替设置。卷积神经网络含有最突出的3个特点，即局部连接、权值共享和池化操作，有效地降低了网络的复杂度，减少了训练参数的数量，降低特征维度并且改善结果。

2.2 准确度估计

 $A = \frac{{n_{\rm{TP}} + n_{\rm{TN}}}}{{n_{\rm{TP}} + n_{\rm{FN}} + n_{\rm{FP}} + n_{\rm{TN}}}}$ (2)

3 实 验 3.1 实验设置

a. 数据集准备。准备要实验的数据集。

b. 数据分类。利用CNN对数据集进行实验分类，并确定准确率。

c. 准确率–时间比较。对于每一组实验，通过算法在每次迭代中获得的准确率，与按需模型的每次迭代结束时算法所花费的计算时间一起示出。

d. 分析和讨论。比较结果进行分析和讨论。

3.2 数据集准备

MNIST手写数据集是深度学习最常用的数据集之一，是美国国家标准与技术研究所（National Institute of Standards and Technology，NIST）所提出的。训练集由来自250个不同人手写的数字构成，其中50%是高中学生，50%来自人口普查局的工作人员。测试集也是同样比例的手写数字数据。图1为MNIST数据集的可视化样例。

 图 1 MNIST数据集可视化样例 Fig. 1 MNIST dataset visualization example

IMDB影评情感数据也是作文本情感分类常用的数据集之一，是斯担福大学人工智能实验室整理的一套IMDB影评的情感数据[16]

3.3 实验结果

 图 2 MNIST训练集和测试集在准确率和时间之间的相关性 Fig. 2 Relationship between the time and accuracy for the training and test data of MNIST

 图 3 IMDB训练集和测试集在准确率和时间之间的相关性 Fig. 3 Relationship between the time and accuracy for the training and test data of IMDB

4 结 论

 [1] 王元卓, 靳小龙, 程学旗. 网络大数据: 现状与展望[J]. 计算机学报, 2013, 36(6): 1125-1138. [2] 于戈, 谷峪, 鲍玉斌, 等. 云计算环境下的大规模图数据处理技术[J]. 计算机学报, 2011, 34(10): 1753-1767. [3] 江涛. 当管理遭遇“云”——云计算: 不只是节省成本[J]. 管理学家: 实践版, 2012(5): 30-38. [4] ARMBRUST M. Above the clouds: a berkeley view of cloud computing[J]. Science, 2009, 53(4): 50-58. [5] 冯登国, 张敏, 张妍, 等. 云计算安全研究[J]. 软件学报, 2011, 22(1): 71-83. [6] 陈秀惠. 如何避免云计算的成本超支[J]. 计算机与网络, 2018, 44(18): 38-40. DOI:10.3969/j.issn.1008-1739.2018.18.036 [7] ABADI M. TensorFlow: learning functions at scale[J]. ACM SIGPLAN Notices, 2016, 51(9): 1. DOI:10.1145/3022670.2976746 [8] 何雪锋, 陈静利, 张鑫. 基于人工智能、大数据和云计算的作业成本法探究——以我国烟草工业企业为例[J]. 财会月刊, 2018(17): 69-72. [9] 张建勋, 古志民, 郑超. 云计算研究进展综述[J]. 计算机应用研究, 2010, 27(2): 429-433. DOI:10.3969/j.issn.1001-3695.2010.02.007 [10] 姚宏宇, 田溯宁. 云计算: Cloud computing: 大数据时代的系统工程[M]. 北京: 电子工业出版社, 2013. [11] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6): 1229-1251. DOI:10.11897/SP.J.1016.2017.01229 [12] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791 [13] HAYKIN S. 神经网络原理[M]. 2版. 北京: 机械工业出版社, 2006. [14] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012. [15] 周志华, 王珏. 机器学习及其应用[M]. 北京: 清华大学出版社, 2007. [16] MAAS A L, DALY R E, PHAM P T, et al. Learning word vectors for sentiment analysis[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: ACM, 2011: 142–150. [17] HE Q, ZHU X D, LI D W, et al. Cost-effective big data mining in the cloud: a case study with K-means[C]//Proceedings of the 2017 IEEE 10th International Conference on Cloud Computing. Honolulu: IEEE, 2017: 74–81.