基于BS框架的数据挖掘系统的设计

基于BS框架的数据挖掘系统的设计

                                      基于BS框架的数据挖掘系统的设计

                                                摘要
数据挖掘(Data Mining)是在大型数据存储库中,自动地发现有用信息的过程。它用来探查大型数据库,发现先前未知的有用模式,并且还能预测未来观测结果。数据挖掘的目的在于如何善用数据,从运营历史的记录奖励,挖掘出深藏其中的宝贵经验。近年来,随着数据挖掘技术的进步发展,它在商业智能领域发挥了极大的作用。它成为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。如何使数据挖掘技术更好地应用于生活生产、交易决策活动中,具有较高的研究价值。
在本文中,从理论和实践上分析了B/S架构下利用ASP.NET技术开发数据挖掘系统的可行性。展示了该系统对数据源进行挖掘后得到的预测结果,并着重分析了对相同数据源应用不同的挖掘算法及不同的数据源应用相同的挖掘算法得出的不同结果,从而分析算法应用的优劣情况。并详细介绍了系统的架构方法和调试结果,分析了所利用的ASP.NET、ADO等WEB网络技术和数据挖掘中如何采用DMX语言对挖掘模型的训练,数据挖掘算法比较等。最后,本文通过上述研究成果,总结了该课题的研究过程并探索了该课题的深入方向。
    
关键词:数据挖掘  商业智能  B/S模式  SSAS
 
第一章  概述
 
 
1.1 课题研究的意义
1.1.1  数据挖掘研究背景
1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现KDD(Knowledge Discovery in Databases)这个术语。KDD,及知识发现,是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的一个过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。
为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术。数据挖掘是在KDD基础上细化出来的一个概念。最初,数据挖掘只是指在KDD过程中,利用算法处理数据的一个过程,是KDD中进行只是学习的阶段,是其中的核心技术。所谓数据挖掘即是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。它经由数据转换、核心算法以及结果表达得以实现。它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据。数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决策,也是对数据内在和本质的高度抽象与概括。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但是潜在有用的信息和知识的一种过程。所以它要求数据源必须是真实的、海量的、含噪声的;发现的只是是用户感兴趣的只是;并且发现的结果是可接受、可理解、可运用的。在技术中,发现的知识并不要求是放之四海而皆准的通用模型,而仅仅要求它是能够适用于特定的数据源的结果。
数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。
 
 
1.1.2  课题研究的意义
从KDD这个概念提出至今,数据挖掘技术在各个领域都有着极大的前景。
在医学上,对于庞大的医疗信息记录,数据挖掘技术可以从中挖掘出有用信息和规律,并将这些规律用于医生的诊断过程、对潜在的高患病率的人群进行排查和预防、以及帮助政府制定医疗政策、社区群体进行医疗防护等方面。
在司法政治领域,数据挖掘技术也可以通过分析固定人群的信息数据,从而预测出人们的行为模式,从而更好的帮助人们做出升学、置业等重要决策,也可以帮助制定更能够惠于民的政治策略。
数据挖掘更常用的领域是在现今的商业活动中,决策者往往需要通过既成数据和以往的经验来做出决策判断。决策过程可通过商业智能来帮助决策者。商业智能通常被理解为将企业中现有的数据,如企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据等,转化为知识,帮助企业做出明智的业务经营决策的一种解决方案。
伴随着信息化进程的深入,海量的信息大量积聚,如何能从这些信息中获取有用的知识,并指导人们的日常工作生活,成为了一个至关重要的问题。可以说,把握了海量数据分析处理的方法,就把握了在未来信息化社会里最为重要的一种科技技术力量。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理 ,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。但往往由于这些专业知识领域获取困难,使得决策者无法从中得到正确的结论。因此商业智能解决方案变得简洁,易于操作已经成为了一个必然的趋势。
 
目录
 
中文摘要
英文摘要
第一章 概论
1.1  课题研究的意义
1.1.1  研究背景
1.1.2  研究意义
1.1.3  术语解释
1.2  国内外研究情况
1.2.1  B/S模式的研究情况
1.2.2  数据挖掘的研究情况
第二章   课题方案研究
2.1  课题要求及规划
2.2  常用开发方式介绍
2.3  Visual Studio 2008和Microsoft SQL Server 2008 R2方案
2.3.1  B/S模式
2.3.2  Microsoft SQL Server 2008 R2
2.3.3  Visual Studio 结合 SQL Server 2008 R2开发模式
第三章   系统设计及算法
3.1  系统总体结构
3.2  系统子功能模块
3.2.1  欢迎和算法介绍模块
3.2.2  数据源和算法选择模块
3.2.3  挖掘结果演示模块
3.3  DMX语言和挖掘模型
3.3.1  模型建立
3.3.2  模型训练
3.3.3  模型使用
3.4  数据挖掘算法
3.4.1 Microsoft中的数据挖掘算法
3.4.2 决策树和线性回归算法
第四章   调试测试结果
3.1  同数据源不同算法
3.2  不同数据源相同算法
3.3  结果分析
第五章   总结及展望
5.1  总结
5.2  展望
参考文献
附录
调试测试结果
3.1  同数据源不同算法
用决策树模型对三国志源数据进行挖掘结果图(图八):
用线性回归模型对三国志数据源进行挖掘结果图(图九):
3.2  不同数据源相同算法
用决策树模型对三国志数据源进行挖掘结果图(图八):
用决策树模型对高中升学数据源进行挖掘结果图(图九):
3.3  结果分析
通过上述结果的比对,对于同数据源不同算法的情况,可以发现两种算法的得出来的预测结果差异性并不是很大,这是因为,一是线性回归算法从本质上说就是一种带参的决策树算法,其次,系统所选取的数据源类型不多且数据量也比较小。
而针对于不同数据源相同的算法这种情况,发现利用Microsoft SQL Server中自集成的算法模型,对不同的数据源和数据类型进行预测,都能够得到较好的预测结果。这就验证了数据挖掘的可行性和有效性。
第五章 总结及展望
5.1  总结
本此设计主要完成了以下的工作: 
1.调研总结和详细阐述了数据挖掘的技术和方法,对开发数据仓库和数据挖掘的工具进行了研究,并最终选择了Microsoft SQL Server 2008 R2 及Microsoft Visual Studio 2008相结合的开发方式进行数据挖掘系统的研发。为成功建立数据挖掘系统奠定了基础。
2.详细研究了如何用Microsoft SQL Server中的DMX语言进行数据挖掘模型的创建、训练、使用(预测)的方法。 
3.总结和阐述了经常使用的一些数据挖掘算法,并且重点介绍了决策树和线性回归算法。 
4.运用维度建模的方法建立了系统的信息模型,通过编程实现了一个模拟演示的B/S架构的数据挖掘系统系统,并对此系统在数据挖掘的功能上进行了比对研究。
http://www.bysj360.com/html/4520.html http://www.bylw520.net/html/5120.html
 
 

暂时没有评论

真实

多重认证,精挑细选的优质资源 优质老师。

安全

诚实交易,诚信为本。

保密

所有交易信息,都为您保密。

专业

10年专业经验,10年来帮助无数学子。