共3页
数据仓库与数据挖掘实验指导书
一、实验平台SQLSever2000AnalysisServices数据仓库是信息业界的明日之星,数据库与联机事务处理(OLTP)是过去十几年来门的信息领域,它们的目标是以计算机来取代许多当前的作业,使得工商企业自动化。在现今竞争激烈的信息领域之中,人们已经开始把注意力由传统的数据库与OLTP加以转移,转而将注意力集中在积极层面的应用领域之上,工商企业也开始注意到他们所拥有的大量计算机数据,这些数据是公司极为重要的资产。传统的数据库与OLTP平台并不是为了分析数据而设计的,为了要充分满足数据分析的请求,近几年来兴起了一种新的信息技术数据仓库,工业分析师们预测在未来的20年之内,数据仓库将在信息业界占有可观的一席之地。XX公司在SQLServer2000上提供了AnalysisServices,它是数据仓库的解决方案,也是微软决策支持服务的主要组件。我们在数据仓库中常会看到一个名词OLAP,OLAP是OnlineAnalyticalProcessing的缩写,即联机分析处理,它目前是决策支持的解决方案。SQLServer2000的Northwind数据库为模板,循序渐进的引导读者从无到有添加一个数据仓库所使用的数据库,以作为AnalysisServices的目标数据库。作者使用DTS设计器来介绍如何由Northwind数据库将数据转移至目标数据库。多维数据集是分析数据的基础,使用向导与编辑器来设计维度与多维数据集,并说明使用向导与编辑器的优劣点。除了分析管理器所提供的工具之外,E_cel也是一个用来分析多维数据集的前端工具,它是通过数据透视表来存取多维数据集的数据。使用E_cel2000的数据透视表功能来分析数据仓库的数据外,多重维度表达式,它使得数据的分析多元化。XX将数据仓库与Web整合在一起,用户可以使用IE5_通过互联网来分析数据。SQLSever2000AnalysisServices的“数据挖掘”概括了数据挖掘活动。从技术化和特定产品的角度来观察数据挖掘。可以通过使用所有的XX向导以及其他交互式工具来设计和创建数据挖掘模型。学习如何创建“挖掘就绪”表以及有效的数据挖掘模型。还将学会如何“训练”模型和解释结果以得到对数据的更深理解。我们可以使用数据挖掘应用编程提高应用程序的开发能力,这些应用程序使用AnalysisServices引擎或PivotTableServices来管理数据挖掘模型。对用于管理的应用程序,开发者可以学会如何创建带有和AnalysisManager同样功能的应用程序。对于依赖现存模型进行预测的应用程序,开发者可以学习如何通过编程来提交预测查询。
二、实习目的和要求1.实验目的:通过实验教学环节,对学生进行实践技能和科学研究方法的训练,巩固其在课堂上所学书本知识,加深对商务智能的基本概念、基本原理和分析方法的理解,掌握商务智能的核心基础技术与工具,并能运用典型的商务智能工具处理、解决一些实际问题。同时,通过实践教学活动,拓宽学生的知识领域,锻炼学生的实践技能,培养科学严谨、求真务实的工作作风。2.实验要求:通过实验教学应达到以下基本要求:1理解数据仓库的工作机理及其构建过程;2掌握典型的数据仓库系统及其开发工具的使用;3理解OLAP的工作原理与流程,掌握典型OLAP工具的操作与使用方法;4理解数据挖掘的工作原理与流程,掌握典型数据挖掘技术及其工具的使用方法;5掌握典型数据展现工具的使用。
1、数据仓库的建立(1)学习SQLServer系统的基本操作及其工作流程,如服务启动、数据库注册等;使用DTS工具进行元数据管理;(2)使用MDS工具进行数据仓库元数据及其框架的管理;(3)使用ODBC数据源管理工具建立系统数据源连接,并应用AnalysisServer工具建立数据仓库和数据源(模拟案例);(4)察看、编辑数据仓库的基本模型(即事实表与维度表之间的关系)。
2、多维数据组织与分析运用AnalysisServer工具进行维度、度量值以及多维数据集的创建(模拟案例);使用维度浏览器进行多维数据的查询、编辑操作;对多维数据集进行切片、切块、旋转、钻取操作;使用CrystalReport工具实现分析结果的展现。
3、数据挖掘(1)基于模拟案例,使用AnalysisServices工具浏览数据挖掘维度和多维数据集;(2)基于模拟案例,运用决策树方法建立关系挖掘模型;(3)对挖掘结果运用该系统工具进行展现。
4、写综合实验报告(1)使用SQLServer2000进行多维数据分析,根据AnalysisManager建立数据源。(2)给出建立一个4维的数据集的大致步骤,包括:事实表、时间维、产品维、客户维等,写出设计和存储多维数据集的大致过程。(3)多维数据分析。(a)切片:分别写出1998年4个季度产品销售情况,(b)切块:写出1998年1-3个月的销售情况。(c)下钻:分析1998年1月份的日销售情况。(d)分别写出1998年1-3月份的平均产品价格。(4)建客户决策树,分析年收入与会员卡的关系。(5)创建一个库户聚类,分析第5个客户群体的收入、婚姻、和消费的状况
举报
