2006 年 07 月 19 日, 星期三

数据仓库,杂记二:数据仓库设计环境

一、体系结构设计环境的层次
在体系结构设计环境中有四个层次:操作层、原子或数据仓库层、部门层、个体层。
数据操作层----只保存原始数据并且服务于高性能事务处理领域,反映了当前信息值。
数据仓库层----存储不更新的原始数据,此外一些导出数据也在此存放,反映了历史变化信息,与操作层无重叠。
数据部门层----几乎只存放导出数据。也叫数据集市层,OLAP层或多维DBMS层,反映了一段周期的数据统计。
数据个体层----完成大多数启发式分析,主要认为集中在个人PC上运行完成。



二、数据集成
把数据从操作型环境载入到数据仓库环境时,如果不进行集成就没有意义。操作型数据通常是非集成的,而数据仓库数据必须是集成的。
如果数据以一种非集成状态到达数据仓库,它就不能被用来支持数据的企业视图(数据的企业视图是体系结构设计环境的本质之一)。


三、数据仓库的用户是DSS分析员
DSS分析员首先是个商务人员,其次才是技术人员。
DSS分析员的主要工作是定义和发现在企业决策中使用的信息。
DSS分析员在发现模式下工作。直到看到报表或屏幕上的数据时,他们才开始探讨是否有必要进行DSS分析。


四、开发生命周期( SDLC)
传统的系统开发生命周期( SDLC)不适用于DSS分析领域。SDLC假设在设计之初需求是已知的(或至少是可以被发现的)。但是,在DSS分析员眼中,在DSS开发生命周期的最后才发现真正的需求。与数据仓库相关联的是一种完全不同的开发生命周期。

数据仓库运行于一个与之完全不同的生命周期下,有时称为CLDS (与SDLC顺序相反)。传统的SDLC是需求驱动的。为建立系统,你必须首先理解需求,然后进入到设计和开发阶段。CLDS几乎刚好相反。CLDS由数据开始,一旦数据到手就集成数据。然后,如果数据有偏差,就检验看看数据存在什么偏差。再针对数据写程序,分析程序执行结果。最后,系统需求才得到了理解。
CLDS是典型的数据驱动开发生命周期,而SDLC是典型的需求驱动开发生命周期。试图采用不适当的开发工具和技术只会导致浪费和混乱。比如, CASE领域是由需求驱动分析所支配的。试图将CASE工具和技术用于数据仓库领域是不明智的,反之亦然。


五、数据仓库硬件利用模式
在操作型处理中有波峰和波谷,但总归存在相当稳定的利用模式。
数据仓库环境中具有根本不同的硬件利用模式,即利用的二元模式----要么利用全部硬件,要么根本不用硬件。
估算数据仓库环境中的硬件平均利用率是没有意义的。这种根本区别也表明同时在同一台机器上把两种环境混在一起为什么不可行。要么针对操作型处理优化机器,要么针对数据仓库处理优化机器。但是你不可能同时在同一台设备上两者都作到。


六、重建生产环境条件
建立数据仓库有两个潜在的好处(非常有用的副作用):
1,从生产环境中移走大量数据(主要是历史档案数据):
@这样,生产环境更易于纠错,重构,监控,索引。
@简言之,仅仅是移走可观数目的数据就可使生产环境更具有可塑性。

2,从生产环境中移走信息性处理。
@信息性处理采取报表、屏幕显示、抽取等形式。
@信息处理的特点是不停地变化。商业形势变化、机构变化、管理变化、财务状况变化,等等。这些变化中的任何一个都对综合与信息性处理产生影响。
@当信息性处理处在生产环境中时,维护起来无休无止。事实上,在生产环境中,大多数所谓的维护就是贯穿于正常的信息变化周期中的信息性处理。通过把大多数信息性处理移到数据仓库中,生产环境中的维护负担将大大减轻。

以上两个副作用,使得生产环境,好适合于重建工程,因为此时生产环境更小,更简单,更集中。


七,监控数据仓库环境
通常,监控的是“存储于数据仓库中的数据”,和“数据的使用”。

监控“存储于数据仓库中的数据”,是管理数据仓库环境的基本能力,监控数据能取得一些重要信息,包括:
@识别发生了什么增长,增长发生在什么地方,增长以什么速率发生。
@识别正在使用什么数据。
@估算最终用户得到的响应时间。
@ 确定谁在实际使用数据仓库。
@说明正在使用数据仓库中的多少数据。
@ 精确指出数据仓库何时被使用。
@ 识别数据仓库的多少数据被使用。
@检查使用数据仓库的层次。

数据仓库的特性是不停地增长。历史数据不停地加入数据仓库,汇总数据也不停地加入,新的抽取流在创建。同时数据仓库驻留的存储和处理技术并不昂贵。在数据仓库正常运行期间,一旦数据放入数据仓库,数据仓库的开销就会增长。

监控“数据的使用”
只要数据体系结构设计者没有办法确定如何使用数据仓库中的数据,那么除了不断购买新的计算机资源之外就别无选择了。但是通过监控数据仓库中数据的使用,就有机会把不用的数据移到其他介质上。
监控数据仓库环境中的数据及活动会得到非常实在的和迅速的回报。在数据监控处理期间,可以建立数据的各种概要文件来概述监控信息,包括:
@ 数据仓库中所有表的目录。
@ 这些表的内容。
@数据仓库中表的增长。
@用于访问表的可用的索引目录。
@汇总表和汇总源的目录。
监控数据仓库活动的需求通过下列问题来说明:
@ 什么数据正在被访问?• 什么时候访问?• 由谁访问?• 访问频率怎样?• 在什么细节层次?
@ 对请求的响应时间是什么? --DSS环境中响应时间的概念与联机事务处理(OLTP)环境中响应时间的概念大不相同。在OLTP中当响应时间太长时,业务情况很快就开
始变糟。D S S中响应时间不是决定性的,相应地,在D S S数据仓库环境中响应时间以分钟和小时计,在某些情况下以天计。但是,在DSS数据仓库环境中响应时间很宽松并不意味着响应时间不重要。在DSS数据仓库环境中,最终用户重复地进行开发工作。这意味着下一个层次的开发依赖于当前分析中所得到的结果。因此,在DSS环境中,响应时间与生产率之间存在十分密切的关系。DSS环境中响应时间只是非关键性的,并不意味着它无关紧要。
@在一天的什么时间提出请求?
@请求多大的数据量?
@ 请求是被终止的还是正常结束的?

监控程序最有效的用途之一是能够将今天的结果与每天平均的结果进行比较。





bigboar 发表于:2006.07.19 11:06 ::分类: ( Oracle ) ::阅读:(590次) :: 评论 (0) :: 引用 (0)

发表评论

标题

在此添加评论

称呼

邮箱地址(可选)

个人主页(可选)


authimage