1.重点
支持度,和可信度 概念 怎么算
如果一个项目集是不频繁的,那么他的子集也是不频繁的,
逆反定理,如果一个项目集是不频繁的,那么他的超集也是不频繁的
apriori算法 步骤
1,分层寻找频繁项目集
给出minisupp
多维数据分析基础:聚集
常见聚集函数:求和sum、计数count、求最大值max、求最小值min、求平均值average
求中间值median、排序rank 中间值就是中间数也就是中位数
※聚集函数可以分为三类
分布型函数
sum min max
可以将数据分成N份,对其中的每一份应用该函数,可以得到N个聚集值进行计算得到的结果和不对数据进行划分得到的结果一致,则说这个函数的分布型的。具有可以累计的特性
代数型函数
average
如果一个函数可以由若干个分布型函数进行代数运算得出结果,则说这个函数是代数型的
整体型函数
median rank
如果一个函数不能有其他的函数进行代数运算得出的则说这个函数是整体型的,例如求中间值。在计算的时候需要同时用到所有的数据,需要消耗较多的资源,具有较大的计算代价。
※多维分析操作
常用的多维分析操作有哪些?简答
请举例说明有哪些多维操作分析操作 详细
具体的某个操作的名词解释
切片slice
相当于where条件
切块dice
相当于where的范围条件
向上钻取roll up
维度从多到少的过程
相当于 group by
向下钻取drill down
维度从少到多的过程
旋转rotate
行列变换 主要是显示变换
数据仓库体系结构
※OLAP服务器分类–四类(书上P15)
ROLAP
MOLAP
HOLAP
特殊SQL服务器
重点是ROLAP
数据仓库设计方法