您现在的位置:首页 > >

应用多元统计分析课后习题答案高惠璇第六章习题解答共39页文档_图文


应用多元统计分析
第六章部分习题解答

第六章 聚类分析

6-1 证明下列结论:

(1) 两个距离的和所组成的函数仍是距离;

(2) 一个正常数乘上一个距离所组成的函数

仍是距离;

(3)设d为一个距离,c>0为常数,则 d * ? d

仍是一个距离;

d ?c

(4) 两个距离的乘积所组成的函数不一定是

距离;

证明 :(1)设d(1)和d(2)为距,离 令d?d(1) ?d(2).

以下来验 d满证足作为距离所 3个要条求 .件

2

第六章 聚类分析
① dij ?di(j1) ?di(j2) ?0,且仅X当(i) ?X(j)时dij ?0; ② dij ?di(j1) ?di(j2) ?d(j1i) ?d(j2i) ?dji,对一i切 , j; ③ dij ?di(j1) ?di(j2) ?di(k1) ?dk(1j) ?di(k2) ?dk(2j)
?dik ?dkj,对一i切 ,k, j.
(2) 设d是距离,a >0为正常数.令d*=ad,显然有
① di*j?cd ij?0,且仅 X(i)当 ?X(j)时 di*j?0; ② di*j?cd ij?cdji?d*ji,对一 i,j;切
3

第六章 聚类分析

③ di*j?cdij?c(dik?dk)j ?cdik?cdk j

?di*k?dk*,j对一i,切 k, j.
故d*=ad是一个距离. (3) 设d为一个距离,c>0为常数,显然有



di*j

? dij dij ?c

?0,且仅当 X(i)

? X( j)时di*j

?0;



di*j

? dij dij ?c

? dji dji ?c

?d*ji,对一切 i, j;

4

第六章 聚类分析



d

* ij

?

d ij dij ? c

?1 1 ? c / dij

?

1

1 ? c /(dik

? dkj)

? dik ? d kj ?

d ik

?

dkj

dik ? d kj ? c dik ? d kj ? c dik ? d kj ? c

? dik ? d kj dik ? c d kj ? c

(因dik ? 0, dkj ? 0)

?

d

* ik

?

d

* kj

对一切 i, k, j.

故d*是一个距离.

5

第六章 聚类分析

(4)设d(1)和d(2)是距离 ,令d* ?d(1) ?d(2).

d*虽满足2前 个条件 ,但不一定满足三式 角. 不

下面用反例来d说 *不明 一定是距 . 离

设di(j1)

?di(j2)

?

X(i)

?X(j)

(m?1),则di*j ?

X(i)

?X(j)

2
.

当X(i) ?0,X(j) ?1,X(k) ?0.5时,di*j ?1,di*k?14,dk*j?14. 显然不d满 i*j ?d足 i*k?dk*.j

6

第六章 聚类分析

6-2 试证明二值变量的相关系数为(6.2.2)式,夹角余
弦为(6.2.3)式.

证明:设变量Xi和Xj是二值变量,它们的n次观测值记 为xti, xtj (t=1,…,n). xti, xtj 的值或为0,或为1.由二值变 量的列联表(表6.5)可知:变量Xi取值1的观测次数 为a+b,取值0的观测次数为c+d;变量Xi和Xj取值均为1的 观测次数为a,取值均为0的观测次数为d 等等。利用两 定量变量相关系数的公式:

n

?(xti ?xi)(xtj ?xj )

rij ?

t?1 n

n

? ? (xti ?xi)2

(xtj ?xj )2

t?1

t?1

7

第六章 聚类分析

? ? n
(xti ?xi)(xtj
t?1

n
?xj)? xtixtj
t?1

?nxixj

?a?na?ba?c nn

?1[an?(a?b)(a?c)]?1[a(a?b?c?d)?(a?b)(a?c)]

n

n

?ad?bc n

? ? n
(xti
t?1

?xi)2

n
?
t?1

xt2i

?nxi2

?a?b?n??a?b??2 ? n?

?(a?b)[n?(a?b)]?1(a?b)(c?d)

n

n

8

第六章 聚类分析

? ? n (xtj
t?1

?xj)2

n
?
t?1

xt2j

?nx2j

?a?c?n??a?c??2 ? n?

?(a?c)[n?(a?c)]?1(a?c)(b?d)

n

n

故二值变量的相关系数为:

n

?? ? Cij(7)?

(xti?xi)x(tj?xj)

t?1

?

a? dbc

n

n

(xti?xi)2 (xtj?xj)2

(a?b)c(?d) (a?c)b(?d)

t?1

t?1

(6.2.2)

9

第六章 聚类分析

利用两定量变量夹角余弦的公式:

n

? xti xtj

cos?ij ?

t ?1 n

n

其中

? ? xt2i

xt2j

t ?1

t ?1

n

n

n

? ? ? xti xtj ? a, xt2i?a?b, xt2j?a?c

t ?1

t?1

t?1

故有 ci(j9)?co ?ijs?(a?b a )a (?c) (6.2.3)

10

第六章 聚类分析

6-3 下面是5个样品两两间的距离阵

?0

?

D(0) ? D(1) ? ???64

0 9

0

? ? ?

???16

7 3

10 5

0 8

0???

试用最长距离法、类平均法作系统聚类,并画出谱系

聚类图.

解:用最长距离法:

① 合并{X(1),X(4)}=CL4,

并类距离 D1=1.

D(2)

?

?? ? ???

0 9 3 7

0 5 10

0 8

?? ?

X (2) X (3)

0???

X (5) CL4

11

第六章 聚类分析

② 合并{X(2),X(5)}=CL3,并类距离 D2=3.

D(3) ????100 ?9

0 8

0????CCXL(L334)

③ 合并{CL3,CL4}=CL2,并类距离 D3=8.

D(4) ????100 0???CX(3L2)

④ 所有样品合并为一类CL1,并类距离 D4=10.

12

第六章 聚类分析
最长距离法的谱系聚类图如下:
Name of Observation or Cluster
X1

X4

X2

X5

X3

0

1

2

3

4

5

6

7

8

9

10

Maximum Distance Between Clusters
13

第六章 聚类分析

用类平均法:

D(0)

?

D(1)

?

?? ? ?

0 4 6

0 9

0

?? ? ?

???16

7 3

10 5

0 8

0???

① 合并{X(1),X(4)}=CL4,并类距离 D1=1.

?0

D(2)

? ???

92 32

?65 ?2

0 52 136
2

0 100
2

?? X(2) ? X(3) 0???CX(L54)

14

第六章 聚类分析

② 合并{X(2),X(5)}=CL3,并类距离 D2=3.

D(3)

?????110306622

0 1654

0????C CX(3LL34)

③ 合并{CL3,CL4}=CL2,并类距离 D3=(165/4)1/2.

D(4) ????10221 0???C X(3L2)

④ 所有样品合并为一类CL1,并类距离 D4=(121/2)1/2.

15

第六章 聚类分析
类平均法的谱系聚类图如下:
Name of Observation or Cluster
X1

X4

X2

X5

X3

0

1

2

3

4

5

6

7

8

Average Distance Between Clusters

16

第六章 聚类分析
6-4 利用距离平方的递推公式
? ? ? ? D k 2? r p D p 2? kq D q 2? kD p 2? q|D p 2? k D q 2|k
来证明当γ=0,αp≥0,αq≥0,αp+αq+β≥1时,系统聚类中的类 平均法、可变类平均法、可变法、Ward法的单调性.

证明:设第L次合并Gp和Gq为新类Gr后,并类距离DL = Dpq,且必有Dpq2≤Dij2 . 新类Gr与其它类Gk的距离平方的
? ? ? ??? 递推公式 ,当γ=0,αp≥0,αq≥0, αp+αq+ β ≥1 时
D k 2 ? rp D p 2 ? k q D q 2 ? k D p 2 ? q (p ? q ? ) D p 2 ? q D p 2q

这表明新的距离矩阵中类间的距离均≥ Dpq = DL ,

故有DL+1 ≥ DL ,即相应的聚类法有单调性.

17

第六章 聚类分析

对于类平均法,因

?

?0,?p

?

np nr

?0,?q

?

nq nr

?0,

?p

??q

??

?

np nr

? nq nr

?0?1?1

故类平均法具有单调性。

对于可变类平均法,因

??0,?p?(1??)nnrp ?0,?q?(1??)n nq r ?0,(??1)

?p??q???(1??)nnrp

?(1??)nq
nr

???1?1

故可变类平均法具有单调性。

18

第六章 聚类分析

对于可变法,因

? ?p??0?,?qp???1??21??2??0?,?1q?2??1??2????10?,(1??1)

故可变法具有单调性。

对于离差平方和法,因

??0,?p

?nk nr

?np ?nk

?0,?q

?nk nr

?nq ?nk

?0,

?p??q???nnkr

?np ?nk

?nk nr

?nq ?nk

? nk nr ?nk

?1?1

故离差平方和法具有单调性。

19

第六章 聚类分析

6-5 试从定义直接证明最长和最短距离法的单调性.

证明:先考虑最短距离法:

? ? 设第L步从类间距离矩阵

D ?D (L?1)

(L?1) ij

D(L?1) pq

?miD ni(L j?1)

故合并Gp和Gq为一新类Gr,这时第L步的并类距离:

DL ?Dp(Lq?1)

且新类Gr与其它类Gk的距离由递推公式可知
D r ( L )k ? m D p ( L ? 1 ) i , k D q ( L n ? 1 ) k ) ? D (p ( L ? 1 ) q ? D ( L )( k ? p ,q )

? ? 设第L+1步从类间距离矩阵 D(L) ?Di(L j) 出发,

20

第六章 聚类分析

因Dr(Lk) ?Dp (L? q1) ?DL (k?p,q)

D(L) ij

?Di(L j?1)

?DL

(i,j?r,p,q)

故第L+1步的并类距离:
D L?1?miD n i(L j))(?D L,

即最短距离法具有单调性.

类似地,可以证明最长距离法也具有单调性.

21

第六章 聚类分析

6-6 设A,B,C为平面上三个点,它们之间的距离为

dA 2B ?dA 2C ? 1 .1 , dB 2 ? C1 .0

将三个点看成三个二维样品,试用此例说明中间距离法 和重心法不具有单调性.
解:按中间距离法,取β =-1/4,将B和C合并为 一类后,并类距离D1=1,而A与新类Gr={B,C}的 类间平方距离为
DA2r ?12(DA2B?DA2C)?14DB2C ?0.5?(1.1?1.1)?0.25?1

?1.1?0.25?0.85

22

第六章 聚类分析
当把A与{B,C}并为一类时,并类距离

D 2?0 .8? 5 0 .92 ?1? 2D 1

故中间距离法不具有单调性。

按重心法,将B和C合并为一类后,并类距离

D1=1,而A与新类Gr={B,C}的类间平方距离为

DA2r

? nB nr

DA2B?nnCr

DA2C?nnBr

nC nr

DB2C

?0.5?1.1?0.5?1.1?0.25?1

?1.1?0.25?0.85

23

第六章 聚类分析
当把A与{B,C}并为一类时,并类距离

D 2?0 .8? 5 0 .92 ?1? 2D 1

故重心法法不具有单调性。

A

并类过程如下:

B

C

D(1) ????0 ?

1.1 0

110..01????C B A?D(2) ????0

0.8 0

5???GAr

?D(3) ??0?

24

第六章 聚类分析

6-7 试推导重心法的距离递推公式(6.3.2);

Dr2k?n nrpDp 2k?n nq r Dq 2k?nn pn r2qDp 2q

? ? 解一: 利用

X(r)

?1 nr

npX(p)?nqX(q)

如果样品间的距离定义为欧氏距离,则有

Dr2k?(X(k) ?X(r))('X(k) ?X(r))

? ? ?????npn?rnq

X(k)

?np nr

X(p)

?nq nr

X(q)????'

?

25

第六章 聚类分析

Dr2k

?

????

np nr

2
??? (X (k) ?

?

X

(

p)

)'(?)

?

????

nq nr

2
??? (X (k) ?

?

X (q))'(?)

?

npnq nr2

(X

(k)

?

X

( p) )'( X

(k)

?

X

(q) )

?

npnq nr2

(X

(k)

?

X

(q) )'( X

(k)

?

X

( p) )

?

n2p nr2

Dp2k

?

nq2 nr2

Dq2k

?

npnq nr2

(X (k)

?

X (p))'(X (k)

?

X ( p)

?

X (p)

?

X (q))

?

npnq nr2

(X

(k)

?

X

(q) )'( X

(k)

?

X

(q)

?

X

(q)

?

X

( p) )

26

第六章 聚类分析

Dr2k

?

n

2 p

nr2

D

2 pk

?

nq2 nr2

Dq2k

?

n p nq nr2

D

2 pk

?

n p nq nr2

Dq2k

?

n p nq nr2

(X

(k)

?

X ( p) )'(X

( p)

?

X

(q) )

?

n p nq nr2

(X

(k)

?

X

(q) )'(X

( p)

?

X

(q) )

?

np nr

D

2 pk

?

nq nr

Dq2k

?

n p nq nr2

D

2 pq

27

第六章 聚类分析

解二:因样品间的距离定义为欧氏距离,利用

? ? X(r)

?1 nr

npX(p)

?nqX(q)

Dr2k ? ( X (k) ? X (r) )'( X (k) ? X (r) )

?

? ? ?

????

X

(k)

?

1 nr

(np X ( p) ? nq X (q) )??? ?

?

? X (k)? X (k) ? 2 np X (k)? X ( p) ? 2 nq X (k)? X (q)

nr

nr

?

1 nr2

???n

2 p

X

( p)? X

( p)

?

2npnq X

( p)? X

(q)

?

nq2 X

(q)? X

(q) ? ??

28

第六章 聚类分析

利用 X(k)?X(k) ?n1r ???npX(k)?X(k) ?nqX(k)?X(k)???

nq2 nr2

?n1r2(nqnr

?nqnp);nnr2p2

?n1r2(npnr

?npnq);

Dr2k

?

np nr

(X (k)? X (k)

?2X(k)?X( p)

?

X( p)?X( p) )

? nq (X(k)?X(k) ?2X(k)?X(q) ? X(q)?X(q)) nr

?

npnq nr2

(X( p)?X( p)

?2X( p)?X(q)

?

X(q)?X(q) )

29

第六章 聚类分析

故有

D

2 rk

?

np nr

(X

(k )

?

X

( p) )?( X

(k )

?

X

(p))

? nq ( X (k) ? X (q) )?( X (k) ? X (q) )

nr

?

n pnq

n

2 r

(X

( p)

?

X

(q) )?( X

( p)

?

X

(q) )

?

np nr

D

2 pk

?

nq nr

D

2 qk

?

n pnq

n

2 r

D

2 pq

30

第六章 聚类分析

6-8 试推导Ward法的距离递推公式(6.3.3);

解:Ward法把两类合并后增加的离差平方和看成

类间的平方距离,即把类Gp和Gq的平方距离定义
Dp 2q?W r?(Wp?W q).利用Wr的定义:

nr

? Wr ?

(

X

(r) (t )

?

X

(r

)

)?(

X

(r) (t )

?

X

(r)

)

t ?1

np

? ?

(

X

(p (t )

)

?

X

(

r

)

)?(

X

(p (t )

)

?

X

(r) )

t ?1

nq

? ?

(

X

(q) (t )

?

X

(r

)

)?(

X

(q) (t )

?

X

(r) )

t ?1

31

第六章 聚类分析

np

? Wr ? (X((tp)) ?X(p) ?X(p) ?X(r))?(?)

t?1 nq

? ? (X((tq)) ?X(q) ?X(q) ?X(r))?(?)

t?1

np

np

? ? ? (X((tp ))?X(p))?(? )? (X(p)?X(r))?(? )?0?0

t?1

t?1

nq

nq

? ? ? (X((tq))?X(q))?(? )? (X(q)?X(r))?(? )?0?0

t?1

t?1

? ? 把 X(r)

?n1r npX(p)?nqX(q)

代:入 X(p) ? X(r)
X(q) ? X(r)

? ?

nq nr np

(X ( p) (X(q)

? X(q)) ? X(p))

nr

32

第六章 聚类分析

? Wr

?Wp

?Wq

?????nnqr

???2 ?

np t?1

(X(p)

?X(q))?(?)

? ?????nnrp

2
? ?? ?

nq t?1

(X(q)

?X(p))?(?)

?Wp

?Wq

?????

nq nr

????2np(X(p)

? X(q) )?(X( p)

? X(q) )

?????

np nr

2
??? nq(X(p) ?

? X(q) )?(X( p)

?

X(q) )

?Wp

?Wq

?

npnq nr

(X( p)

? X(q) )?(X( p)

? X(q) )

33

第六章 聚类分析

Dp 2q?W r?(Wp?W q)?nn pp?nn qq(X(p)?X(q))?(X(p)?X(q))

?nn pn rqDp 2q (重 ) (当样品间的距离定义为欧氏距离时)
记Gr={Gp,Gq},则新类Gr与其它类Gk的平方距离为

Dr2k

? nrnk nr ?nk

(X(r)

?X(k))?(X(r)

?X(k)

? nrnk nr ?nk

Dr2k(重)

利用重心法的递推公式(6-7题已证明)可得:

34

第六章 聚类分析

D r2k?nn rr? nn kk???n nrpD p 2(k重 )?n nrqD q 2(k重 )?nn pn r2qD p 2(q重 )??? ?nn rr? nn kk???n nrp(X(p)?X(k))?(? )?n nrq(X(q)?X(k))?(? )?nn pn r2q(X(p)?X(q))?(? )???

? nknp (X(p) ?X(k))?(?)? nknq (X(q) ?X(k))?(?)

nr ?nk

nr ?nk

? nk npnq (X(p) ?X(k))?(?) nr ?nk nr

?np ?nk nr ?nk

Dp2k

?

nq nr

?nk ?nk

Dq2k

? nr

nk ?nk

Dp2q

35

第六章 聚类分析

6-9 设有5个样品,对每个样品考察一个指标得数据为1,

2,5,7,10.试用离差平方和法求5个样品分为k类(k=5,4,3,

2,1)的分类法bk及相应的总离差平方和W(k). 解:①计算样品间的欧氏平方距离阵

?0

? ?0

?

D(1)?D(1)?1 2??????1 3 816 6 16 29 04 520 459 0

???????08 .5

0 4.5

0

0??? ???41.0 5813.2 5212.2 5

0 4.5

? ? ? 0???

② 合并 {1,2} = CL4,并类距离D1=(0.5)1/2 =0.707 ,并 利用递推公式计算新类与其它类的平方距离得

?0 D(2) ??????12428919662

0 2 12.5

0 4.5

0??????C175L04

36

第六章 聚类分析
③合并 {5,7} = CL3,并类距离D2=(2)1/2 =1.414 ,并利 用递推公式计算新类与其它类的平方距离得

D(3) ????8014 ?323

0 2892

0????C C1L0L43

④ 合并 {CL3,10}={5,7,10} = CL2,并类距离 D3=(32/3)1/2 =3.266 ,并利用递推公式计算新类与其 它类的平方距离得

D(4) ????20465 0???C CL L 42

37

第六章 聚类分析

⑤ 合并 {CL4,CL2}={1,2,5,7,10} = CL1,并类距离D4 =(245/6)1/2 = 6.39 ,并利用递推公式计算新类与其它类
? ? 的平方距离得 D(5) ?0C1L

⑥分类法bk及相应的总离差平方和W(k):

k=5 {1},{2},{5},{7},{10} W(5)=0

k =4 {1,2}, {5},{7},{10} W(4)=0.5

k =3 {1,2}, {5,7},{10} W(3)=2.5

k =2 {1,2}, {5,7,10}

W(2)=13.666

k =1 {1,2,5,7,10}

W(1)=54

38

谢谢!



热文推荐
友情链接: 幼儿教育 小学教案 初中教案 高中教案 职业教育 成人教育