數(shù)模競賽里廣泛應(yīng)用的算法--聚類分析

社區(qū)小助手 2023-07-28 11:08:20

一、聚類分析概述

1、聚類(Clustering)：

聚類是一個(gè)將數(shù)據(jù)集劃分為若干（class）或類（cluster）的過程，并使得同一個(gè)組內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度；而不同組中的數(shù)據(jù)對(duì)象是不相似的。

相似或不相似是基于數(shù)據(jù)描述屬性的取值來確定的，通常利用各數(shù)據(jù)對(duì)象間的距離來進(jìn)行表示。聚類分析尤其適合用來探討樣本間的相互關(guān)聯(lián)關(guān)系從而對(duì)一個(gè)樣本結(jié)構(gòu)做一個(gè)初步的評(píng)價(jià)。

2、聚類與分類的區(qū)別

聚類是一種無（教師）監(jiān)督的學(xué)習(xí)方法。與分類不同，其不依賴于事先確定的數(shù)據(jù)類別，以及標(biāo)有數(shù)據(jù)類別的學(xué)習(xí)訓(xùn)練樣本集合。因此，聚類是觀察式學(xué)習(xí)，而不是示例式學(xué)習(xí)。

3、什么是好的聚類

一個(gè)好的聚類方法將產(chǎn)生以下的高聚類：

最大化類內(nèi)的相似性
最小化類間的相似性

聚類結(jié)果的質(zhì)量依靠所使用度量的相似性和它的執(zhí)行。聚類方法的質(zhì)量也可以用它發(fā)現(xiàn)一些或所有隱含模式的能力來度量。

聚類分析有兩種:

一種是對(duì)樣品的分類，稱為Q型，

一種是對(duì)變量(指標(biāo))的分類，稱為R型。

R型聚類分析的主要作用：

(1) 不但可以了解個(gè)別變量之間的親疏程度，而且可以了解各個(gè)變量組合之間的親疏程度。

(2) 根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系，可以選擇主要變量進(jìn)行Q型聚類分析或回歸分析。(R2為選擇標(biāo)準(zhǔn))

Q型聚類分析的主要作用:

(1) 可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分析

(2) 分類結(jié)果直觀，聚類譜系圖清楚地表現(xiàn)數(shù)值分類結(jié)果

(3) 聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。

二、樣品間的相似度量--距離

1、常用距離的定義

2、相似系數(shù)

3、類間距離

三、譜系聚類算法

1、譜系聚類算法的步驟：

（1）選擇樣本間距離的定義及類間距離的定義

（2）計(jì)算n個(gè)樣本之間的距離，得到距離矩陣

（3）構(gòu)造個(gè)類，每類只含有一個(gè)樣本

（4）合并符合類間距離要求的兩類為一個(gè)新類

（5）計(jì)算新類與當(dāng)前各類的距離。若類的個(gè)數(shù)為1，則轉(zhuǎn)到步驟6，否則回到步驟4

（6）畫出聚類圖

（7）決定類的個(gè)數(shù)和類

四、K-平均聚類算法

1、K-平均聚類算法步驟：

（1）從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心

（2）循環(huán) (3)到 (4)直到每個(gè)聚類不再發(fā)生變化為止

（3）根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象 )，計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離，并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分:

（4）重新計(jì)算每個(gè)(有變化)聚類的均值(中心對(duì)象)

2、算法的基本思想：

（1）首先，隨機(jī)的選擇k個(gè)對(duì)象，每個(gè)對(duì)象初始的代表了一個(gè)簇的平均值；

（2）對(duì)剩余的每個(gè)對(duì)象，根據(jù)其與各個(gè)簇中心的距離，將它賦給最近的簇；

（3）然后重新計(jì)算每個(gè)簇的平均值。

（4）這個(gè)過程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂。

3、算法的特點(diǎn)：

只適用于聚類均值有意義的場合，在某些應(yīng)用中，如:數(shù)據(jù)集中包含符號(hào)屬性時(shí)，直接應(yīng)用k-means算法就有問題。

用戶必須事先指定k的個(gè)數(shù)。對(duì)噪聲和孤立點(diǎn)數(shù)據(jù)敏感，少量的該類數(shù)據(jù)能夠?qū)垲惥灯鸬胶艽蟮挠绊憽?/p>

本文轉(zhuǎn)自公眾號(hào)“數(shù)學(xué)建模老哥”

1926 0 0 收藏回復(fù)

數(shù)模競賽里廣泛應(yīng)用的算法--聚類分析

一、聚類分析概述

二、樣品間的相似度量--距離

三、譜系聚類算法

四、K-平均聚類算法

回復(fù)

回復(fù)

推薦話題

熱門標(biāo)簽

社區(qū)牛人

產(chǎn)品介紹

生態(tài)合作

服務(wù)支持

關(guān)于我們

數(shù)模競賽里廣泛應(yīng)用的算法--聚類分析

一、聚類分析概述

二、樣品間的相似度量--距離

三、譜系聚類算法

四、K-平均聚類算法

回復(fù)

回復(fù)

推薦話題

熱門標(biāo)簽

社區(qū)牛人

產(chǎn)品介紹

生態(tài)合作

服務(wù)支持

關(guān)于我們

一、聚類分析概述

二、樣品間的相似度量--距離

三、譜系聚類算法

四、K-平均聚類算法