免费精品国产自产拍在_中文字幕日韩欧美成_国产一片在线播放_专干老肥熟女视频_国产高潮流白浆喷水_在線觀看歐美一區_成年人看樱花小视频_三级黄色网址免费_亚洲成人毛片在线_国产乱伦一区二区

返回列表
點(diǎn)云數(shù)據(jù)中的離群點(diǎn)

離群點(diǎn)主要表示在特定時(shí)間序列內(nèi),與序列平均值差距較大的極端大、小值,在實(shí)際應(yīng)用中也將其稱作為野值。在研究中發(fā)現(xiàn),離群點(diǎn)的出現(xiàn)與多種因素有關(guān),其中系統(tǒng)外部影響是一種重要的因素,然而與之相關(guān)的系統(tǒng)外部干擾并不是相同的,而是存在不同類型的問(wèn)題。例如有數(shù)據(jù)記錄和計(jì)算的錯(cuò)誤,此外其他偶然因素也會(huì)引起極端大值、極端小值的出現(xiàn)。所以在離群點(diǎn)分析過(guò)程中應(yīng)該綜合考慮到各個(gè)影響因素。

基于之前的分析已經(jīng)明確了離群點(diǎn)產(chǎn)生的原因,其會(huì)對(duì)時(shí)間序列分析產(chǎn)生直接的影響,特別是會(huì)降低模型的擬合精度,因此在實(shí)際應(yīng)用中分析人員并不期望序列中含有離群點(diǎn),從這個(gè)角度來(lái)看很多分析人員為了改善模型的精度,往往會(huì)采取不同的方法將離群點(diǎn)去除。但是從相反的角度來(lái)看,離群點(diǎn)攜帶了有價(jià)值的信息,其能夠?yàn)椴蓸又绣e(cuò)誤分析提供依據(jù),如果是由于外部干擾引起的離群點(diǎn),則能夠提示系統(tǒng)靈敏性等相關(guān)的信息。

隨著對(duì)離群點(diǎn)研究的增多,很多學(xué)者提出了不同的處理方法,目前在應(yīng)用中一般將離群點(diǎn)劃分為四種不同的類型,主要包括加性離群點(diǎn)、樹(shù)水平位移離群點(diǎn)、暫時(shí)變更離群點(diǎn)以及更新離群點(diǎn),各種離群點(diǎn)的特征存在一定的差異性,具體的介紹如下所示:

(1)加性離群點(diǎn):這種類型的干擾僅僅對(duì)干擾出現(xiàn)時(shí)刻T的序列值產(chǎn)生影響,與之后的序列值無(wú)關(guān)。

(2)樹(shù)水平位移離群點(diǎn):引起這種離群點(diǎn)的干擾會(huì)從影響的開(kāi)始時(shí)刻T持續(xù)產(chǎn)生影響,具體表現(xiàn)為T時(shí)刻前后的序列均值出現(xiàn)的水平位移。

(3)暫時(shí)變更離群點(diǎn):干擾在T時(shí)刻出現(xiàn)時(shí)會(huì)體現(xiàn)出一定的初始效應(yīng),在之后時(shí)刻的影響會(huì)呈現(xiàn)指數(shù)衰減。

(4)更新離群點(diǎn):干擾除了影響XT外,會(huì)持續(xù)影響到之后時(shí)刻的值,它的其中系統(tǒng)動(dòng)態(tài)模型是影響其作用方式的主要因素。

綜上所述,離群點(diǎn)與傳統(tǒng)的數(shù)據(jù)對(duì)象不同,可以認(rèn)為是一種特殊的數(shù)據(jù)對(duì)象, 離群點(diǎn)檢驗(yàn)就是通過(guò)多種檢測(cè)方法找出其行為不同于預(yù)期對(duì)象的數(shù)據(jù)點(diǎn)的過(guò)程。根據(jù)正常數(shù)據(jù)和離群點(diǎn)的假定分類,可以分為以下5種方法,具體的分析如下文所示:

(1)基于分布的方法

基于分布的檢測(cè)方法原理比較簡(jiǎn)單,實(shí)施的難度較小,其在構(gòu)建合適的數(shù)據(jù)分布模型后通過(guò)不和諧校驗(yàn)(Discordancy Test)提取與模型分布規(guī)律不相符的數(shù)據(jù),由此可以得到對(duì)應(yīng)的離群點(diǎn)。但是這種方法的準(zhǔn)確性較低,并且在數(shù)據(jù)維度較大時(shí)提取離散點(diǎn)的難度更大。

(2)基于深度的方法

基于深度的檢測(cè)方法需要對(duì)各個(gè)數(shù)據(jù)對(duì)象設(shè)置一個(gè)方初始的深度值,由此建立與多層數(shù)據(jù)空間的對(duì)應(yīng)關(guān)系,然后提取外層的對(duì)象即為離群點(diǎn)。這種方法應(yīng)用到數(shù)據(jù)維度較小的情況時(shí)效果較好,但是對(duì)于多維數(shù)據(jù)的處理效果不佳。

(3)基于聚類的方法

先前人們只是根據(jù)經(jīng)驗(yàn)來(lái)對(duì)事物進(jìn)行分類,但是隨著分類目標(biāo)的復(fù)雜度增加,數(shù)據(jù)量的增大,分類的要求逐步增大,如果只依賴于傳統(tǒng)的分類方法難以獲得較好的分類效果。很多學(xué)者進(jìn)行了研究并提出了更先進(jìn)的聚類技術(shù),聚類分析的基本思想是根據(jù)樣本間的相似性來(lái)獲取數(shù)據(jù)的潛在規(guī)律,將對(duì)象分組成由相似對(duì)象構(gòu)成的多個(gè)類別??傮w判斷的依據(jù)是數(shù)據(jù)的相似度,如果相似度基本一致時(shí)則劃分為一類,相似度差距較大時(shí)則屬于不同的類。在實(shí)際聚類中則主要是將關(guān)聯(lián)性高的數(shù)據(jù)樣本歸為同一類,關(guān)聯(lián)性低的樣本歸為不同的類。因此結(jié)合聚類的原理可以進(jìn)行檢測(cè),由此能夠有效地獲得簇和離群點(diǎn)。

基于聚類技術(shù)來(lái)發(fā)現(xiàn)離群點(diǎn)可能是高度有效的。常用的模型有K-means等,基于聚類的離群點(diǎn)檢測(cè)思路如下:首先用聚類算法做聚類;然后對(duì)各個(gè)點(diǎn)與聚類中心的距離以及平均距離L進(jìn)行計(jì)算;第三步用戶設(shè)定一個(gè)spec參數(shù);最后對(duì)類中心與各個(gè)點(diǎn)的距離s進(jìn)行計(jì)算,由此可以判斷出是否為離群點(diǎn)。這種方法存在一定的不足,即如果大、小聚集簇的距離非常小時(shí),難以準(zhǔn)確地識(shí)別離群點(diǎn)。此方法的示意圖如圖2所示。

1.jpg

2基于聚類的方法

(4)基于距離的方法

基于距離的檢測(cè)方法需要先設(shè)置一個(gè)固定的距離參數(shù)L,以此分析各個(gè)點(diǎn)與設(shè)置點(diǎn)的距離的關(guān)系,當(dāng)這個(gè)距離高于L時(shí),則對(duì)應(yīng)的點(diǎn)即為離群點(diǎn)。常用的模型為KNN(k近鄰),KNN算法的原理比較容易理解,用戶可以直接從訓(xùn)練樣本內(nèi)獲得K個(gè)最接近的樣本,并對(duì)各個(gè)樣本所屬的類型進(jìn)行劃分,最后將樣本最多的類別進(jìn)行匯總,即可對(duì)待判定的樣本類型進(jìn)行確定。K最近鄰分類算法的使用需要滿足一定的條件。此算法的優(yōu)勢(shì)在于分類結(jié)果的準(zhǔn)確性高等,然而這種準(zhǔn)確性依賴于高質(zhì)量的樣本相似度計(jì)算結(jié)果,所以比較依賴于相似度的計(jì)算過(guò)程,不適合將其應(yīng)用到大規(guī)模數(shù)據(jù)集的分類中。經(jīng)過(guò)分析,當(dāng)樣本的數(shù)目比較大時(shí)使用這種方法往往能夠獲得更好地效果。根據(jù)這個(gè)原理,如果某樣本的k個(gè)相似度最高的大部分樣本都屬于相同的類別,則該樣本也屬于這個(gè)類別,其中K通常是不大于20的整數(shù)。通常用來(lái)度量最相似程度的距離有歐式距離和曼哈頓距離。如果數(shù)據(jù)集的規(guī)模較大,并且分布不均衡,則會(huì)降低算法的性能,此方法的具體流程如下所示。

2.jpg

3 基于距離的方法

(5)基于密度的方法

基于密度的檢測(cè)方法在檢測(cè)局部離群點(diǎn)時(shí)的應(yīng)用效果較好,根據(jù)定點(diǎn)間的距離與點(diǎn)的數(shù)目進(jìn)行分析,由此可以分析目標(biāo)點(diǎn)與其他點(diǎn)的離群程度。在應(yīng)用過(guò)程中需要先定義一個(gè)密度值,如果判斷是離群點(diǎn),則其密度值與周邊正常點(diǎn)的密度相差很大。常用的模型有LOF,其原理如下所示:首先針對(duì)數(shù)據(jù)集內(nèi)的各個(gè)點(diǎn)計(jì)算局部離群因子LOF,如果計(jì)算的LOF與1之間的差值較大,則說(shuō)明屬于離群點(diǎn);如果與1之間的差值較小,則不屬于離群點(diǎn)。這種方法在應(yīng)用中存在一定的不足之處,主要體現(xiàn)在選擇密度參數(shù)時(shí)的難度較大。

3.jpg

4基于密度的方法

通過(guò)上文對(duì)這5類離群點(diǎn)過(guò)濾方法的分析,我們可以得出每種過(guò)濾方法的優(yōu)缺點(diǎn),如下表1所示。

1 離群點(diǎn)過(guò)濾方法對(duì)比

離群點(diǎn)過(guò)濾方法

優(yōu)點(diǎn)

缺點(diǎn)

基于分布的方法

操作簡(jiǎn)單

準(zhǔn)確性低

基于深度的方法

二維數(shù)據(jù)過(guò)濾效果好

不適用于三維數(shù)據(jù)的過(guò)濾

基于聚類的方法

過(guò)濾效果好

需要對(duì)點(diǎn)云簇進(jìn)行分類,操作繁瑣

基于距離的方法

準(zhǔn)確性高

對(duì)離表面較近的離群點(diǎn)效果較差

基于密度的方法

過(guò)濾速度快,操作簡(jiǎn)單

需要合適的密度參數(shù)

 


網(wǎng)站編輯:小優(yōu)智能科技有限公司 發(fā)布時(shí)間:Oct 27,2022
給我們留言
驗(yàn)證碼