1.墓于粗糙集( Rough Set)理論的約簡方法
粗糙集理論是一種研究不精確、不確定性知識的數(shù)學(xué)工具。目前受到了KDD的廣泛重視,利用粗糙集理論對數(shù)據(jù)進行處理是一種十分有效的精簡數(shù)據(jù)維數(shù)的方法。我們所處理的數(shù)據(jù)一般存在信息的含糊性(Vagueness)問題。含糊性有三種:術(shù)語的模糊性,如高矮;數(shù)據(jù)的不確定性,如噪聲引起的;知識自身的不確定性,如規(guī)則的前后件間的依賴關(guān)系并不是完全可靠的。在KDD中,對不確定數(shù)據(jù)和噪聲干擾的處理是粗糙集方法的
2.基于概念樹的數(shù)據(jù)濃縮方法
在數(shù)據(jù)庫中,許多屬性都是可以進行數(shù)據(jù)歸類,各屬性值和概念依據(jù)抽象程度不同可以構(gòu)成一個層次結(jié)構(gòu),概念的這種層次結(jié)構(gòu)通常稱為概念樹。概念樹一般由領(lǐng)域?qū)<姨峁?,它將各個層次的概念按一般到特殊的順序排列。
3.信息論思想和普化知識發(fā)現(xiàn)
特征知識和分類知識是普化知識的兩種主要形式,其算法基本上可以分為兩類:數(shù)據(jù)立方方法和面向?qū)傩詺w納方法。
普通的基于面向?qū)傩詺w納方法在歸納屬性的選擇上有一定的盲目性,在歸納過程中,當(dāng)供選擇的可歸納屬性有多個時,通常是隨機選取一個進行歸納。事實上,不同的屬性歸納次序獲得的結(jié)果知識可能是不同的,根據(jù)信息論最大墑的概念,應(yīng)該選用一個信息丟失最小的歸納次序。
4.基于統(tǒng)計分析的屬性選取方法
我們可以采用統(tǒng)計分析中的一些算法來進行特征屬性的選取,比如主成分分析、逐步回歸分析、公共因素模型分析等。這些方法的共同特征是,用少量的特征元組去描述高維的原始知識基。
5.遺傳算法〔GA, Genetic Algo}thrn})
遺傳算法是一種基于生物進化論和分子遺傳學(xué)的全局隨機搜索算法。遺傳算法的基本思想是:將問題的可能解按某種形式進行編碼,形成染色體。隨機選取N個染色體構(gòu)成初始種群。再根據(jù)預(yù)定的評價函數(shù)對每個染色體計算適應(yīng)值。選擇適應(yīng)值高的染色體進行復(fù)制,通過遺傳運算(選擇、交叉、變異)來產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體,形成新的種群。這樣一代一代不斷繁殖進化,最后收斂到一個最適合環(huán)境的個體上,從而求得問題的最優(yōu)解。遺傳算法應(yīng)用的關(guān)鍵是適應(yīng)度函數(shù)的建立和染色體的描述。在實際應(yīng)用中,通常將它和神經(jīng)網(wǎng)絡(luò)方法綜合使用。通過遺傳算法來搜尋出更重要的變量組合。
數(shù)據(jù)預(yù)處理(datapreprocessing)是指在主要的處理以前對數(shù)據(jù)進行的一些處理。如對大部分地球物理面積性觀測數(shù)據(jù)在進行轉(zhuǎn)換或增強處理之前,首先將不規(guī)則分布的測網(wǎng)經(jīng)過插值轉(zhuǎn)換為規(guī)則網(wǎng)的處理,以利于計算機的運算。另外,對于一些剖面測量數(shù)據(jù),如地震資料預(yù)處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數(shù)據(jù)預(yù)處理的方法:
1、數(shù)據(jù)清理
數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)。主要是達到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯誤糾正,重復(fù)數(shù)據(jù)的清除。
2、數(shù)據(jù)集成
數(shù)據(jù)集成例程將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并 統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。
3、數(shù)據(jù)變換
通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
4、數(shù)據(jù)歸約
數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。
1)數(shù)據(jù)清理
數(shù)據(jù)清理例程就是通過填寫缺失值、光滑噪聲數(shù)據(jù)、識別或者刪除離群點,并且解決不一致性來進行“清理數(shù)據(jù)”。
2)數(shù)據(jù)集成
數(shù)據(jù)集成過程將來自多個數(shù)據(jù)源的數(shù)據(jù)集成到一起。
3)數(shù)據(jù)規(guī)約
數(shù)據(jù)規(guī)約是為了得到數(shù)據(jù)集的簡化表示。數(shù)據(jù)規(guī)約包括維規(guī)約和數(shù)值規(guī)約。
4)數(shù)據(jù)變換
通過變換使用規(guī)范化、數(shù)據(jù)離散化和概念分層等方法,使得數(shù)據(jù)的挖掘可以在多個抽象層面上進行。數(shù)據(jù)變換操作是提升數(shù)據(jù)挖掘效果的附加預(yù)處理過程。
數(shù)據(jù)預(yù)處理(datapreprocessing)是指在主要的處理以前對數(shù)據(jù)進行的一些處理。
如對大部分地球物理面積性觀測數(shù)據(jù)在進行轉(zhuǎn)換或增強處理之前,首先將不規(guī)則分布的測網(wǎng)經(jīng)過插值轉(zhuǎn)換為規(guī)則網(wǎng)的處理,以利于計算機的運算。另外,對于一些剖面測量數(shù)據(jù),如地震資料預(yù)處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
數(shù)據(jù)預(yù)處理的方法:1、數(shù)據(jù)清理數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點并解決不一致性來“清理”數(shù)據(jù)。主要是達到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯誤糾正,重復(fù)數(shù)據(jù)的清除。
2、數(shù)據(jù)集成數(shù)據(jù)集成例程將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并 統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。3、數(shù)據(jù)變換通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
4、數(shù)據(jù)歸約數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。
一、數(shù)據(jù)挖掘工具分類數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用挖掘工具和通用挖掘工具。
專用數(shù)據(jù)挖掘工具是針對某個特定領(lǐng)域的問題提供解決方案,在涉及算法的時候充分考慮了數(shù)據(jù)、需求的特殊性,并作了優(yōu)化。對任何領(lǐng)域,都可以開發(fā)特定的數(shù)據(jù)挖掘工具。
例如,IBM公司的AdvancedScout系統(tǒng)針對NBA的數(shù)據(jù),幫助教練優(yōu)化戰(zhàn)術(shù)組合。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對性比較強,只能用于一種應(yīng)用;也正因為針對性強,往往采用特殊的算法,可以處理特殊的數(shù)據(jù),實現(xiàn)特殊的目的,發(fā)現(xiàn)的知識可靠度也比較高。
通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。
例如,IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大SimonFraser大學(xué)開發(fā)的DBMiner系統(tǒng)。通用的數(shù)據(jù)挖掘工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。
二、數(shù)據(jù)挖掘工具選擇需要考慮的問題數(shù)據(jù)挖掘是一個過程,只有將數(shù)據(jù)挖掘工具提供的技術(shù)和實施經(jīng)驗與企業(yè)的業(yè)務(wù)邏輯和需求緊密結(jié)合,并在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇數(shù)據(jù)挖掘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:(1)可產(chǎn)生的模式種類的數(shù)量:分類,聚類,關(guān)聯(lián)等(2)解決復(fù)雜問題的能力(3)操作性能(4)數(shù)據(jù)存取能力(5)和其他產(chǎn)品的接口三、數(shù)據(jù)挖掘工具介紹:1.QUESTQUEST是IBM公司Almaden研究中心開發(fā)的一個多任務(wù)數(shù)據(jù)挖掘系統(tǒng),目的是為新一代決策支持系統(tǒng)的應(yīng)用開發(fā)提供高效的數(shù)據(jù)開采基本構(gòu)件。系統(tǒng)具有如下特點:提供了專門在大型數(shù)據(jù)庫上進行各種開采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。
各種開采算法具有近似線性計算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫。算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。
為各種發(fā)現(xiàn)功能設(shè)計了相應(yīng)的并行算法。2.MineSetMineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。
MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地、實時地發(fā)掘、理解大量數(shù)據(jù)背后的知識。MineSet有如下特點:MineSet以先進的可視化顯示方法聞名于世。
支持多種關(guān)系數(shù)據(jù)庫。可以直接從Oracle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過SQL命令執(zhí)行查詢。
多種數(shù)據(jù)轉(zhuǎn)換功能。在進行挖掘前,MineSet可以去除不必要的數(shù)據(jù)項,統(tǒng)計、集合、分組數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)類型,構(gòu)造表達式由已有數(shù)據(jù)項生成新的數(shù)據(jù)項,對數(shù)據(jù)采樣等。
操作簡單、支持國際字符、可以直接發(fā)布到Web。3.DBMinerDBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個多任務(wù)數(shù)據(jù)挖掘系統(tǒng),它的前身是DBLearn。
該系統(tǒng)設(shè)計的目的是把關(guān)系數(shù)據(jù)庫和數(shù)據(jù)開采集成在一起,以面向?qū)傩缘亩嗉壐拍顬榛A(chǔ)發(fā)現(xiàn)各種知識。DBMiner系統(tǒng)具有如下特色:能完成多種知識的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化知識、偏離知識等。
綜合了多種數(shù)據(jù)開采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計分析、逐級深化發(fā)現(xiàn)多級規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法。提出了一種交互式的類SQL語言——數(shù)據(jù)開采查詢語言DMQL。
能與關(guān)系數(shù)據(jù)庫平滑集成。實現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。
4.IntelligentMiner由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件IntelligentMiner是一種分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的軟件系列,它包括和。可以挖掘包含在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘。
它已經(jīng)成功應(yīng)用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、LotusNotes數(shù)據(jù)庫等等。5.SASEnterpriseMiner這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門在春運客運研究中的應(yīng)用。
SASEnterpriseMiner是一種通用的數(shù)據(jù)挖掘工具,按照"抽樣--探索--轉(zhuǎn)換--建模--評估"的方法進行數(shù)據(jù)挖掘。可以與SAS數(shù)據(jù)倉庫和OLAP集成,實現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的"端到端"知識發(fā)現(xiàn)。
6.是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART創(chuàng)新獎,它不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術(shù)性工作(比如編寫代碼)。
提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決法。7.數(shù)據(jù)庫廠商集成的挖掘工具SQLServer2000包含由Microsoft研究院開發(fā)的兩種數(shù)據(jù)挖掘算法:。
在數(shù)據(jù)分析之前,我們通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化(normalization),利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。
數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。
數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進行比較和加權(quán)。
數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種,常用的有“最小—最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,可以進行綜合測評分析。
一、Min-max 標(biāo)準(zhǔn)化
min-max標(biāo)準(zhǔn)化方法是對原始數(shù)據(jù)進行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:
新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)
二、z-score 標(biāo)準(zhǔn)化
這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。
z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
用Excel進行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計算,其實標(biāo)準(zhǔn)化的公式很簡單。
步驟如下:
1.求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;
2.進行標(biāo)準(zhǔn)化處理:
zij=(xij-xi)/si
其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實際變量值。
3.將逆指標(biāo)前的正負(fù)號對調(diào)。
標(biāo)準(zhǔn)化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化
這種方法通過移動數(shù)據(jù)的小數(shù)點位置來進行標(biāo)準(zhǔn)化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標(biāo)準(zhǔn)化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數(shù)。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。
注意,標(biāo)準(zhǔn)化會對原始數(shù)據(jù)做出改變,因此需要保存所使用的標(biāo)準(zhǔn)化方法的參數(shù),以便對后續(xù)的數(shù)據(jù)進行統(tǒng)一的標(biāo)準(zhǔn)化。
除了上面提到的數(shù)據(jù)標(biāo)準(zhǔn)化外還有對數(shù)Logistic模式、模糊量化模式等等:
對數(shù)Logistic模式:新數(shù)據(jù)=1/(1+e^(-原數(shù)據(jù)))
模糊量化模式:新數(shù)據(jù)=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2) ] X為原數(shù)據(jù)
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請在一個月內(nèi)通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時間:2.637秒