數(shù)據(jù)挖掘是近年來伴隨著人工智能和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)。本書討論數(shù)據(jù)挖掘理論與應(yīng)用專題,包括數(shù)據(jù)挖掘和數(shù)據(jù)倉庫簡介、數(shù)據(jù)挖掘方法論、數(shù)據(jù)挖掘核心技術(shù)、聯(lián)機分析處理、DM與CRM工具軟件、21世紀的數(shù)據(jù)挖掘等內(nèi)容。 本書可供信息技術(shù)、信息工程、信息管理、統(tǒng)計、電子商務(wù)、生物信息和計算分子生物學(xué)等相關(guān)科系及研究所學(xué)生作為教科書或參考書籍使用,也可作為統(tǒng)計信息軟件公司、電子商務(wù)網(wǎng)絡(luò)公司、設(shè)計/制造業(yè)、服務(wù)業(yè)(大型百貨公司及超市)等相關(guān)行業(yè)的研發(fā)人員及客服中心人員的參考教材。 本書繁體字版書名為《資料采掘與OLAP理論與實務(wù)》,由文魁資訊股份有限公司出版,版權(quán)屬林杰斌、劉明德和陳湘所有。本書簡體字中文版由文魁資訊股份有限公司授權(quán)清華大學(xué)出版社獨家出版。未經(jīng)本書原版出版者和本書出版者書面許可,任何單位和個人均不得以任何形式或任何手段復(fù)制或傳播本書的部分或全部內(nèi)容。
第1章 數(shù)據(jù)挖掘簡介 1
1.1 什么是數(shù)據(jù)挖掘 1
1.2 新世紀的統(tǒng)計科學(xué) 1
1.3 數(shù)據(jù)挖掘是掌握商機的命脈 2
1.4 點式行銷 2
1.5 門戶網(wǎng)站的信息挖掘法 3
1.6 尿布與啤酒 3
1.7 千禧年新問題:不缺信息缺知識 4
1.8 為客戶量身定做 4
1.9 數(shù)據(jù)挖掘的數(shù)字物理學(xué) 5
第2章 數(shù)據(jù)倉庫簡介 7
2.1 配備數(shù)據(jù)倉庫的產(chǎn)業(yè)優(yōu)勢 7
2.2 數(shù)據(jù)倉庫系統(tǒng) 9
2.3 數(shù)據(jù)倉庫的應(yīng)用 10
2.4 數(shù)據(jù)倉庫的定義 10
2.5 數(shù)據(jù)倉庫的類型 11
2.6 數(shù)據(jù)篩選、過濾和轉(zhuǎn)換工具簡介 11
2.6.1 ECT處理過程 12
2.6.2 數(shù)據(jù)篩選、過濾和轉(zhuǎn)換 的工具類型 12
2.6.3 3種工具類型的實例分析 13
2.7 傳統(tǒng)數(shù)據(jù)庫與數(shù)據(jù)倉庫的比較 15
2.8 多維數(shù)據(jù)倉庫中度量的建模 16
2.9 數(shù)據(jù)倉庫的決策支持工具 17
2.9.1 前言 17
2.9.2 數(shù)據(jù)倉庫與決策支持系統(tǒng) 18
2.9.3 決策支持工具分析比較 19
2.10 數(shù)據(jù)倉庫的多維數(shù)據(jù)模型 22
2.11 數(shù)據(jù)倉庫的執(zhí)行策略 24
2.11.1 數(shù)據(jù)市集 24
2.11.2 元數(shù)據(jù) 24
2.11.3 數(shù)據(jù)倉庫的執(zhí)行策略 25
2.11.4 數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu) 30
2.11.5 結(jié)束語 31
2.12 企業(yè)財務(wù)管理輔助決策 31
2.12.1 引言 31
2.12.2 系統(tǒng)設(shè)計 31
2.12.3 系統(tǒng)執(zhí)行 34
2.13 數(shù)據(jù)倉庫環(huán)境下面向知識 的智能型查詢 34
2.13.1 引言 34
2.13.2 KBIQ方法簡介 35
2.13.3 類自然語言NQL 36
2.13.4 領(lǐng)域模糊知識庫及 KBDL語言 37
2.13.5 KBIQ的特點及其 執(zhí)行方式 39
2.14 數(shù)據(jù)倉庫技術(shù)研究和應(yīng)用 40
2.14.1 數(shù)據(jù)倉庫概述 40
2.14.2 數(shù)據(jù)倉庫中的聯(lián)機 分析處理 41
2.14.3 數(shù)據(jù)挖掘 42
2.14.4 電力系統(tǒng)數(shù)據(jù)倉庫 建議方案 42
2.15 數(shù)據(jù)倉庫結(jié)構(gòu)說明 44
2.16 專業(yè)顧問對于企業(yè)創(chuàng)建數(shù)據(jù) 倉庫的重要性 45
2.17 面向數(shù)據(jù)倉庫的GISOLAP 及其應(yīng)用 46
2.17.1 引言 46
2.17.2 數(shù)據(jù)倉庫的OLAP技術(shù) 46
2.17.3 GIS與GIS的組件化 47
2.17.4 GISOLAP 48
2.17.5 GISOLAP在PSGIS 中的應(yīng)用 49
2.17.6 結(jié)論和意義 50
2.18 OLAP系統(tǒng)對面向查詢結(jié)構(gòu)的 用戶瀏覽 51
2.18.1 引言 51
2.18.2 多維數(shù)據(jù)模型 51
2.18.3 OLAP系統(tǒng)用戶 查詢的結(jié)構(gòu) 53
2.18.4 OLAP系統(tǒng)用戶瀏覽 53
2.18.5 結(jié)束語 56
2.19 數(shù)據(jù)倉庫的未來 56
第3章 數(shù)據(jù)挖掘方法論 58
3.1 數(shù)據(jù)挖掘的基本方法及其與 專家系統(tǒng)的差異 58
3.1.1 數(shù)據(jù)挖掘的任務(wù) 58
3.1.2 數(shù)據(jù)挖掘方法 59
3.1.3 關(guān)聯(lián)規(guī)則挖掘舉例 60
3.1.4 分類規(guī)則挖掘舉例 62
3.1.5 數(shù)據(jù)挖掘與專家系統(tǒng) 的區(qū)別 64
3.2 知識發(fā)現(xiàn) 65
3.2.1 數(shù)據(jù)庫知識發(fā)現(xiàn)系統(tǒng)及領(lǐng)域 知識在其中的功能 65
3.2.2 KDD中規(guī)劃提取的收斂網(wǎng)絡(luò) 方法及其應(yīng)用 68
3.2.3 農(nóng)業(yè)專家系統(tǒng)中知識發(fā)現(xiàn)的 遺傳算法 72
3.3 關(guān)聯(lián)規(guī)則 75
3.3.1 興趣度——關(guān)聯(lián)規(guī)則的又 一個門限值 76
3.3.2 數(shù)據(jù)庫中加權(quán)關(guān)聯(lián) 規(guī)則的發(fā)現(xiàn) 84
3.3.3 挖掘所關(guān)注規(guī)則的 多策略方法 91
3.4 粗糙集 96
3.4.1 通過粗糙集理論的 知識發(fā)現(xiàn) 96
3.4.2 一種面向粗糙集的屬性化簡 及其規(guī)則篩選方法 97
3.4.3 一種面向粗糙集的數(shù)據(jù) 過濾方法 103
3.4.4 一種面向粗糙集的默認規(guī)則 挖掘算法 107
3.4.5 RSL:面向粗糙集的 表示語言 111
3.4.6 面向粗糙集的 “數(shù)據(jù)濃縮” 118
3.4.7 粗糙集算子的決策規(guī)則及 數(shù)據(jù)挖掘中的軟計算 124
3.5 運用數(shù)據(jù)挖掘方法來構(gòu)造客戶 的輪廓 129
第4章 數(shù)據(jù)挖掘核心技術(shù) 137
4.1 群集分析 137
4.1.1 PCCS部分群集分類: 一種快速的Web文件 群集方法 137
4.1.2 IR領(lǐng)域的文件群集研究 138
4.1.3 PCCS部分群集分類法 138
4.1.4 算法性能 144
4.1.5 結(jié)論 144
4.2 遺傳算法 145
4.2.1 遺傳程序設(shè)計方法綜述 145
4.2.2 理論、技術(shù)和應(yīng)用 145
4.2.3 結(jié)束語 154
第5章 聯(lián)機信息分析處理 156
5.1 數(shù)據(jù)倉庫前端用戶接口的概念 說明OLAP/Data Mining 156
5.1.1 聯(lián)機分析處理 156
5.1.2 數(shù)據(jù)挖掘 156
5.2 可視化數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 157
5.2.1 引言 157
5.2.2 方案設(shè)計 157
5.2.3 軟件執(zhí)行及應(yīng)用 158
5.2.4 結(jié)束語 160
5.3 時間序列數(shù)據(jù)塊的儲存與 聚集計算 160
5.3.1 時序數(shù)據(jù)挖掘的 意義及難點 160
5.3.2 多維空間位置向量與一維 串行互換 161
5.3.3 數(shù)據(jù)塊的儲存方案 162
5.3.4 聚集計算 163
5.3.5 測試 165
5.4 OLAP研究及其在現(xiàn)代企業(yè)中 的應(yīng)用 166
5.4.1 引言 166
5.4.2 從OLTP到OLAP 166
5.4.3 OLAP在現(xiàn)代企業(yè) 中的應(yīng)用 166
5.4.4 結(jié)束語 170
5.5 一種面向企業(yè)資源規(guī)劃的OLAP 的執(zhí)行方法 170
5.5.1 引言 170
5.5.2 MOLAP ADT的儲存結(jié)構(gòu) 170
5.5.3 MOLAP ADT多維查詢的
執(zhí)行算法 172
5.5.4 結(jié)束語 174
第6章 DM與CRM工具軟件 175
6.1 ERM 175
6.1.1 什么是ERM 175
6.1.2 為什么要引入ERM 175
6.1.3 ERM給予企業(yè)什么回報 175
6.2 哪些企業(yè)需要CRM 176
6.3 企業(yè)綜合與轉(zhuǎn)型:IBM WebSphere 產(chǎn)品系列 177
6.3.1 WebSphere解決方案介紹 178
6.3.2 發(fā)掘信息寶藏:IBM DB2 信息管理產(chǎn)品系列 179
6.3.3 DB2信息管理解決方案 產(chǎn)品介紹 180
6.4 數(shù)據(jù)倉庫與挖掘系統(tǒng)DBMiner 的成功與不足 181
6.4.1 DBMiner的安裝 181
6.4.2 建立數(shù)據(jù)倉庫和 多維數(shù)據(jù)庫 181
6.4.3 數(shù)據(jù)倉庫可視化 瀏覽和查詢 182
6.4.4 挖掘各種類型的知識 182
6.4.5 數(shù)據(jù)挖掘語言 184
6.4.6 DBMiner的成功之處 與特色 184
6.4.7 DBMiner目前版本的不足 184
6.5 多策略通用數(shù)據(jù)挖掘工具 MS Miner 185
6.5.1 引言 185
6.5.2 數(shù)據(jù)倉庫 186
6.5.3 綜合工具 187
6.5.4 元數(shù)據(jù) 190
6.5.5 結(jié)束語 191
6.6 NBA球場決策利器:IBM數(shù)據(jù) 挖掘軟件 191
6.7 企業(yè)建立客服中心及CRM軟件 192
第7章 21世紀的數(shù)據(jù)挖掘 194
7.1 聯(lián)機文本挖掘 194
7.2 電子商務(wù)與網(wǎng)絡(luò)數(shù)據(jù)挖掘 195
7.2.1 引言 195
7.2.2 電子商務(wù)中進行Web數(shù)據(jù) 挖掘的數(shù)據(jù)來源 195
7.2.3 電子商務(wù)中應(yīng)用的數(shù)據(jù) 挖掘技術(shù) 196
7.2.4 在電子商務(wù)活動中的 幾點應(yīng)用 197
7.2.5 結(jié)論 199
7.3 WWW上的信息挖掘技術(shù)及執(zhí)行 199
7.3.1 WWW上的信息挖掘 200
7.3.2 實例系統(tǒng)的設(shè)計與執(zhí)行 202
7.3.3 結(jié)束語 205
7.4 如何精選挖掘文字的技巧 205
7.4.1 挖掘非結(jié)構(gòu)性數(shù)據(jù) 206
7.4.2 群集技術(shù) 206
7.4.3 目錄分類 207
7.4.4 數(shù)據(jù)檢索 207
7.4.5 電子郵件的應(yīng)用 208
7.4.6 文字挖掘的全球使用 209
7.5 網(wǎng)絡(luò)文本挖掘技術(shù) 209
7.5.1 引言 209
7.5.2 Web挖掘與Web信息 檢索 210
7.5.3 Web挖掘的任務(wù) 211
7.5.4 Web文本挖掘方法 214
7.5.5 Web文本挖掘系統(tǒng)原型 WebMiner 216
7.5.6 結(jié)束語 217
7.6 網(wǎng)絡(luò)挖掘 217
7.6.1 引言 217
7.6.2 Web挖掘的分類 218
7.6.3 Web結(jié)構(gòu)挖掘 220
7.6.4 Web使用記錄的挖掘 222
7.6.5 多層次Web數(shù)據(jù)倉庫 的建立與操作: MLDB與WEBML 225
7.6.6 結(jié)束語 228
7.7 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)上的應(yīng)用及 其工具設(shè)計 229
7.7.1 數(shù)據(jù)挖掘技術(shù)介紹 229
7.7.2 Web上的數(shù)據(jù)挖掘 230
7.7.3 Web上的數(shù)據(jù)挖掘的 執(zhí)行和工具 231
7.7.4 結(jié)論 233
7.8 網(wǎng)絡(luò)日志序列模式挖掘 233
7.8.1 引言 233
7.8.2 項目背景及相關(guān)工作 234
7.8.3 疑難及解決方案 235
7.8.4 SPMiner的設(shè)計 237
7.8.5 結(jié)論 239
7.9 路徑群集:在網(wǎng)站中的知識發(fā)現(xiàn) 239
7.9.1 引言 239
7.9.2 識別客戶查找業(yè)務(wù) 241
7.9.3 實驗 242
7.9.4 結(jié)論和將來的工作 242
7.10 走向全球化的“商業(yè)智能” 243
7.11 數(shù)據(jù)挖掘九大注意事項 243