少。所應(yīng)用的技術(shù)越多,用戶血液溶漿機(jī)在選擇技術(shù)時就越困難。這就像在商場里選電視機(jī)一樣,電視 的品牌越多,選擇時就越困難,因?yàn)檫@些品牌 間的區(qū) 別并 不大。同 樣,在理解 了數(shù) 據(jù)挖 掘技 術(shù)以及它們之間的相似性之后,就會發(fā)現(xiàn),最初對這些技術(shù)上的不同理解只是因?yàn)闆]有很好 的理解這些技術(shù)本身,一旦理解技術(shù)本身之后,就知道這些技術(shù)之間是十分類似。 要對數(shù)據(jù)挖掘技術(shù)進(jìn)行比較,應(yīng)首先對 使用這 些技 術(shù)數(shù) 據(jù)挖掘 產(chǎn)品 進(jìn)行評 價(jià)。評 價(jià)通 常可從三個方面考慮。第一個是商業(yè)評價(jià),它更多考慮市場特點(diǎn)。第二個是應(yīng)用評價(jià),它立 足于比較細(xì)節(jié)的層次,說明了某一技術(shù)在哪個應(yīng)用領(lǐng)域效果最好,在哪個應(yīng)用領(lǐng)域使用效果 不好或者不能使用。第三個是算法評價(jià),是最詳細(xì)的評價(jià),它是從數(shù)據(jù)挖掘的最低層比較這 些技術(shù)。數(shù)據(jù)挖掘技術(shù)在 算法 評 價(jià)上 的表 現(xiàn)直 接影 響 它在 商業(yè) 和應(yīng) 用評 價(jià) 上的 排 名。例 如,在算法評價(jià)上,如果處理干擾數(shù)據(jù)的能力很高,那么在
商業(yè)評價(jià)上,表明其有更高的自適 應(yīng)性能。 (1) 商業(yè)評價(jià) 商業(yè)評價(jià)主要評價(jià)數(shù)據(jù)挖掘技術(shù)的商業(yè)價(jià) 值。在評 價(jià)過 程中,考 慮的不 是學(xué) 術(shù)中 的速 度或性能,而是商業(yè)團(tuán)體所遇到的現(xiàn)實(shí)問題。因 為有 些數(shù) 據(jù)挖掘 技術(shù) 不能實(shí) 際應(yīng) 用到 商業(yè) 中去,只是停留在學(xué)術(shù)研究上。 (2) 應(yīng)用評價(jià) 應(yīng)用評價(jià)主要側(cè)重點(diǎn)是幫助一個特定應(yīng)用 選擇 數(shù)據(jù)挖 掘算 法。在特 定應(yīng) 用中,一 些數(shù) 據(jù)挖掘技術(shù)的易用性要比另一些技術(shù)要好。例如,決 策樹 和神經(jīng) 網(wǎng)絡(luò) 都能夠 從數(shù) 據(jù)庫 中產(chǎn) 生規(guī)則,但是一般來講,如果要發(fā)現(xiàn)數(shù)據(jù)庫中所有關(guān)聯(lián)規(guī)則或有趣的規(guī)則,那么,規(guī)則推理技 術(shù)就是最有效的方法。再 比如,在 文字 的識 別 和處 理上,決 策樹 和 神經(jīng) 網(wǎng)絡(luò) 都是 可 用的 算 法,但是最好的方法則是鄰近搜索算法。 (3) 算法評價(jià) 算法評價(jià)從算法本身來詳細(xì)地說明算法的 優(yōu)缺 點(diǎn)。例如,在 比較 時可以 將準(zhǔn) 確性 作為 10.1 數(shù)據(jù)挖掘及其應(yīng)用 353 一個指標(biāo),但是如果一個算法本身沒有辦法處理一定程度上受到破壞或干擾的數(shù)據(jù),那么算 法的準(zhǔn)確性又能說明 什 么?或 者,如 果 一個 算 法 本身 運(yùn) 行 很 快,例 如 在 10 min 內(nèi)處 理 10 GB的數(shù)據(jù),但是如果前期數(shù)據(jù)的準(zhǔn)確需要一個月,這個算法又有什么用? 總而言之,對數(shù)據(jù)挖掘算法的比較一定要選擇一個衡量的標(biāo)準(zhǔn),而標(biāo)準(zhǔn)的選擇也是比較 困難的,因?yàn)樵谝粋評價(jià)標(biāo)準(zhǔn)下表現(xiàn)優(yōu)秀的算 法,在另 一個標(biāo) 準(zhǔn)下 并不 一定優(yōu) 秀,所以 這要 根據(jù)用戶的實(shí)際
情況而定。上面只是給出了評價(jià)數(shù)據(jù)挖掘算法時,可以考慮的三個方面,僅 供參考。 10.1.7 數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘是一個依賴應(yīng)用的問題,不同的數(shù) 據(jù)挖 掘應(yīng) 用可能 需要 不同的 數(shù)據(jù) 挖掘 技術(shù) 進(jìn)行處理,處理流程可能也會有所不同。一般 情況 下,數(shù)據(jù)挖 掘的 過程 包括5 個步 驟:確定 業(yè)務(wù)對象、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評價(jià)與可視化以及知識同化,如圖10.2所示。 圖10.2 數(shù)據(jù)挖掘的基本過程 1. 確定業(yè)務(wù)對象 清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘 的目的 是數(shù) 據(jù)挖 掘的重 要一 步。挖掘 的最 后結(jié) 構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則是帶有盲目性 的,是不會成功的。