數(shù)據(jù)挖掘總結范文

時間:2023-04-23 11:55:45

導語:如何才能寫好一篇數(shù)據(jù)挖掘總結,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

數(shù)據(jù)挖掘總結

篇1

[關鍵詞]聯(lián)通業(yè)務 客戶關系 數(shù)據(jù)挖掘

中圖分類號:TN 文獻標識碼:A 文章編號:1009-914X(2015)23-0208-01

一 概述

客戶決定企業(yè)命運。企業(yè)關注重點從產品逐步轉換到客戶,逐漸形成客戶為中心的客戶關系管理理念。客戶關系管理是信息技術和商業(yè)發(fā)展過程中得出的理論體系,客戶管理需要客戶的支持??蛻絷P系管理是企業(yè)利用信息技術和企業(yè)生產銷售相結的產物??蛻絷P系管理核心價值就是實現(xiàn)客戶價值??蛻絷P系管理利用計算機技術,實現(xiàn)市場信息化、銷售自動化過程、對客戶分析的全過程??蛻絷P系管理可以使企業(yè)及時了解客戶實際情況,增強客戶對企業(yè)歸屬感和信任感。它是一種全新的管理客戶模式。數(shù)據(jù)挖掘在客戶關系管理研究與實踐,大大促進客戶價值實現(xiàn)。數(shù)據(jù)挖掘對客戶挖掘結果會給企業(yè)帶來指導意見,決定企業(yè)未來發(fā)展方向。

聯(lián)通的客戶關系管理系統(tǒng)是基于客戶戰(zhàn)略的,它為企業(yè)傳遞的是一種新的客戶服務理念,是聯(lián)通客戶需求的風向標,它直接影響聯(lián)通如何認識客戶以及如何對待客戶, 也直接影響聯(lián)通公司的客戶服務形象。通過數(shù)據(jù)挖掘系統(tǒng)與客戶管理系統(tǒng)的結合,可以有效的實現(xiàn)對客戶消費模式和客戶市場推廣的分析,實現(xiàn)對客戶的動態(tài)防欺詐、流失分析及競爭對手分析。正確有效的運用數(shù)據(jù)挖掘意義重大。

二 數(shù)據(jù)挖掘的步驟

1.理解數(shù)據(jù)和數(shù)據(jù)的來源,進行數(shù)據(jù)收集

大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒有數(shù)據(jù),數(shù)據(jù)挖掘也就無從做起。數(shù)據(jù)挖掘牽涉了大量的準備工作與規(guī)劃工作,事實上許多專家都認為整套數(shù)據(jù)挖掘的過程中,有80%的時間和精力是花費在數(shù)據(jù)預處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉換、變量整合,以及數(shù)據(jù)表的鏈接。可見,在進行數(shù)據(jù)挖掘技術的分析之前,還有許多準備工作要完成。數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。

2.整合與檢查數(shù)據(jù)

收集到的數(shù)據(jù)必須是有用的,避免可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,因此數(shù)據(jù)的整理是必須的。同時,通過數(shù)據(jù)整理,可以對數(shù)據(jù)做簡單的泛化處理,從而在原始數(shù)據(jù)的基礎上得到更為豐富的數(shù)據(jù)信息,進而便于下一步數(shù)據(jù)挖掘的順利進行。

3.利建立模型和假設

主要采用時序算法、聚類算法、關聯(lián)算法等,根據(jù)采集數(shù)據(jù)建立模型。

4.模型評估

模型建立完畢后,需要驗證模型的正確性,并進行調整。應該利用未參與建模的數(shù)據(jù)對模型進行檢驗。這樣做的原因是按照使用建模的數(shù)據(jù)進行檢驗,由于模型就是按照這些數(shù)據(jù)建立的,檢驗結果自然會很好。但是一旦運用到實際數(shù)據(jù)中,就會產生很大的偏差。檢驗的方法是對已知客戶狀態(tài)的數(shù)據(jù)利用模型進行預測,并將所得到的模型預測值,和實際的客戶狀態(tài)相比較,預測正確值最多的模型就是最優(yōu)模型。不斷重復進行數(shù)據(jù)挖掘一評估過程,多次的循環(huán)反復,以達到預期的效果。

5.決策分析

數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結果,結合實際情況,調整競爭策略等。

三.數(shù)據(jù)挖掘在聯(lián)通客戶管理業(yè)務中的作用

1 數(shù)據(jù)總結

數(shù)據(jù)總結目的是對大量的數(shù)據(jù)進行濃縮,將數(shù)據(jù)庫中的有關數(shù)據(jù)從較低的個體層次抽象總結到較高的總體層次上,從而實現(xiàn)對原始基本數(shù)據(jù)的總體把握。是數(shù)據(jù)挖掘的基本作用。用統(tǒng)計學中的方法計算出數(shù)據(jù)庫的各個數(shù)據(jù)項的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計量,或者通過利用統(tǒng)計圖形工具,對數(shù)據(jù)制作直方圖、餅狀圖等,是最簡單的數(shù)據(jù)總結方法。另一種廣泛使用的數(shù)據(jù)總結方法是聯(lián)機分析處理,是對用戶當前及歷史數(shù)據(jù)進行分析、輔助領導決策,主要通過多維數(shù)據(jù)的查詢、旋轉、鉆取和切片等關鍵技術對數(shù)據(jù)進行分析和報表。

2 關聯(lián)分析

數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關聯(lián)關系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。

3 分類

分析數(shù)據(jù)的各種屬性,一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中,并預測新數(shù)據(jù)將屬于哪一個組。

4 聚類

聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個集合中的數(shù)據(jù)性質相近,不同集合之間的數(shù)據(jù)性質相差較大。

四.數(shù)據(jù)挖掘技術在聯(lián)通客戶管理管理方面的應用

1.客戶市場推廣分析

通過優(yōu)惠策略預測仿真的方法,利用數(shù)據(jù)挖掘技術實現(xiàn)優(yōu)惠策略的仿真。根據(jù)數(shù)據(jù)挖掘模型,進行模擬計費和模擬出賬,其仿真結果可以揭示優(yōu)惠策略中存在的問題,并進行相應的調整優(yōu)化,以達到優(yōu)惠促銷活動的收益最大化。

2.客戶消費模式分析

客戶分類是客戶數(shù)據(jù)分析基礎,數(shù)據(jù)挖據(jù)對客戶分類使用聚類和分類。通過分類可以發(fā)現(xiàn)不同客戶群體的習慣和規(guī)律,找到客戶價值點,準確預測客戶消費方向??蛻舴诸愖屖袌鰻I銷活動更有目的性,提高市場營銷效率,企業(yè)合理配置企業(yè)資源。客戶分類結果實現(xiàn)客戶利益最大化。如固話及移動話費行為分析,是對客戶歷年來長話、市話、信息臺的大量詳單數(shù)據(jù)以及客戶檔案資料等相關數(shù)據(jù)進行關聯(lián)分析,增值業(yè)務話費分析,結合客戶的分類,可以從消費能力、消費習慣、消費周期等諸方面對客戶的話費行為進行分析和預測,從而為聯(lián)通全業(yè)務運營商的相關經營決策提供依據(jù)。

3.客戶流失分析

這是根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務屬性、客戶消費情況等數(shù)據(jù)與客戶流失概率相關聯(lián)的數(shù)學模型,找出這些數(shù)據(jù)之間的關系,給出明確的數(shù)學公式,并根據(jù)此模型來監(jiān)控客戶流失的可能性。如果客戶流失的可能性過高,可通過促銷等手段來提高客戶忠誠

度,防止客戶流失的發(fā)生,這就徹底改變了以往電信運營商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實現(xiàn)客戶關懷等狀況。

4.對客戶欠費進行分析和動態(tài)防欺詐

通過數(shù)據(jù)挖掘,總結現(xiàn)存的各種騙費及其欠費行為的內在規(guī)律,并建立一套防欺詐和防欠費行為的規(guī)則庫,當客戶的話費行為與該庫中規(guī)則吻合時,系統(tǒng)可以提示運營商相關部門采取措施,從而降低運營商的損失風險。

5.競爭對手分析

準確定位通信群體的屬,預測對手市場政策和活動規(guī)律,提前做好市場競爭準備。 通過對競爭對手的客戶消費行為研究與分析,搭建競爭對手模型。通過模型研究市場,利用對競爭對手的客戶群體數(shù)量和增長情況,推出競爭對手的客戶群體。

篇2

[關鍵詞]零售業(yè);數(shù)據(jù)挖掘;技術;運用

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-914X(2014)29-0354-01

數(shù)據(jù)挖掘技術是近年來興起的被各方關注的技術之一,其在實際應用中的顯著優(yōu)勢。我國零售業(yè)在近幾年的發(fā)展速度越來越快,對零售業(yè)中的量級較大的數(shù)據(jù)及信息需要專業(yè)化、科學化、有笑話的提取方法以供零售業(yè)行業(yè)的持續(xù)發(fā)展。

一、 零售業(yè)領域中數(shù)據(jù)挖掘技術應用概況

數(shù)據(jù)挖掘技術以數(shù)據(jù)庫技術、人工智能、機器學習、統(tǒng)計分析、模糊邏輯等多門學科的理論為基礎依托,結合不斷的探索、實踐、規(guī)律總結不斷演化出來的具有高端應用價值的技術。

(一)零售業(yè)數(shù)據(jù)挖掘技術的發(fā)展歷程

從數(shù)據(jù)挖掘技術的發(fā)展可以清晰看出人類對社會認知的轉變歷程。就數(shù)據(jù)挖掘技術而言,其核心技術在于數(shù)理統(tǒng)計理論,人們對于數(shù)據(jù)、信息的敏感程度可以對數(shù)據(jù)挖掘技術的不斷提升有所幫助。鑒于數(shù)據(jù)挖掘技術的優(yōu)點,零售業(yè)領域中復雜多樣的數(shù)據(jù)屬性,不斷與該項技術融合,促進零售業(yè)領域企業(yè)的商業(yè)利益最大化。

在應用數(shù)據(jù)挖掘技術的眾多行業(yè)中,零售業(yè)可以說是最早將此項具有現(xiàn)代化意義的技術應用于自身行業(yè)中的領軍行業(yè)。從摸索階段到現(xiàn)如今的已有基本規(guī)律的狀態(tài),數(shù)據(jù)挖掘技術的應有優(yōu)勢愈發(fā)凸顯,零售業(yè)相關企業(yè)期待著更好利用數(shù)據(jù)挖掘技術促進企業(yè)做出有利決策。比如在零售業(yè)領域中關于數(shù)據(jù)挖掘技術的經典例子包括沃爾瑪超市對啤酒和尿布在銷售方面的規(guī)律的提煉,以及臺風天氣對巧克力等食品的更多需求的研究。

在零售業(yè)領域嘗到數(shù)據(jù)挖掘技術的顯著優(yōu)勢后,包括制造業(yè)、財務金融保險業(yè)、醫(yī)療企業(yè)等多個其余行業(yè)也紛紛開始效仿,鑒于數(shù)據(jù)挖掘技術鮮明的實用性及可操作性,一些公司運用數(shù)據(jù)挖掘的成功案例,充分顯示了這項技術的強大生命力。

(二)零售業(yè)數(shù)據(jù)挖掘技術研究的意義

在零售業(yè)領域中,條形碼管理、銷售管理系統(tǒng)、客戶資料管理系統(tǒng)等關于商品信息、客戶信息、供應商信息、店鋪信息、會員信息等海量數(shù)據(jù),以零散狀態(tài)呈現(xiàn)在人們面前,表面看,這些類別的數(shù)據(jù)之間毫無關聯(lián),但透過數(shù)據(jù)挖掘的眼光便可以清晰看出這些類別數(shù)據(jù)之間、同一類別數(shù)據(jù)之間存在著千絲萬縷的聯(lián)系。大數(shù)據(jù)理論提出以來,零售業(yè)領域研究者們變采取研究手段探究領域內海量數(shù)據(jù)與商品銷售、客戶群體選擇等眾多零售商們頭疼的問題之間的關系。實踐證明,利用數(shù)據(jù)挖掘技術可以幫助零售商們解決上述看似無解決方法的疑難雜癥。比如,購物籃分析可以探究商品搭配方式與用戶訴求之間的匹配程度、消費者對于商品擺放樣式的好感度等。

從反方向看數(shù)據(jù)挖掘技術對于零售業(yè)領域的應用意義,對于零售業(yè)領域內的規(guī)律,人們僅憑經驗、人工查找總結的方法將很難實現(xiàn),缺乏有效數(shù)據(jù)挖掘手段的零售業(yè)領域的規(guī)律的探究的可能性非常小。而數(shù)據(jù)挖掘技術恰恰可以迎合人們這一需求,省去了人工查找的麻煩與困擾。特別是在銷售相關數(shù)據(jù)越來越多的環(huán)境中,依靠人工積累的方法很難實現(xiàn)行業(yè)發(fā)展的突破,對于海量數(shù)據(jù)問題的解決,數(shù)據(jù)挖掘技術是非常好的選擇。

可見,零售業(yè)領域中數(shù)據(jù)挖掘技術的應用不僅歷史久遠,并且成果顯著。但人們不能將眼光僅僅停留在數(shù)據(jù)挖掘技術給零售業(yè)領域帶來的已有成功影響,隨著社會的不斷發(fā)展、市場經濟環(huán)境的不斷變化,業(yè)內人士需要對于社會市場體系未來的發(fā)展要素予以準確把握,并將此作為零售業(yè)領域內數(shù)據(jù)挖掘技術研究的方向。本文的議題設置初衷也在于此。

二、零售業(yè)領域中數(shù)據(jù)挖掘技術的應用范圍

查閱大量相關資料、整合已有成功經驗后,可以發(fā)現(xiàn),數(shù)據(jù)挖掘技術在零售業(yè)領域內的功能性體現(xiàn)在三個方面:

首先,數(shù)據(jù)挖掘技術以海量數(shù)據(jù)為基礎的技術要求恰恰符合了零售業(yè)領域內超大數(shù)量級的數(shù)據(jù)現(xiàn)狀。數(shù)據(jù)挖掘技術利用計算機設備的準確、快速的算法更新技術,實現(xiàn)了短時間內對零售業(yè)領域內的數(shù)據(jù)進行聚類、提煉規(guī)律性成果的可能。

其次,數(shù)據(jù)挖掘神經網絡算法的出現(xiàn),進一步提升了零售業(yè)領域內數(shù)據(jù)挖掘的應用效率。這一新型算法的出現(xiàn)有效緩解了外部商業(yè)競爭對于零售業(yè)領域發(fā)展的影響。零售業(yè)領域內企業(yè)的發(fā)展離不開高端有效的數(shù)據(jù)挖掘技術。

再次,數(shù)據(jù)挖掘技術令企業(yè)充分了解客戶對于商品銷售的喜好及興趣,幫助企業(yè)有效、準確、及時了解并掌握市場的動態(tài)變化,可以做到及時針對市場環(huán)境的變化調整自身企業(yè)的銷售模式及銷售方案。在對市場動態(tài)變化的及時掌握中,零售業(yè)企業(yè)可以及時洞察市場上的新商機,謀求企業(yè)緊急效益。

三、零售業(yè)領域中數(shù)據(jù)挖掘技術應用存在的問題及未來的發(fā)展趨勢

第一,零售業(yè)中數(shù)據(jù)挖掘技術在分析變量的選擇上仍有不足。數(shù)據(jù)挖掘的技術關鍵在于聚類方式的確定,而就相對更加復雜的零售業(yè)領域內的有關數(shù)據(jù)信息而言,其在分析變量的確定方式上仍舊需要持續(xù)關注實踐結果進行及時調整。選擇合適的數(shù)據(jù)挖掘分析變量,可以明顯提升數(shù)據(jù)挖掘技術在零售業(yè)領域中的應用效率。

第二,數(shù)據(jù)挖掘技術所依托的數(shù)據(jù)抽取方式需要結合用戶需要進行及時調整。抽取數(shù)據(jù)的目的在于從眾多雜亂數(shù)據(jù)中提煉有用信息,減少不必要的工作量。比如求和、平均值、方差、直方圖、餅狀圖等方式都可以結合實際情況嘗試。

第三,數(shù)據(jù)挖掘技術的數(shù)據(jù)趨勢需要有效預測。在紛繁復雜的數(shù)據(jù)信息中,也是有一些規(guī)律性的趨勢可以預測的。在零售業(yè)領域中,數(shù)據(jù)趨勢的預測工作十分重要。

四、結語

截至目前,真正適合零售業(yè)領域的數(shù)據(jù)挖掘模型還缺乏統(tǒng)一化,真正具有意義、有效性的數(shù)據(jù)模型的應用范圍應該是在各個行業(yè)中都具有互通性的,即便行業(yè)在特點方面存在差異,但符合當前社會發(fā)展形勢的數(shù)據(jù)挖掘技術需要往統(tǒng)一化中帶有特色化的方向發(fā)展。因此,要保障數(shù)據(jù)挖掘的基礎數(shù)據(jù)模型可靠。數(shù)據(jù)模型包括的種類很多,比如概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型、采集模型、處理模型、其他模型等。但目前情況看,上述模型的可靠性均需要經過時間的考驗,因此,在零售業(yè)領域中的數(shù)據(jù)挖掘技術需要加大對模型可靠性的研究力度。

參考文獻

篇3

【關鍵詞】 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 流失預警

一、引言

客戶保有的前提是理解客戶行為,電信運營商已經積累了大量的客戶行為信息,有效結合數(shù)據(jù)挖掘技術,對已有的無規(guī)則客戶行為信息進行分析識別,并通過各類算法歸納總結出客戶流失的規(guī)律及特點,最終建立起數(shù)據(jù)挖掘模型,經過不斷的校驗,可以預測客戶流失傾向,并將預測結果轉化為企業(yè)客戶保有行為,為企業(yè)的營銷工作提供幫助、指導,為企業(yè)決策提供支持,最終實現(xiàn)電信企業(yè)客戶保有及價值提升的目的。

二、數(shù)據(jù)挖掘概述

(1)數(shù)據(jù)挖掘概念。數(shù)據(jù)挖掘是指從大量的、隨機的、不規(guī)則的應用數(shù)據(jù)中通過算法(如分類、總結、關聯(lián)規(guī)則、聚類等)搜索隱藏于其中的不為人知的、但潛在的有用知識的過程。數(shù)據(jù)挖掘提供預測性的信息,質上是一個歸納推理的過程,不是驗證一個假定模型的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘是多學科的產物,包含數(shù)據(jù)庫技術、統(tǒng)計學、可視化、高性能計算、人工智能、機器學習。數(shù)據(jù)挖掘的三個過程,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結果的解釋評估。(2)數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘常用的方法有關聯(lián)分析、分類、聚類、回歸分析、神經網絡等,這些方法從不同的角度對數(shù)據(jù)進行挖掘分析,可以應用到企業(yè)客戶行為分析、決策支撐等不同階段和領域。

三、電信客戶流失預警中數(shù)據(jù)挖掘的實施步驟

(1)明確目標。要充分發(fā)揮數(shù)據(jù)挖掘的作用,必須明確目標。電信客戶流失預警的重要目標就是提前預知客戶流失風險,從而指導維系人員準確定位目標客戶,及時給與流失干預,提升電信客戶保有率。(2)建立數(shù)據(jù)挖掘庫。我們需要從各類海量電信客戶數(shù)據(jù)庫中抽取與客戶流失相關數(shù)據(jù)內容,建立獨立的客戶流失預警挖掘數(shù)據(jù)庫,該數(shù)據(jù)庫可以是已有數(shù)據(jù)倉庫的一個邏輯子集,而不一定非要是物理上獨立的數(shù)據(jù)庫。單獨設立的客戶預警數(shù)據(jù)庫可以提高分析效率、避免由于數(shù)據(jù)巨大帶來的數(shù)據(jù)沖突問題的解決。通過對客戶流失關鍵點的數(shù)據(jù)抽取、精選,可以極大的減少數(shù)據(jù)處理量,節(jié)約系統(tǒng)資源,更好的輔助數(shù)據(jù)分析目標的達成。(3)數(shù)據(jù)分析。需要從海量客戶、海量信息、海量數(shù)據(jù)中找到客戶流失的關鍵點,不斷從流失數(shù)據(jù)挖掘庫中找到相應的規(guī)律和潛在趨勢,使用聚類分析的方法進行客戶信息類別區(qū)分,逐步梳理出影響客戶流失的眾多因素,并進行重要性分析,找出這些因素之間相互影響、牽連的關系,從而發(fā)現(xiàn)因素之間的相關性。(4)準備及調整數(shù)據(jù)。通過數(shù)據(jù)分析步驟,將符合分析要求數(shù)據(jù)進行數(shù)據(jù)庫導入,并對數(shù)據(jù)進行進一步的調整,關鍵是實現(xiàn)進一層次的明確及量化,為模型化奠定基礎。(5)建立模型。建立模型是數(shù)據(jù)挖掘的核心環(huán)節(jié),在分析數(shù)據(jù),并對數(shù)據(jù)進行系統(tǒng)調整的基礎上即可以開始建立模型。通常我們利用聚類分析、時間序列分析等方法來實現(xiàn)建模。(6)評價及解釋。從之前的步驟中我們已經很明確的得出客戶流失的一系列分析數(shù)據(jù)及模型,我們會得出對客戶流失問題多種描述,綜合各類描述的規(guī)律性,提供合理的分析支持信息。

四、數(shù)據(jù)挖掘在電信客戶維系中的應用

1、流失客戶分析及建模

以往運營商服務模型基本圍繞全生命周期時間軸主線,重點描述單客戶服務動作,缺少客戶聚類特征總結。結合客戶流失特征,運用聚類統(tǒng)計分析方法將客戶進行特征聚類,區(qū)分為入網半年內客戶群、入網半年至一年客戶群、入網一年以上客戶群,其客戶流失特征及原因存在區(qū)隔,入網半年內客戶的流失與前期客戶發(fā)展質量關系密切,主要取決于在新發(fā)展客戶營銷過程中存在的問題或弊端;而入網半年至一年客戶群的流失與功能性的服務感知相關;入網一年以上或更長時間的客戶流失與后期客戶持續(xù)提供的服務及感知密切相關。同時三大聚類客戶群又分別具有三個流失關鍵點,我們可以運用數(shù)據(jù)挖掘技術“信息熵理論”、“二元分類模型”,找到幾個聚類群體流失相關因子,從而構建針對性精準的維系模型,如圖1所示。

在基于聚類模型構建起精準的客戶維系體系后,對應影響三個聚類群體的核心因子及模型分析,針對性制定標準化維系動作及強化服務方案,增強原有的客戶服務體系,從而達到提升客戶感知及粘性的目的。

結合三個關鍵點,從現(xiàn)有的海量客戶行為數(shù)據(jù)中找到維系因子,對影響用戶群流失的因子做聚類分析,梳理出關鍵因子,并進行重要性分析,選定對整體流失影響力較大的因子作為高危挽留的重點突破口,如表1所示。

通過高危因子重要度的區(qū)分,每月月初系統(tǒng)自動預警,為客戶挽留提供數(shù)據(jù)支持。

2、客戶挽留流程

(1)挽留機會分析。根據(jù)三大聚類客戶群特點,對三類客戶流失傾向進行評價,按風險的高低進行評判,入網初期客戶流失風險最高,其次是高危客戶流失傾向明顯,一年以上到期合約客戶也存在流失風險,根據(jù)風險度及入網時間的不同,進行流失客戶預測,從而及時找到挽留機會。(2)挽留策略的制定。通過高危因子重要度分析,系統(tǒng)自動預警圈定需要挽留的客戶群,對不同因子客戶進行分析逐一制定挽留策略。針對新入網客戶流失分析,梳理主要流失原因,制定相應的入網門檻,并配合相應酬金發(fā)放機制,在入網半年內分批分比例發(fā)放酬金,提升入網質量;針對入網半年以上客戶,結合高危因子,梳理不同因子客戶群流失原因,針對性制定挽留策略,如合約計劃、網齡升級計劃、流量回饋等;對于一年以上合約到期客戶,制定老客戶合約續(xù)費政策,提升合約續(xù)費率。(3)采取保有行為并反饋。通過以上兩個步驟,找到挽留機會,并制定相應策略后,需將挽留行為分配給不同的渠道人員實施,新入網客戶的入網策略由各發(fā)展渠道落實并反饋客戶信息;半年以上中期高危客戶及一年以上合約到期客戶的挽留與維系需由維系中心與各實體渠道相互配合,由維系中心進行電話回訪式維系,實體渠道配合通過理財專席等方式在日常業(yè)務辦理中提高客戶在網粘性。

五、結束語

事實上,流失模型的建立不可能直接帶來客戶流失率的減少,但基于數(shù)據(jù)挖掘的客戶流失預警模型的應用,可以很大程度上提升客戶維系與挽留的有效性,有效的預警、預測結合針對性的挽留策略及有效的挽留行為,才能夠真正實現(xiàn)客戶流失率的降低,達到提升客戶感知及粘性的最終目的。

參 考 文 獻

篇4

【關鍵詞】搜索引擎 網絡數(shù)據(jù)挖掘相關技術 研究

在社會的發(fā)展之下,網絡已經成為人們生活與生產中必不可少的工具,但是網絡中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網絡信息檢索在檢準率與檢全率方面依然難以滿足人們的需求,而將網絡數(shù)據(jù)挖掘技術應用在其中即可很好的解決這一問題。

1 數(shù)據(jù)挖掘技術簡介

數(shù)據(jù)挖掘技術就是從大量模糊、隨機、不完全、有噪聲信息中提出有用信息的一個過程,與數(shù)據(jù)挖掘技術相關的技術還有數(shù)據(jù)分析技術、數(shù)據(jù)融合技術、知識發(fā)現(xiàn)技術等等,在技術水平的發(fā)展下,統(tǒng)計學方法、決策樹、關聯(lián)分析等一些新型數(shù)據(jù)挖掘技術也相繼出現(xiàn)。與數(shù)據(jù)挖掘不同,信息檢索實質上是一種信息發(fā)現(xiàn)任務,也是知識發(fā)展過程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項靜態(tài)信息,但是難以分析到數(shù)據(jù)間的關系及其未來發(fā)展趨勢。而應用數(shù)據(jù)挖掘技術則可以有效提升系統(tǒng)檢索能力,預測出未來的走勢,因此,將數(shù)據(jù)挖掘技術應用在搜索引擎中也是大勢所趨。

2 搜索引擎與網絡數(shù)據(jù)挖掘

網絡數(shù)據(jù)挖掘是一種將數(shù)據(jù)挖掘技術與網絡融合的一種新模式,網絡數(shù)據(jù)挖掘也能夠稱之為Web挖掘,網絡數(shù)據(jù)的頁面復雜、數(shù)據(jù)內容繁雜,文章也具有不規(guī)則性,將數(shù)據(jù)挖掘技術應用在數(shù)據(jù)挖掘中可以有效的解決上述問題,根據(jù)處理對象,網絡數(shù)據(jù)挖掘任務有三種類型,即網絡內容挖掘、網絡使用挖掘與網絡結構挖掘。

2.1 網絡內容的挖掘

網絡內容挖掘就是從網絡數(shù)據(jù)、網絡內容與網絡文檔中挖掘信息,很多網絡信息是能夠在網絡中過去的,但是依然有很大一部分數(shù)據(jù)難以采用該種方法獲取,如使用PHP、JSP與ASP的動態(tài)網頁,拒絕訪問的網站,商業(yè)數(shù)據(jù)庫中的數(shù)據(jù)。這些內容都能夠使用網絡內容挖掘法來獲取,這可以使用兩個方法:網絡頁面內容挖掘法與搜索結果再挖掘法。

2.2 網絡結構挖掘法

網絡結構挖掘法強調挖掘網頁中的鏈接結構,并從中推導相關的知識,這種挖掘法與引文分析有著密切的關系,網絡中的鏈接信息能夠為數(shù)據(jù)挖掘提供全面的支持,為了獲取到理想的效果,可以來分析網頁鏈接與鏈接數(shù)量,并建立起鏈接結構模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。

2.3 網絡使用挖掘法

網絡使用挖掘法就是通過日志發(fā)現(xiàn)來訪問頁面的一種模式,與網絡內容挖掘模式和網絡結構挖掘模式不同,網絡使用挖掘法的挖掘對象非是網絡與用戶交互中的二手數(shù)據(jù),這些數(shù)據(jù)大多來自Cookies或者Web服務器中的信息、系統(tǒng)交互信息與訪問記錄。

3 數(shù)據(jù)挖掘技術在網絡信息檢索中的應用作用

目前,人們已經進入了一個信息爆炸時代,雖然眾多搜索引擎網絡可以滿足人們對于信息檢索的基本需求,但是還是有很多地方不到位,目前,網絡挖掘技術已經開始在網絡領域中得到了應用,也取得了一定的成效。實踐顯示,將數(shù)據(jù)挖掘技術應用在網絡信息檢索中能夠取得如下的效用:

3.1 提升標引準確性

標引能夠準確選擇出文獻的檢索標示,網絡信息范圍廣、復雜性高、數(shù)量多,使用人工標引很難取得理想的檢索效果,因此,必須要使用自動標引。將網絡數(shù)據(jù)挖掘技術應用在其中能夠深刻的揭示出相關信息的聯(lián)系,幫助用戶在文檔中進行標注,提升信息攝取的準確性。而以此為基礎來應用加權算法則能夠得出具體的信息關聯(lián),對于提升檢索效果有著十分積極的效用。

3.2 可以對檢索結果進行分類

在網絡世界中,各個網站之間的轉載情況嚴重,用戶在使用搜索引擎時必然會檢索出大量的重復信息,這不僅會降低檢索效率,也會浪費資源。將數(shù)據(jù)挖掘技術應用在檢索工作中就能夠挖掘出網頁中的語義內容,有效提升檢索效率。此外,數(shù)據(jù)挖掘技術也可以有效提升檢索質量,該種方法是建立在層次法與劃分法基礎上,如果檢索文檔相似性大,即可進行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據(jù)自己的需要自行選擇,這就有效減少了瀏覽數(shù)量。

3.3 能夠提升自動摘要質量

自動摘要即利用網絡來分析文章結構、主題語句的方式,自動摘要可以有效幫助用戶來加工與整合信息,與自動摘要相比,人工編制摘要會浪費大量的時間,將網絡數(shù)據(jù)挖掘技術應用在搜索引擎中能夠提升自動摘要的質量,該種技術是通過文檔內容來總結文本信息,能夠將Web中的重要內容總結起來,并提取出摘要。這對于優(yōu)化網絡信息資源的處理質量有著十分積極的意義。

4 結語

總而言之,將數(shù)據(jù)網絡挖掘技術應用在搜索引擎中已經成為了一個大勢所趨,采用該種技術可以有效提升標引、自動分類、自動摘要以及自動聚類的準確性,可以根據(jù)用戶的具體需求來建立模型,從而為用戶提供出更加針對性的信息支持。其中,最為常用的技術就是自由分類法,自由分類法能夠將難以用傳統(tǒng)方式細化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應用在小范圍網絡中,相信在不久的將來,網絡數(shù)據(jù)挖掘技術定可以在搜索引擎中得到更加廣泛的使用。

參考文獻:

[1]狄浩林. 面向精確營銷基于數(shù)據(jù)挖掘的3G用戶行為模型及實證研究[D]. 北京郵電大學 2012

篇5

1.1數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘(DataMining[1])是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘可粗略地理解為三部分:數(shù)據(jù)準備(DataPreparation)、數(shù)據(jù)挖掘,以及結果的解釋評估(InterpretationandEvaluation)。將數(shù)據(jù)挖掘技術應用到醫(yī)學信息數(shù)據(jù)庫中,可以發(fā)現(xiàn)其中的醫(yī)學診斷規(guī)則和模式,從而輔助醫(yī)生進行疾病診斷,實現(xiàn)臨床決策支持的效果。

1.2數(shù)據(jù)挖掘的功能[2-6]

1.2.1關聯(lián)分析

數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。

1.2.2分類

分類就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識別未知數(shù)據(jù)的歸屬或類別,即將未知事例映射到某種離散類別之一。

1.2.3聚類

數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。

1.2.4概念描述

對含有大量數(shù)據(jù)的數(shù)據(jù)集合進行概述性的總結并獲得簡明、準確的描述,這種描述就稱為概念描述。

1.2.5預測

數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。

1.2.6異常檢測

一個數(shù)據(jù)庫中的數(shù)據(jù)一般不可能都符合分類預測或聚類分析所獲得的模型,那些不符合大多數(shù)數(shù)據(jù)對象所構成的規(guī)律的數(shù)據(jù)對象就被稱為異常數(shù)據(jù)。

1.3數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘過程[7-9]是在設計者的主動參與下進行的知識發(fā)現(xiàn)過程,是在積累了大量的數(shù)據(jù)后,從中識別出有效的、新穎的、潛在的、最終可以理解并加以有目的運用的知識。一般分為以下步驟:問題定義:清晰地定義出業(yè)務問題,認清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。數(shù)據(jù)準備:①數(shù)據(jù)理解---將數(shù)據(jù)轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。②數(shù)據(jù)的選擇及簡化—是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。③數(shù)據(jù)的預處理--研究數(shù)據(jù)的質量,為進一步的分析做準備。數(shù)據(jù)挖掘:對所得到的經過轉換的數(shù)據(jù)進行挖掘。結果分析:解釋并評估結果。知識的優(yōu)化:將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去。

2醫(yī)院信息系統(tǒng)中數(shù)據(jù)挖掘的研究

2.1醫(yī)療數(shù)據(jù)挖掘主要分類

2.1.1從數(shù)據(jù)挖掘的處理過程、功能模型、算法研究,可以將醫(yī)用數(shù)據(jù)挖掘按功能模型和挖掘對象兩個方面進行如下分類[10-14]。

2.1.1.1按照功能模型分類:常用的數(shù)據(jù)挖掘技術可以分成統(tǒng)計分析類、知識發(fā)現(xiàn)類、和其他類型的數(shù)據(jù)挖掘技術三大類。①統(tǒng)計分析類:統(tǒng)計是數(shù)據(jù)搜集和描述數(shù)學的一個分支。在醫(yī)療數(shù)據(jù)挖掘中的應用如:聚類分析方法可以對DNA分析、醫(yī)學影像數(shù)據(jù)自動分析、多生理參數(shù)監(jiān)護數(shù)據(jù)分析、中醫(yī)診斷和方劑的研究、疾病危險因素分析等。②知識發(fā)現(xiàn)類:知識發(fā)現(xiàn)是用一種間接的方式從數(shù)據(jù)中抽取信息的一種技術,而這些信息是隱含的、未知的,并且具有潛在應用價值。其中可分為:a.關聯(lián)規(guī)則型知識挖掘技術,是醫(yī)用數(shù)據(jù)挖掘的一種主要形式。b.神經網絡型知識挖掘技術。c.遺傳算法型知識挖掘技術。d.粗糙集型知識挖掘技術。如關聯(lián)分析可以用來分析預測手術術后和藥物治療的效果,可以對某種疾病的相關發(fā)病因素進行分析以指導患者如何預防該疾病;可以對帶病DNA和健康組織的DNA基因序列進行比較,以識別出兩類基因的差別,從而得出致病因素;可以對患者的生理參數(shù)進行分析,分析各種生理參數(shù)之間的關系進而得出有意義預防與治療方案等。e.機器學習類,歸納學習方法又可分為決策樹、規(guī)則歸納等。如決策樹用于前庭區(qū)與頭暈有關的疾病診斷規(guī)則的提取。③其他類型:除以上陳述的數(shù)據(jù)挖掘技術外,近年來,隨著各種數(shù)據(jù)處理工具、先進的數(shù)據(jù)庫技術與因特網技術的迅速發(fā)展,還出現(xiàn)了一些其他數(shù)據(jù)挖掘技術。如文本挖掘技術、Web挖掘技術、分類分析技術、地理信息系統(tǒng)與空間數(shù)據(jù)挖掘技術以及分布式數(shù)據(jù)挖掘技術等。

2.1.1.2按照挖掘對象分類:按照不同的數(shù)據(jù)類型,數(shù)據(jù)挖掘研究在時間序列數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)等方面展開。①時間序列數(shù)據(jù)(TimeSeriesData)是與時間有關的一系列數(shù)據(jù)。對時間序列數(shù)據(jù)的挖掘主要是發(fā)現(xiàn)序列中事物出現(xiàn)的周期和規(guī)律,以及不同時間序列間的同步關系。如應用時間序列預測方法可以對醫(yī)院藥品進、銷、存產生的數(shù)據(jù)進行統(tǒng)計分析。②序列(Sequential)模式序列模式與關聯(lián)模式相仿,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但是序列模式分析的側重點在于分析數(shù)據(jù)之間的前因后果。如:對醫(yī)院門診和住院患者量進行預測,可以分析某種疾病發(fā)病率的變化趨勢,病死率預測等。③文本數(shù)據(jù)(TextData)就是我們一般的文字,如報刊雜志、設備維護手冊、故障描述等的內容。④多媒體數(shù)據(jù)(MultimediaData)是隨著多媒體技術而日益涌現(xiàn)的聲音、圖形、圖像、超文本等數(shù)據(jù)。應用領域例如針對大量CT、MR圖像的存儲和查詢問題而興起的基于內容的圖像問題。由于與傳統(tǒng)的文本數(shù)據(jù)不同,因此必須采用新的挖掘手段來發(fā)現(xiàn)內容和形式間的內在聯(lián)系。

2.1.2按應用層面可醫(yī)院數(shù)據(jù)挖掘可分為診療信息挖掘和管理信息挖掘。診療應用如:中山大學腫瘤防治中心的研究人員通過腫瘤分子信息和數(shù)據(jù)挖掘方法可以預測早期非小細胞肺癌5年內是否死亡,這一預測的總正確率達87.2%,該技術一旦成熟,今后每個肺癌患者開刀做完手術后,可借此預測其5年存活情況,而且檢測費用遠比國外的基因檢測便宜;上海同濟大學附屬醫(yī)院分析糖尿病患者肌肉組織和脂肪含量與骨密度之間的聯(lián)系,得出高肌肉和高脂肪含量可以降低患者髖骨骨折的危險性;第四軍醫(yī)大利用數(shù)據(jù)庫和數(shù)據(jù)挖掘技術建立了惡性血液病數(shù)據(jù)庫分析系統(tǒng)等。管理應用如:北京協(xié)和醫(yī)院開展數(shù)據(jù)挖掘在臨床醫(yī)療管理上的研究,為醫(yī)院業(yè)務管理等提供支撐,并輔助領導決策;廣州南方醫(yī)院采用數(shù)據(jù)挖掘查詢系統(tǒng)查詢醫(yī)生有否開大處方,患者是否花了不該花的醫(yī)藥費,且患者有望提前治愈出院。

2.2醫(yī)療數(shù)據(jù)挖掘的應用研究

2.2.1診療信息挖掘

診療信息挖掘主要目的是通過患者信息分析,提供有參考作用的醫(yī)療方案。①建立患者隨訪信息庫。②臨床疾病分析、輔助診斷:如:a.判別分析:用于心臟疾病的分類;用于闌尾炎4種不同類型的判別。b.人工神系統(tǒng)網絡:用于顱內星形膠質細胞瘤良、惡性的影像診斷;用于肺內孤立結節(jié)的影像鑒別診斷。c.決策樹:糖尿病分類規(guī)則建立;前庭區(qū)與頭暈有關的疾病診斷規(guī)則的提取。

2.2.2管理信息挖掘

2.2.2.1財務管理[15,16]

①患者費用構成分析:患者費用由藥品、治療、檢查、手術、化驗等組成。利用數(shù)據(jù)挖掘技術可以分析醫(yī)院、科室乃至各個病區(qū)??苾鹊幕颊哔M用構成,從而能有針對性地控制費用比例,探究醫(yī)療費用項目結構的合理性,使醫(yī)院管理者有針對性的控制醫(yī)療費用。②同期費用對比分析:利用數(shù)據(jù)挖掘技術可以按不同的時間對各個科室或各個病區(qū)同期的各種費用進行對比分析,并以各種專業(yè)報表、視圖的形式反映給醫(yī)院管理者,分析變化趨勢及可能原因。③成本效益分析:利用數(shù)據(jù)挖掘技術可以把各個不同系統(tǒng)如物資設備系統(tǒng)、財務系統(tǒng)等的數(shù)據(jù)匯總到數(shù)據(jù)倉庫,然后對醫(yī)院的成本效益情況進行全面分析,以便能真正把握醫(yī)院的經營狀況,提高醫(yī)院的經濟效益。例如:對醫(yī)院資金運轉情況作財務分析,了解醫(yī)院財務狀況和資金流向,分析醫(yī)院運營風險,利用數(shù)據(jù)挖掘中的環(huán)基比和定基比技術分析醫(yī)院財務資金的增長速度,并用曲線擬合來預測未來的資金需求量,為管理者決策和促進資源的有效配置提供依據(jù)。④醫(yī)保費用構成分析:利用醫(yī)院業(yè)務數(shù)據(jù)結合醫(yī)保中心返還數(shù)據(jù)對醫(yī)保分科的定額結算進行分析,指導醫(yī)院各科室合理、高效的利用醫(yī)保資源,在醫(yī)保定額下提供更好的醫(yī)療服務。

2.2.2.2醫(yī)療質量管理[17-19]

①單病種分析:以ICDlO疾病分類為標準,利用數(shù)據(jù)挖掘技術對單病種進行分析,包括住院費用、住院天數(shù)、轉歸、病情、治療方案等方面,為醫(yī)療質量管理提供依據(jù),使醫(yī)生能夠及時總結經驗,找出最佳治療手段,既縮短了患者的就診住院時間,減輕了患者的負擔,同時提高了醫(yī)療工作效率,增加了醫(yī)院經濟效益。②手術室感染管理:a.手術室無菌物品及一次性用品智能備庫系統(tǒng);b.總結消毒滅菌工作與消毒效果的規(guī)律;c.預測術后切口感染合理安排手術并防止抗生素的濫用;d.利用HIS中知識解決消毒滅菌難點并杜絕差錯;e.對參觀手術人員和進修生實習生的管理;f.對手術室消毒滅菌和醫(yī)院感染常規(guī)工作動態(tài)監(jiān)測。③藥學管理:a.備藥量預測:用時間序列預測方法,對HIS中現(xiàn)有的藥品用量信息進行計算模擬,得出藥品消耗模型。b.制劑最佳批生產量預測:在分析醫(yī)院制劑歷年用量及近期消耗趨勢下,得出該制劑效期內用量,并通過計算得出該制劑的最佳批生產量預測模型。c.治療藥物監(jiān)測:對藥物監(jiān)測(TDM)歷史數(shù)據(jù)分析、提取、加工、整合,更深層次挖掘(或發(fā)現(xiàn))一些新知識,如開展藥物群體藥動學研究、藥物濃度影響因素相關度分析等,為臨床提供更多有價值的資料,實現(xiàn)給藥個體化、提高藥物療效、降低藥物毒副反應等。d.抗生素合理應用自動監(jiān)控:對HIS中相關信息進行提取、分析、挖掘,對抗生素的用量、耐藥性、聯(lián)合用藥、療程、圍手術期用藥、預防用藥、用藥途徑及治療效果等指標實行自動監(jiān)控,從而實時、有效地監(jiān)測抗生素使用情況。

2.2.2.3醫(yī)院經營目標管理[20]

①患者構成分析:運用數(shù)據(jù)挖掘技術中的秩和比法對醫(yī)院門診和住院患者的地區(qū)分布、性別分布、身份分布、職業(yè)分布、年齡分布等方面進行分析,從而得到不同類型患者的經濟狀況、需求的主要醫(yī)療服務類型等信息,了解患者差異對醫(yī)院收益的影響,從而能夠有針對性的采取措施來提高服務質量,增加門診量和住院量。②患者流動情況分析:該功能可以分析門診患者從掛號到取藥再到離開醫(yī)院的時間分布以及住院患者從入院到出院各個就醫(yī)環(huán)節(jié)的時間分布。分析出患者的就醫(yī)瓶頸,掌握影響患者診療效率的因素,以便能針對這些因素采取措施來幫助醫(yī)院管理者進行業(yè)務流程的更新和改進,提高患者的就診效率。

2.2.2.4經營決策管理[21]

①患者就診時間分析:由于患者的入院季節(jié)性較強,可以通過分析每月、每季度的門診人次、住院人次、床位周轉率,通過時間維度分析,建立灰色預測模型,來預測下一時期的門診和住院人次。根據(jù)預測信息,醫(yī)院管理者可以提出有針對性的措施,確定最優(yōu)的服務項目時間表,從而作出終止或開拓某種醫(yī)療服務項目的決定,實現(xiàn)對人力資源、醫(yī)療設施、醫(yī)療設備的適當配置。②醫(yī)療工作量影響分析:科學合理地評價醫(yī)療工作量,找出影響醫(yī)療工作量變化的主要因素,是進行醫(yī)療工作量影響分析的目的。例如:醫(yī)院收治患者數(shù)是醫(yī)院工作量的重要指標之一,直接影響醫(yī)院的經濟效益和社會效益。利用數(shù)據(jù)挖掘技術中的灰色關聯(lián)分析方法對醫(yī)院收治患者數(shù)的影響因素進行分析:病床周轉次數(shù)、住院患者手術人次、年收治患者人數(shù)、平均開放病床數(shù)和年平均醫(yī)生人數(shù)與年收治患者數(shù)關聯(lián)程度等。

2.2.2.5醫(yī)院資源管理

①科室綜合評價分析:利用數(shù)據(jù)挖掘技術對醫(yī)院各科室進行綜合評價分析,選出代表性強、獨立性好,能反映科室工作效率、治療質量、經濟效益、綜合管理等的多項指標進行綜合評價分析,找到科室的薄弱環(huán)節(jié),并采取相應的措施,以提高科室的綜合水平。②醫(yī)療設備績效預測分析:從HIS中的患者信息中提取病種、數(shù)量、診療類別等信息后與醫(yī)療設備使用信息相關聯(lián),利用數(shù)據(jù)挖掘技術對所得到的信息進行深層次的數(shù)據(jù)挖掘,構建數(shù)據(jù)挖掘模型,利用已建立的數(shù)據(jù)挖掘模型,在醫(yī)療設備購置前對其績效進行預測,使醫(yī)院領導的決策更為準確、科學;在醫(yī)療設備投入使用后,對其績效進行準確評價,提高醫(yī)療設備的完好率和使用率。通過進一步的數(shù)據(jù)挖掘,實現(xiàn)對醫(yī)療設備從購置前的可行性論證到淘汰報廢的全程決策支持,使醫(yī)療設備的全壽命期都納入管理者的統(tǒng)籌管理之中,較好地解決醫(yī)療設備效益、代價、風險等互相制約的管理難題,充分發(fā)揮醫(yī)療設備的社會效益和經濟效益。因此本研究具有明確的推廣應用前景及重大應用意義。

2.3醫(yī)療數(shù)據(jù)挖掘的熱點及前景

當前,數(shù)據(jù)挖掘的研究方興未艾,其研究與開發(fā)的總體水平相當于數(shù)據(jù)庫技術在20世紀70年代所處的地位,迫切需要類似于關系模式、數(shù)據(jù)挖掘系統(tǒng)和SQL查詢語言等理論和方法的指導,才能使數(shù)據(jù)挖掘的應用得以普遍推廣。其研究可能會集中到幾個方面,而生物信息或基因的數(shù)據(jù)挖掘則是熱點之一。數(shù)據(jù)挖掘在醫(yī)院管理中的應用將會涉及醫(yī)療及管理的各個部分及層面,數(shù)據(jù)挖掘將形成系統(tǒng),并通過廣泛深入的數(shù)據(jù)挖掘產生醫(yī)療方案數(shù)據(jù)庫,為合理診斷、完善臨床路徑,提供有效幫助;通過數(shù)據(jù)挖掘分析達到人力資源合理配置;通過數(shù)據(jù)挖掘為區(qū)域性衛(wèi)生系統(tǒng)構建提供有效依據(jù)等。

篇6

關鍵詞:網絡數(shù)據(jù)挖掘;遺傳算法;查詢優(yōu)化

中圖分類號:TP274 文獻標識碼:A文章編號:1009-3044(2010)02-385-03

Genetic Algorithm in Web Mining

WANG Xin-xin

(School of Software, MinJiang University, Fuzhou 350011, China)

Abstract: With the continued increase in the usage of the World Wide Web (WWW), Web mining has been established as an important area of research. The information in the WWW are instructed and distributed on numerous Web Servers over wide geographical regions. How to optimize query among the huge data has become a problem. Genetic algorithms (GA) are seen to be useful for prediction and description, efficient search, and complex objective functions in the dynamic and complex environments of the web.

Key words: web data mining; genetic algorithm; query optimization

隨著萬維網使用越來越廣泛,網絡數(shù)據(jù)挖掘已成為一個重要的科學研究領域,得到越來越多的科研人員的重視。設計算法從已有信息中發(fā)掘新知識,根據(jù)用戶情況定制信息,學習用戶行為是網絡數(shù)據(jù)挖掘所面臨的主要問題。

在網絡工具中結合使用人工智能可消除網絡檢索中的人為因素。在客戶端和服務器端分別安裝智能系統(tǒng),使計算機通過Internet在Web服務器上進行高效的知識發(fā)掘。通過網絡服務器檢索知識已經引起機器學習、人工智能等領域學者的普遍注意。然而,網絡數(shù)據(jù)數(shù)量大、分布地域廣泛、類型差異大,要開發(fā)一個智能工具對這樣的數(shù)據(jù)進行檢索難度很大。

網絡挖掘技術在智能網絡的發(fā)展中發(fā)揮著重要的作用。網絡數(shù)據(jù)具有多樣性、分布廣泛等特點,按照現(xiàn)有的算法對網絡數(shù)據(jù)進行搜索具有相當局限性。與其他傳統(tǒng)的優(yōu)化算法相比,遺傳算法在搜索的過程中采用群體搜索方式,有利于達到全局最優(yōu)。遺傳算法可采用和進化出更優(yōu)的復合目標函數(shù),以便在動態(tài)而負責的網絡環(huán)境中實現(xiàn)高效的數(shù)據(jù)檢索和知識預測。A.Broder等人將網絡看作是一個由無數(shù)網頁組成的集合S,這些網頁構成鄰接關系,使用適應性函數(shù)f實現(xiàn)對這些網頁的評估[1]。

f:SR+

搜索引擎通過f函數(shù)的最優(yōu)值輸出搜索結果。通過激活基于遺傳算法的應用來使這網絡關聯(lián)的搜索更加高效。在本文第二節(jié)中主要對網絡數(shù)據(jù)挖掘進行討論,第三節(jié)介紹在網絡數(shù)據(jù)挖掘中使用遺傳算法的案例。

1 網絡數(shù)據(jù)挖掘

1.1 網絡數(shù)據(jù)的特點

S. Chakrabarti.指出網絡數(shù)據(jù)挖掘即是指在萬維網中應用數(shù)據(jù)挖掘技術來提取人們感興趣的模式和知識[2]。網絡數(shù)據(jù)挖掘由于網絡的自身特點已經成為一個獨立而重要的研究方向。對于網絡數(shù)據(jù)的特點可做以下歸納:未經分類,海量,分布性廣泛,多種媒體類型并存,半結構化,時間跨度大,維度高。

本文用圖1表示網絡。

在圖1中,結點表示網頁,有向邊表示超鏈接,這些超鏈接包含了重要的信息,有助于實現(xiàn)信息的高效檢索。例如,在圖1中,許多結點的鏈接都指向A結點,這就表明,結點A所代表的頁面很可能是某些領域的權威[3]。通常情況下,一個網站被描述成若干網頁的集合,在這個集合中,每個成員包含的對其他成員的連接數(shù)遠多于外部網頁。

按照網絡數(shù)據(jù)挖掘的深度層次,可以將網絡數(shù)據(jù)挖掘歸為以下幾類:

1)基于內容的數(shù)據(jù)挖掘:這種數(shù)據(jù)挖掘方式首先會對頁面中涉及的內容進行歸納總結,生成摘要。而頁面的內容種類很多,諸如文本、圖片、HTML代碼到圖和表等,根據(jù)這些內容對網頁進行分類,然后設計相應的算法對這些網頁進行檢索。對搜索結果進行數(shù)據(jù)挖掘同樣是網絡內容挖掘的一個組成部分。其中包括了對結果進行總結,將他們按照層次、標題和摘要中的短語對文檔進行歸類,以及對多個搜索引擎的搜索結果進行合成和重組。最后將對數(shù)據(jù)進行元數(shù)據(jù)挖掘。在信息檢索、文本挖掘、圖像挖掘和自然語言處理等方面的應用都屬于這些類型。

2)基于網絡信息結構的數(shù)據(jù)挖掘:這種挖掘方式涉及到通過萬維網中文檔之間的超鏈接來提取知識,這一做法往往能夠發(fā)現(xiàn)諸多網頁中某方面主題的權威頁面。結構挖掘方面的重要應用包括了查找重要的頁面、關聯(lián)頁面和主頁,識別重要的模式和它們之間的相互關系。然而,網頁的信息不單單來自于這個頁面本身所含的內容,還來自于其相鄰的頁面。在這里同時使用基于內容的挖掘和基于結構的挖掘可以達到效果互補的目的。

3)基于網絡數(shù)據(jù)用途的挖掘:此類數(shù)據(jù)挖掘從本質上說是對數(shù)據(jù)用途的挖掘。以網站為例進行說明:在客戶端,通過用戶的瀏覽歷史記錄來搜集數(shù)據(jù);在服務器端,通過請求日志搜集數(shù)據(jù)。通過這樣的數(shù)據(jù)挖掘,可以發(fā)現(xiàn)用戶訪問頁面的類型,訪問的時間和訪問持續(xù)的時間,以及這個頁面被引用的次數(shù)。此類信息有助于實現(xiàn)對頁面的整理,最終實現(xiàn)高效快速的信息檢索。在商業(yè)領域中使用這一技術可以實現(xiàn)客戶價值評估、產品潛力發(fā)掘、客戶行為預測等。

1.2 網絡數(shù)據(jù)挖掘的組成和方法

Etzioni. O.提出可將網絡數(shù)據(jù)挖掘的過程分成信息檢索、信息提取、知識集成和分析四個部分[4]。圖2對網絡數(shù)據(jù)挖掘的四個組成部分進行說明:

圖2

信息檢索(Information Retrieval,IR):信息檢索是自動對網絡中相關聯(lián)的文檔進行搜索,其過程主要包括對文檔的表示、索引和搜索。

信息提取(Information Extraction,IE):信息提取是在文檔被檢索之后,自動從中提取知識,這一過程主要實現(xiàn)對文檔中主要字段的語義進行識別。

信息集成(Generation):這一過程對已有的文檔進行歸納,得到概要知識。在這里將使用分類、規(guī)則關聯(lián)等模式識別和機器學習的技術來提取信息。例如,將一個網站的主頁和其他頁面區(qū)分開就是一個集成工作。

數(shù)據(jù)分析(Analysis):這一階段將對信息集成階段所生成的模式進行解釋說明。數(shù)據(jù)分析是一個數(shù)據(jù)驅動的問題,必須在數(shù)據(jù)充足的前提下才可能提取有用的信息。

1.3 網絡數(shù)據(jù)挖掘面臨的挑戰(zhàn)與局限性

由于網絡數(shù)據(jù)本身的特身,網絡數(shù)據(jù)挖掘面臨如下問題:1)由于網絡數(shù)據(jù)的匿名性和人為破壞而造成了數(shù)據(jù)的不可靠。2)存在噪聲。3)網絡數(shù)據(jù)是動態(tài)的,且存在時間短暫。3)網絡數(shù)據(jù)缺乏結構化處理,且類型各異。4)語義存在二義性。5)數(shù)據(jù)高度冗余。使用我們現(xiàn)有的工具和算法難以應付如此復雜的網絡數(shù)據(jù)。在下一節(jié)中提出在查詢中使用遺傳算法實現(xiàn)對網絡數(shù)據(jù)的搜索和數(shù)據(jù)挖掘的優(yōu)化。

2 在網絡數(shù)據(jù)挖掘中使用遺傳算法

遺傳算法和相關技術在網絡數(shù)據(jù)挖掘領域的應用包括信息查詢檢索、查詢優(yōu)化、文檔表示和分布式數(shù)據(jù)挖掘等[5],本文就信息查詢和查詢優(yōu)化方面對遺傳算法的應用進行闡述。

2.1 查詢和檢索

Marghny等人將遺傳算法用于元數(shù)據(jù)搜尋[6],使用這一方法對標準搜索引擎的搜索結果以一種優(yōu)化方式進行組合,生成更令用戶感興趣的頁面,在文獻[6]中對適配函數(shù)進行如下定義:

(a) 鏈接質量函數(shù)

n表示用戶輸入的關鍵字的個數(shù),#Ki表示在鏈接L中關鍵字Ki出現(xiàn)的次數(shù)。

(b) 頁面質量函數(shù)

m表示每個頁面中總的鏈接數(shù)。

(c) 平均質量函數(shù)

Fmax(P)和Fmin(P)分別表示采用遺傳算法后頁面質量函數(shù)的最大值和最小值。Fmax(P)的最大值是m*n,而Fmin(P)的最小值是0.

研究人員分別使用Yahoo,Google,AltaVista和MSN這四個搜索引擎針對不同的主題下載了300個頁面。在雜交點之后對選中的頁面交換雙親的鏈接,以實現(xiàn)雜交。

2.2 查詢優(yōu)化

查詢優(yōu)化使用一種基于適度回饋機制的技術。使用回饋的目的是通過使用相關和無關文檔集合來修改用戶的查詢,使用戶的查詢結果更接近于目標文檔。將之前的查詢得到的關鍵字添加到當前查詢中,同時將早期文檔中不相關的關鍵字刪除,通過這種辦法可以檢索到更多的關聯(lián)度更大的結果。

遺傳算法在查詢優(yōu)化上能夠發(fā)揮很大的作用。Z. Z. Nick和P. Themis.通過長期監(jiān)控用戶的瀏覽習慣創(chuàng)建用戶模型[7]。使用遺傳算法對用戶查詢進行修改,在這里文檔和查詢被表示成向量。每個個體被表示成查詢向量,用染色體表示關鍵字的權重或者關鍵字出現(xiàn)或未出現(xiàn)的頻率。M. Boughanem等人研制了一種新的查詢優(yōu)化技術,在這一技術中,通過使用遺傳算法生成多個查詢,對文檔的不同區(qū)域進行搜索,最終得到最優(yōu)查詢結果[8]。

Leroy等人在文獻[9]中解釋了在對上下文進行動態(tài)查詢時使用基于遺傳算法的優(yōu)化策略有助于提高偶然用戶的查詢效率。由于偶然用戶在Internet上進行查詢的時候只使用少數(shù)的關鍵字,這樣得到的查詢結果很少而且相當不精確。但是,大多數(shù)用戶在查詢時使用相同的搜索引擎,在某一主題的查詢方面,可總結大多數(shù)用戶的查詢行為,從中提取有價值的信息,從而對偶然用戶的查詢要求能夠進行更高效的處理。在遺傳編程的實現(xiàn)上,每個染色體被設計成一個查詢,它有五個位,每個位由一個適當?shù)年P鍵字填充。在計算染色體適應度時,將查詢編碼發(fā)送給查詢引擎,查詢引擎將返回十條最主要的文檔。

3 小結

為了充分發(fā)揮網絡的潛能,讓網絡查詢更加智能化,需要對查詢進行改進。在網絡數(shù)據(jù)挖掘及其相關領域的研究在查詢優(yōu)化方面發(fā)揮著十分重要的作用。網絡數(shù)據(jù)挖掘是一個快速發(fā)展的領域,在這個領域,研究人員提出各種方法對計算方法進行改進。在該文中,闡述了網絡數(shù)據(jù)挖掘過程、組成、特點以及網絡數(shù)據(jù)挖掘所面臨的挑戰(zhàn)。詳細討論了使用遺傳算法對網絡數(shù)據(jù)挖掘中不同問題的解決方法。

雖然使用遺傳算法對網絡數(shù)據(jù)進行挖掘很有發(fā)展?jié)摿?但是目前這方面的應用和相關文獻還比較有限,為研究人員的進一步研究留下很大的空間。

參考文獻:

[1] Broder A,Kumar R,Maghoul F,Raghavan P,Rajagopalan S,Stata R,Tomkins A,Wiener J.Graph structure in the Web[C].In Proceedings of the Ninth International World Wide Web Conference.Elsevier,2000.

[2] Chakrabarti S.Mining the Web:Discovering Knowledge from Hypertext Data[M].Morgan Kaufmann,2002.

[3] Kleinberg M.Authoritative sources in hyperlinked environment[J].In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms,1998.

[4] Etzioni.,O."The World Wide Web:Quagmire or gold mine?"[J].Communications of the ACM 1996,39(11):65-68.

[5] Pal,S.K.,V.Talwar,et al."Web mining in soft computing framework:Relevance,state of the art and future directions"[J].IEEE Transactions Neural Networks 2002,13(5):1163-1177.

[6] Marghny,M.H.and A.F.Ali.Web mining based on genetic algorithm[J].In Proceedings of ICGST International Conference on Articial Intelligence and Machine Learning(AIML-05),2005.

[7] Nick Z Z,Themis P.Web search using a genetic algorithm[J].IEEE Internet Comput,2001,5(2):18-26.

篇7

關鍵詞:隱私保護;數(shù)據(jù)挖掘;數(shù)據(jù)庫應用

0、引言

隨著網絡技術和通信技術的日益成熟以及網絡通信帶寬的不斷增加,越來越多的數(shù)據(jù)在網上進行和交換,豐富的數(shù)據(jù)資源一方面加大了數(shù)據(jù)分析和數(shù)據(jù)挖掘的需求,另一方面,數(shù)據(jù)資源的隱私保護問題給數(shù)據(jù)挖掘提出了新的挑戰(zhàn)。

1 隱私保護中的關鍵問題

1.1 隱私

隱私是指個人、機構等實體不愿意被外部知曉的信息[1]。比如,個人的行為模式、興趣愛好、健康狀況、公司的財務狀況等。個人隱私即為數(shù)據(jù)所有者不愿意被披露的敏感信息,如個人的收入水平、健康狀況、興趣愛好等。由于人們對隱私的限定標準不同,對隱私的定義也有所差異。一般來說,任何可以確認特定個人的,但個人不愿意披露的信息都可以稱為個人隱私。

1.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效地、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識[2]。數(shù)據(jù)挖掘可以對得到的數(shù)據(jù)庫查詢結果進行高效、智能化的處理,從中自動獲取先前未知的模式和信息。但是,倘若毫無限制地進行挖掘,必然會對一些隱私數(shù)據(jù)造成侵犯。從本質上說,數(shù)據(jù)挖掘是研究如何利用數(shù)據(jù)庫中現(xiàn)有的數(shù)據(jù)推導出未知的數(shù)據(jù),而隱私保護則是防止用戶推出敏感數(shù)據(jù)。形象地說,數(shù)據(jù)挖掘是進攻,而隱私保護則是防守。

1.3 隱私保護度量標準

隱私保護技術在保護隱私的同時,還要兼顧應用價值和計算開銷。綜合起來,隱私保護技術的度量標準有以下三個方面:

(1)隱私保護度。 一般通過數(shù)據(jù)隱私的披露風險來反映,披露風險越小,隱私保護度越高[3]。

(2)數(shù)據(jù)質量/服務質量。在數(shù)據(jù)中,數(shù)據(jù)質量是指數(shù)據(jù)的可用性,數(shù)據(jù)的可用性越高,數(shù)據(jù)質量越好。一般采用信息丟失率(即信息扭曲度)[4]來衡量數(shù)據(jù)質量的好壞。

(3)算法性能。一般利用時間復雜度對算法性能進行度量。例如,時間復雜度為O(k)的近似k-匿名算法,顯然優(yōu)于復雜度為O(klogk)的近似算法。

2 數(shù)據(jù)隱私保護技術

在上述度量標準的基礎上,下面開始對幾種主流的數(shù)據(jù)隱私保護技術進行介紹和分析。

2.1 基于匿名的隱私保護技術

匿名技術是隱私保護中廣泛使用的技術,通過隱藏或不收集用戶的身份敏感信息,允許用戶提交數(shù)據(jù)而且不暴露自己的身份[5]。因其處理簡單,在數(shù)據(jù)庫應用中較容易使用。然而通過匿名技術收集的數(shù)據(jù)難以保證質量,因為在沒有身份確認的情況下大量用戶會提交無用的隨機數(shù)據(jù)。并且系統(tǒng)容易受到競爭對手的攻擊。例如一個公司在數(shù)據(jù)庫系統(tǒng)中輸入大量的偽造數(shù)據(jù)來使自己生產的產品獲得更多的推薦。因此在數(shù)據(jù)庫應用中確認用戶的身份是十分必要的。

2.2 基于關聯(lián)規(guī)則的隱私保護技術

關聯(lián)規(guī)則挖掘是一種典型的數(shù)據(jù)挖掘方法,最早由Agrawal等人提出。關聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫中的項目或屬性間的有趣關系。這些關系是預先未知的和被隱藏的,也就是說不能通過數(shù)據(jù)庫管理系統(tǒng)所提供的邏輯操作或統(tǒng)計的方法得出。現(xiàn)有的各種關聯(lián)規(guī)則挖掘算法大致可分為搜索算法、層次算法、數(shù)據(jù)集劃分算法、抽樣算法等。關聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘中最重要的方法之一,已經也在隱私保護方面取得了一定的研究成果,可以利用到基于關聯(lián)規(guī)則的數(shù)據(jù)服務中。關聯(lián)規(guī)則中隱私保護的基本策略有數(shù)據(jù)干擾和查詢限制兩大類[6]。

數(shù)據(jù)干擾策略就是對原始數(shù)據(jù)按照一定的規(guī)則進行預變換,然后在經過干擾的數(shù)據(jù)上運行數(shù)據(jù)挖掘算法,得到所需的模式和規(guī)則。

查詢限制策略則是通過數(shù)據(jù)隱藏等方式來改變特定規(guī)則的支持度和置信度,然后用概率統(tǒng)計的方法或者分布式計算的方法得到所需的挖掘結果。

2.3 基于協(xié)同過濾的隱私保護技術

協(xié)同過濾推薦技術基于相似用戶群的興趣向目標用戶產生推薦,是當前數(shù)據(jù)庫服務中最成功、使用最廣泛的推薦技術之一。它只依賴于用戶對項目的評分矩陣,因此對于各種特定應用都有很好的適應性,可提高數(shù)據(jù)應用系統(tǒng)的可擴展性和推薦質量。與其他數(shù)據(jù)挖掘技術一起,在協(xié)同過濾算法中加入隱私保護機制近年來引起了越來越多的學者的研究興趣,是一個嶄新的領域,需要得到更多的關注。目前協(xié)同過濾中隱私保護技術基本可以分為基于密碼學的方法和數(shù)據(jù)變換兩大類[7]。

基于密碼學的方法是通過對原始數(shù)據(jù)進行加密處理的方法。安全多方計算是分布式環(huán)境下的一種加密方法,是目前數(shù)據(jù)服務協(xié)同過濾中最行之有效的隱私保護方法。

數(shù)據(jù)變換是對原始數(shù)據(jù)進行變換處理的方法。Clifton等人討論了幾種防止對數(shù)據(jù)過分挖掘的方法,主要包括對數(shù)據(jù)增加噪聲、消除數(shù)據(jù)中的附加信息、故意增加錯誤數(shù)據(jù)等。數(shù)據(jù)變換在協(xié)同過濾的隱私保護中得到了廣泛應用。

3 數(shù)據(jù)隱私保護技術的發(fā)展

在總結當前數(shù)據(jù)隱私保護現(xiàn)狀的前提下,對于未來數(shù)據(jù)隱私保護技術的發(fā)展,可以從如下幾點入手:

(1)高準確度的方法。盡可能完整地生成相應規(guī)則,而不遺漏重要規(guī)則,并且所生成規(guī)則的準確度也不應有明顯的降低。

(2)高性能的方法。提出具有優(yōu)良性能的相關方法,包括時間性能與空間開銷,以及網絡開銷。

(3)適用于分布環(huán)境的方法。隨著網絡技術的發(fā)展,如何在分布式環(huán)境下進行各種隱私保護的數(shù)據(jù)挖掘,也將是一個重要的研究方向。

4 結束語

本文綜述了數(shù)據(jù)隱私保護技術研究的發(fā)展現(xiàn)狀,并分別對當前主流的三類隱私保護技術進行了分析總結,還對未來數(shù)據(jù)隱私保護技術的發(fā)展提出了幾點看法。然而數(shù)據(jù)隱私保護技術的研究仍然面臨著許多挑戰(zhàn),需要更深入的研究使其在實際系統(tǒng)中得到更多應用,真正有效保護用戶的信息和隱私安全。隨著信息技術的發(fā)展,數(shù)據(jù)庫系統(tǒng)的廣泛應用,數(shù)據(jù)庫服務中隱私保護技術也會得到更多的重視和研究。(作者單位:天津師范大學計算機與信息工程學院)

參考文獻:

[1] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應用的隱私保護研究綜述[J].軟件學報,2009,32(5):847-858.

[2] 華蓓,鐘誠.數(shù)據(jù)挖掘中的隱私保護技術進展分析[J].微電子學與計算機,2009,26(8):38-41.

[3] 田秀霞,王曉玲,高明,等.數(shù)據(jù)庫服務——安全與隱私保護[J].軟件學報,2010,21(5):991-1006.

[4] 朱勤,駱軼姝,樂嘉錦.數(shù)據(jù)庫隱私保護技術研究[J].東華大學學報(自然科學版),2006,32(5):21-25.

[5] 王平水,王建.匿名化隱私保護技術研究綜述[J].小型微型計算機系統(tǒng),2011,32(2):248-252.

篇8

【關鍵詞】可視化 數(shù)據(jù)挖掘 技術分析

傳統(tǒng)的數(shù)據(jù)挖掘技術在應用過程中,應用者是無法觀察到數(shù)據(jù)挖掘的過程,只能夠獲得結果,在數(shù)據(jù)分析與挖掘的過程中使用者并不能直觀的觀察過程,其往往會導致使用者更與單一性的分析數(shù)據(jù)挖掘結果,失去數(shù)據(jù)挖掘的意義??梢暬瘮?shù)據(jù)挖掘技術結合了計算機與用戶的視覺感受,是一種能夠直觀觀察的數(shù)據(jù)挖掘方式,在數(shù)據(jù)挖掘過程為用戶提供直觀性的信息數(shù)據(jù),便于用戶交互流量數(shù)據(jù),從而極大程度提升數(shù)據(jù)挖掘的效率、準確性、有效性,獲得更有使用價值意義的數(shù)據(jù)結果。

1 可視化及數(shù)據(jù)挖掘的含義

所謂的可視化,也就是指人借助視覺觀察并在思維中形成客觀事物影像的過程,這是一種心智處理的過程。可視化能夠提升人們對事物的觀察準確性并形成一個完整的整體概念。可視化結果能夠便于人們理解和記憶,并且對于信息的表達方式、處理方式是其他方式無法替代的。可視化技術普遍是以人所習慣的圖形、圖像為工具融入到信息處理技術當中,主要是將信息化數(shù)據(jù)以更加直觀的方式讓人所接受和理解。通過仿真化、形象化、模擬化等全新技術方式重現(xiàn)出來??梢暬粌H可以以客觀的現(xiàn)實展現(xiàn)數(shù)據(jù)內容,還可以為使用者提供富有規(guī)律、客觀、真實的數(shù)據(jù)信息。數(shù)據(jù)挖掘主要是指借助檢測和分析數(shù)據(jù),獲得更多潛在的有使用價值的信息。數(shù)據(jù)挖掘的定義主要分為狹x與廣義。狹義的數(shù)據(jù)挖掘主要是按照已經處理過或分析過的數(shù)據(jù),從當中提煉出有使用意義的信息數(shù)據(jù),從廣義上分析,主要是在數(shù)據(jù)庫當中分析出富有應用價值的數(shù)據(jù)信息??梢暬瘮?shù)據(jù)挖掘對于當前許多企業(yè)而言均有著顯著的應用意義,尤其是在大數(shù)據(jù)時代下,數(shù)據(jù)局逐漸成為現(xiàn)代化企業(yè)分析市場需求、掌握企業(yè)客戶群體的主要手段。

2 可視化數(shù)據(jù)挖掘的提出

由上述分析可以發(fā)現(xiàn),可視化技術與數(shù)據(jù)挖掘技術本質上是兩個不同的領域,但是都與計算機技術有一定程度的關聯(lián)性。數(shù)據(jù)挖掘的過程需要可視化技術的支持,可視化分析本身也是數(shù)據(jù)挖掘的一個過程。其中,可視化主要是指將某一些無法看見的或抽象的事物通過能夠看見的圖像或圖形可視化出來;可視化主要是采用計算機創(chuàng)建相應的圖形,從而理解哪些大量、復雜、無需的數(shù)據(jù)信息??梢暬瘮?shù)據(jù)挖掘主要有三個階段,數(shù)據(jù)準備、模型生成、知識使用以及流程可視化。

數(shù)據(jù)準備:數(shù)據(jù)的準備階段主要是借助可視化數(shù)據(jù)挖掘技術將數(shù)據(jù)預處理的過程展現(xiàn)出來,簡單而言,就是將復雜、大量的原始數(shù)據(jù)通過某種規(guī)律進行展現(xiàn)和規(guī)劃,這里所致的可視化技術主要是包括數(shù)據(jù)的轉換、丟失值得處理、數(shù)據(jù)的裁剪以及數(shù)據(jù)的采樣等;生成模型:生成模型這一過程中主要是將目標數(shù)據(jù)庫通過數(shù)據(jù)挖掘操作技術細化數(shù)據(jù)挖掘每一個細節(jié)、過程,并將其展現(xiàn)出來。其中主要包括模型的選擇、參數(shù)的設計、數(shù)據(jù)的訓練集、數(shù)據(jù)的挖掘細節(jié)以及結果的儲存等過程;數(shù)據(jù)使用。在數(shù)據(jù)使用這一階段中,可視化數(shù)據(jù)挖掘技術的操作目的主要是把數(shù)據(jù)挖掘的結果通過某種可視化方式展現(xiàn)出來,例如將結果通過樹形圖形展現(xiàn)出來,從而為數(shù)據(jù)使用者提供更加真實、可靠、完整的數(shù)據(jù)分析結果。普遍狀況下,數(shù)據(jù)挖掘的結果抓喲分為分類與關聯(lián)兩種,其都是以人類視覺能容易接受的方式展現(xiàn);流程的可視化。數(shù)據(jù)挖掘的流程可視化最終目的是將數(shù)據(jù)挖掘的整個過程以某種可視化方式顯示出來,讓用戶看懂,這也是為知識分析師、企業(yè)管理者提供更多依據(jù)進行決策和分析。

3 可視化數(shù)據(jù)挖掘的主要技術分析

可視化數(shù)據(jù)挖掘的主要技術主要是以下四種:1、標準2D與3D技術。這一技術主要是用于統(tǒng)計應用,但是不是能應用于多維數(shù)據(jù)。主要是借助條形圖、柱形圖和餅圖等常用的標準2D、3D技術,這也是可視化的主要方式和結果;2、分層技術。分層技術的基本意義就是按照層次的特征,將多維數(shù)據(jù)空間劃分為多個子空間,并按照各個層之間的關聯(lián)性,將子空間以層次的結構形式重新進行組建,并以圖形的形式顯示。分層技術主要依據(jù)層次軸、雙曲線、錐形圖等時機方式進行描述;3、幾何變換技術。幾何變換技術主要是對數(shù)據(jù)集進行降維處理。其基本意思就是借助投影、映射將多維數(shù)據(jù)轉變?yōu)?D、2D的形式,準便成為人視覺所能夠理解的投影。幾何變換技術適用于多維數(shù)、低數(shù)據(jù)量的數(shù)據(jù)庫。其實施方式主要有平行坐標法與投影追蹤等;4、面向像素技術。面向像素技術主要是分析像素點在屏幕當中的分布狀況,其能對于一些數(shù)據(jù)量龐大的數(shù)據(jù)庫進行細致的分析,進而獲得數(shù)據(jù)的整體結構和分布狀況。因為面向像素技術分析的是像素點,所以其能夠按照分析目標的不同,選擇不同的排列方式,其應用方式主要是遞歸技術與數(shù)據(jù)管道技術。

例如,在信貸方面的應用中,信貸數(shù)據(jù)的挖掘和普通數(shù)據(jù)挖掘不相同,主要是統(tǒng)計和挖掘一些信用度較高的用戶。金融行業(yè)的信貸欺騙行為不斷增多,這也為可視化數(shù)據(jù)挖掘技術的應用提供了更多的空間,借助挖掘技術防止信貸欺騙的發(fā)生,從而提高信貸企業(yè)的經濟利益。借助可視化數(shù)據(jù)挖掘技術,應用異常檢測與人工神經網絡的方式檢測信貸申請的過程,并借助Clementine軟件對所獲得的數(shù)據(jù)庫進行統(tǒng)一性分析和記錄,對具備信貸欠款和拖欠的信貸人統(tǒng)計到一起,并在信用貸款的申請中計算其可能存在的信用欺騙度,首先,是多次申請信貸的記錄;其次,個人或企業(yè)的經濟狀況以及信貸類型是否符合企業(yè)的記錄。對于一些偏離長條的行為進行記錄并標記,借助可視化的數(shù)據(jù)挖掘過程,決策者能夠更加準確的掌握是否能夠放貸于該個人或企業(yè)。

4 總結

綜上所述,在大數(shù)據(jù)時代環(huán)境下,做好數(shù)據(jù)挖掘工作有著非常明顯的作用和意義,假設如果無法完成良好的數(shù)據(jù)挖掘技術工作,便無法展現(xiàn)大數(shù)據(jù)的優(yōu)勢,導致缺乏針對性的數(shù)據(jù)信息,從而逐漸降低企業(yè)的競爭力。此外,伴隨著信息技術與計算機技術的不斷發(fā)展,數(shù)據(jù)挖掘技術必然會隨之創(chuàng)新,對此,就必須相關工作者及時掌握社會上全新的數(shù)據(jù)挖掘技術,并將其合理應用。

參考文獻

[1]耿學華,傅德勝.可視化數(shù)據(jù)挖掘技術研究[J].計算機應用與軟件,2006(02):85-87.

[2]段曉君,杜小勇,易東云.可視化數(shù)據(jù)挖掘技術及其應用[J].計算機應用,2000(01):54-56.

[3]張俊.可視化數(shù)據(jù)挖掘技術的研究與實現(xiàn)[J].重慶工商大學學報(自然科學版),2013(03):58-61+92.

篇9

關鍵詞:信息技術;數(shù)據(jù)挖掘;醫(yī)院管理;應用

中圖分類號:R954;F230 文獻標志碼:A 文章編號:1673-291X(2017)11-0186-02

一、醫(yī)院管理數(shù)據(jù)挖掘應用過程

1.確定挖掘對象。醫(yī)院管理工作是一個復雜的系統(tǒng),涉及到醫(yī)生、患者、財務和后勤保障等多個方面,使用數(shù)據(jù)挖掘技術應當確定挖掘的對象和具體的內容,圍繞著具體問題和具體目標開展數(shù)據(jù)挖掘工作。否則數(shù)據(jù)挖掘工作是不可停止和無法有效預測的。盲目進行數(shù)據(jù)挖掘,不僅難度較大,而且難以評價其有效性。

2.做好準備工作。圍繞著挖掘對象,還應當確定需要哪些數(shù)據(jù)支持,從可供挖掘的數(shù)據(jù)資源中篩選出對問題或目標有價值的數(shù)據(jù)源,保證挖掘篩選出的數(shù)據(jù)信息對解決問題有價值。在確定選擇數(shù)據(jù)的基本標準后,還要對數(shù)據(jù)進行預先處理,著力做好數(shù)據(jù)清洗工作,消除可能存在的數(shù)據(jù)冗余和數(shù)據(jù)值不一致問題,避免錯誤數(shù)據(jù)的存在,著重保證最終測量結果的準確性。通常數(shù)據(jù)準備階段在數(shù)據(jù)挖掘中占有重要的工作量,數(shù)據(jù)挖掘的時間主要消耗在準備階段。

3.建立分析模型。建立數(shù)據(jù)分析模型是數(shù)據(jù)挖掘工作的核心,應當從數(shù)據(jù)分析階段開始,就要為最終的數(shù)據(jù)模型選擇確定變量,從數(shù)據(jù)庫中的原始數(shù)據(jù)信息中找出相應的數(shù)據(jù)集合,然后進行必要的數(shù)據(jù)轉換,最后得到需要的變量。數(shù)據(jù)分析模型的建立應當保證其精確性、可理解性,以及發(fā)揮出性能方面的作用。

4.數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)模型,對數(shù)據(jù)庫中的信息進行換算篩選,這一過程主要通過計算機自動完成,最終要圍繞篩選出的數(shù)據(jù)信息,對挖掘結果進行評估和解釋工作,使數(shù)據(jù)信息得到有效應用,從而形成關于醫(yī)院管理的新知識。

5.數(shù)據(jù)呈現(xiàn)。在數(shù)據(jù)挖掘處理后,需要對數(shù)據(jù)挖掘工作獲得的新知識進行重新的組織,把新的管理方式以簡單的方式呈現(xiàn)給醫(yī)院的管理人員,使新知識在醫(yī)院管理中得到有效的利用。

二、醫(yī)院管理數(shù)據(jù)挖掘基本方法

1.數(shù)據(jù)描述方法。數(shù)據(jù)挖掘的主要應用方向在于挖掘出醫(yī)院數(shù)據(jù)信息庫中潛藏的和被忽略的具體細節(jié)數(shù)據(jù)。首先,采用數(shù)據(jù)挖掘的描述方法可以找到潛藏在醫(yī)院數(shù)據(jù)庫中的各種數(shù)據(jù)信息,實現(xiàn)醫(yī)療數(shù)據(jù)的分類匯總目標。其次,可以把醫(yī)院數(shù)據(jù)庫中的數(shù)據(jù)信息按照不同的特征予以分類處理,實現(xiàn)數(shù)據(jù)的一般與個別的有效對比,從而用個別數(shù)據(jù)更好進行醫(yī)學研究和指導醫(yī)院管理工作。例如,數(shù)據(jù)描述法可以用來確定不同患者的不同醫(yī)療需求類型,通過對患者年齡、性別、職業(yè)、地區(qū)等特征數(shù)據(jù)的采集,能夠掌握不同類型患者的醫(yī)療需求,從而采用有針對性的措施來切實提高對患者的服務質量,切實解決患者就醫(yī)存在的瓶頸問題,不斷提高患者的就診效率。

2.聚類分析方法。聚類分析的主要做法對同一類數(shù)據(jù)的相似性進行分析,在同類的內部找出數(shù)據(jù)的相似與差異性,它的主要目的是盡可能的綜合縮小數(shù)據(jù)之間的距離,或是同一類數(shù)據(jù)中的相似性進行放大,從而得出同類數(shù)據(jù)之間的異同。例如,數(shù)控挖掘可以廣泛的應用到醫(yī)生評價中,醫(yī)院管理部門可以將患者對醫(yī)生的選項轉換成相應的分值,從而找出患者對醫(yī)生專業(yè)水平、職業(yè)道德、處置措施等方面的問題。在剔除不全面的評價信息后,就可以得到所有病人對醫(yī)生的基本態(tài)度,如果對醫(yī)生的評價過低,說明醫(yī)生的工作存在著需要改進的地方,這樣可以得到更精準的評價。

3.關聯(lián)分析方法。關聯(lián)分析主要目的是在散亂的數(shù)據(jù)信息中找出數(shù)據(jù)之間的關聯(lián)性,從而分析量與量之間的變化關系,進一步達到對數(shù)據(jù)的合理控制目的,通過量與量之間關系的確定,可以形成描述對象之間關系的報告,進而對醫(yī)院的具體工作項目之間的關聯(lián)性進行評估,為順利的實現(xiàn)醫(yī)院部分與部分之是的改革提供必要依據(jù),促進醫(yī)院管理秩序的進一步提高。例如,為了提高醫(yī)院質量管理水平,可以對患者的住院天數(shù)、診療費用、方案等進行綜合的對比,找出不同類別數(shù)據(jù)之間的關聯(lián)性,在保證主要指標不變的前提下,盡可能的優(yōu)化某種數(shù)據(jù),從而找出診療質量對患者承擔費用、住院時間的影響。再如,探究滅菌與消毒效果之間的關系,可以提高手術室感染工作的管理,切提高無菌器械的質量,并且建立起診療環(huán)境的實時監(jiān)控系統(tǒng),全面提高診療環(huán)境監(jiān)控質量。

4.時序模式分析。以時間作為基本的標準對各種數(shù)據(jù)信息進行分析,對數(shù)據(jù)中重復出現(xiàn)和重復發(fā)生的現(xiàn)象進行分析,這種模式主要用來對醫(yī)院管理的趨勢進行分析,從而達到合理預判醫(yī)院管理工作的時效性,未來可能遇到的問題等。例如,通過對患者的入院季節(jié)性分析,就可以用來預測門診的階段性就診人數(shù)據(jù)的變化,從而更好的分配醫(yī)療資源,使醫(yī)院管理者在合理預判的基礎上,能夠多儲備季節(jié)性的藥品,以防備接下來可能到來的某種疾病的高發(fā)期,進一步起到積極預防和有備無患的效果,而且還能提高患者的滿意度。

三、醫(yī)院管理數(shù)據(jù)挖掘應用方向

1.實現(xiàn)各種管理功能。數(shù)據(jù)挖掘可以廣泛應用于醫(yī)院管理的各個方面,全面提高醫(yī)院管理的水平,可以說,數(shù)據(jù)挖掘技術在醫(yī)院管理方面有著無限的應用廣度。首先,它可以用來進行全面的數(shù)據(jù)統(tǒng)計工作,運用先進的數(shù)學統(tǒng)計方法對醫(yī)院日常運行中產生的所有數(shù)據(jù)信息進行積累,并且從定量和定性角度對數(shù)據(jù)進行研究。例如,在影像醫(yī)學中可以對病人的影像學數(shù)據(jù)進行分析,對病人的被監(jiān)護情況進行統(tǒng)計,找出病人的共同特殊以便對癥治療。其次,可以用來發(fā)現(xiàn)新知識。在醫(yī)院日常管理中有大量的數(shù)據(jù)信息是隱含的和不易被察覺的,通過數(shù)據(jù)關聯(lián)的分析方式,可以發(fā)現(xiàn)某些治療效果的共同特征以及個性特征,從而起到對患者的提醒作用,指導病人對各種情況進行有效預防,并總結出更為科學的治療方案。

2.實現(xiàn)對象有效管理。數(shù)據(jù)挖掘技術可以用于專門提升醫(yī)院某項工作的管理水平,全面提升醫(yī)院各種資源的使用效率,針對醫(yī)院存在的具體問題,從數(shù)據(jù)分析的角度予以有效解決。例如,在時間管理上,醫(yī)院管理可以通過數(shù)據(jù)分析的方式掌握年時間范圍內,不同月份、每天不同時段病人的就診情況,從而制訂科學的導診方案以及網上預約方案,實現(xiàn)對醫(yī)院資源和時間的有效分配。再如,醫(yī)院通過對各種數(shù)據(jù)信息的不同時空順序的排列,可以對各科室、各部門、醫(yī)療器材的使用、更換維修等得到更科學的把握,有助于降低醫(yī)院行動的成本開銷,找出日常管理中存在的漏洞,從而全面提高日常管理水平,實現(xiàn)對醫(yī)院工作的細化和標準化目標。

3.數(shù)據(jù)挖掘應用方向。數(shù)據(jù)應用方向主要可以用在以患者為中心的診療數(shù)據(jù)挖掘上,以可以用在以醫(yī)院為中心的管理信息的挖掘上。首先,在診療信息的挖掘上,可以對患者的各種診療信息進行挖掘,以便更好的發(fā)現(xiàn)病人的醫(yī)療規(guī)律,提高治療效率。其次,在醫(yī)院管理數(shù)據(jù)挖掘上,例如,可以通過對財務數(shù)據(jù)的重分析各種費用的比例,各科室的支出情況,全面實現(xiàn)對醫(yī)療資源的科學化管理。

四、醫(yī)院管理數(shù)據(jù)挖掘存在的問題

1.挖掘的時效性。醫(yī)院數(shù)據(jù)庫的規(guī)格相對較高,通過精密儀器測得的醫(yī)療數(shù)據(jù)信息更精確,可以說醫(yī)院數(shù)據(jù)信息的精確性相對更高,但是醫(yī)院數(shù)據(jù)挖掘工作的問題主要體現(xiàn)在時效性上,首先,醫(yī)院數(shù)據(jù)挖掘工作是否能夠定期開展成為制約數(shù)據(jù)挖掘效率的重要因素,其次,只有加快挖掘的速度,才能提高挖掘的知識量,為醫(yī)院科學管理提供可靠的數(shù)據(jù)依據(jù)。再次,數(shù)據(jù)挖掘速度較慢常會影響到管理的績效,無法滿足現(xiàn)代醫(yī)院管理工作需求。

2.挖掘工具問題??茖W先進的分析軟件是保證數(shù)據(jù)挖掘工作順利開展的重要前提和基礎。醫(yī)院數(shù)據(jù)挖掘的操作界面是否友好對數(shù)據(jù)挖掘的質量有著重要的影響。當前,還缺少針對醫(yī)院管理工作的專門數(shù)據(jù)挖掘操作系統(tǒng),還沒能根據(jù)醫(yī)院的實際情況開發(fā)出符合醫(yī)院需要的數(shù)據(jù)挖掘軟件系統(tǒng),從而影響了數(shù)據(jù)挖掘的質量與效果。當前的數(shù)據(jù)挖掘工具主要有IM智能挖掘器、SPSS軟件、Red Brick軟件等,這些挖掘器在實際挖掘過程中很難對算法進行優(yōu)化處理,可供醫(yī)院數(shù)據(jù)挖掘使用的范圍相對有限。

五、醫(yī)院管理數(shù)據(jù)挖掘的展望

1.促進醫(yī)療改革深入進行。當前醫(yī)療改革的瓶頸問題就是如何合理分配有限的醫(yī)療資源,隨著數(shù)據(jù)挖掘技術的廣泛使用,可以更好的挖掘現(xiàn)有醫(yī)療資源,使醫(yī)療資源得到充分的利用。首先,隨著網絡信息技術和人功智能技術的不發(fā)展,醫(yī)院管理日益向著信息化的方向發(fā)展,在這一主流趨勢的影響下,醫(yī)院管理數(shù)據(jù)挖掘技術會越來越先進,發(fā)揮的作用不斷加大,會使更多隱藏的數(shù)據(jù)信息發(fā)揮出優(yōu)化管理的作用,從而使醫(yī)院管理更加專業(yè)化、標準化。其次,醫(yī)院之間會逐步縮小差距,實現(xiàn)醫(yī)療資源的優(yōu)化分配,醫(yī)院管理從此更少的受到人為因素的干擾。再次,便管理決策工作將更科學,從而極大提高醫(yī)院管理的效率,使醫(yī)院向著良好的軌道穩(wěn)步發(fā)展。

2.醫(yī)院管理專業(yè)化。信息技術目前已經滲透到醫(yī)院管理的方方面面,隨著醫(yī)院更多的部門、具體工作項目與信息技術的相聯(lián),使診斷和臨床救治工作進一步得到細化。其次,在信息化管理的背景下,醫(yī)院人力資源的配置也會更加優(yōu)化。這使得醫(yī)院管理工作越來越依靠先進的管理理念和專業(yè)化的管理方式,使醫(yī)院日益向著專業(yè)化方向發(fā)展。因此,當前醫(yī)院管理工作的重點主要是加快醫(yī)院信息化建設的步伐,只有盡快的建立了完善的醫(yī)院管理信息系統(tǒng),才能提高醫(yī)院管理工作的效率,全面實現(xiàn)醫(yī)院管理的專業(yè)化目標。

結語

實現(xiàn)數(shù)據(jù)挖掘技術在醫(yī)院管理中的有效應用,應當在醫(yī)院構建科學的數(shù)據(jù)庫系統(tǒng),對醫(yī)院數(shù)據(jù)庫模型進行科學必要的分析,進而實現(xiàn)對醫(yī)院數(shù)據(jù)庫信息的有效總結,以便提高醫(yī)院數(shù)據(jù)庫資源的利用率和有效性。在醫(yī)院管理中使用數(shù)據(jù)挖掘技術,還需要不斷的對數(shù)據(jù)庫的數(shù)據(jù)信息予以修正,以提高數(shù)據(jù)利用的準確率,發(fā)揮出數(shù)據(jù)挖掘的實際作用。

參考文獻:

篇10

一、數(shù)據(jù)挖掘技術在軟件工程中的應用過程

數(shù)據(jù)挖掘技術被稱作數(shù)據(jù)庫中的知識,它發(fā)展的基礎是數(shù)據(jù)庫。在發(fā)展過程中,把理論的研究逐漸的轉變?yōu)閷嶋H的應用,并將其與其他的領域共同結合,以更好地發(fā)揮其應有的作用。軟件工程概念在1967年出現(xiàn),主要通過了維護和構建,得出實用有效的軟件,為客戶開發(fā)出其所需求的產品。未來,數(shù)據(jù)挖掘技術在軟件工程當中將發(fā)展越來越迅猛。

二、挖掘技術的概述

(一)執(zhí)行記錄

主要對程序的路徑做出了分析和總結,找出了程序中的關聯(lián)關系。本質是跟蹤執(zhí)行路徑,來實現(xiàn)它的目的,它的作用維護程序、了解程序。執(zhí)行記錄過程中,首先先分析系統(tǒng),對軟件的變量進行一系列的記錄,最后過濾目標來得到信息,成為了系統(tǒng)功能的模板。

(二)漏洞的檢測

漏洞的檢測是為了找出軟件中存在的一系列問題,能最快時間的修復,確保了軟件的可靠性。數(shù)據(jù)挖掘技術一般應用在漏洞檢測方面,要對軟件進行測試并且還要滿足客戶的需求,總結軟件測試完后的具體內容,最終來決定用某種測試方式進行測試,來制定相應的計劃;手機漏洞的數(shù)據(jù),對數(shù)據(jù)進行清理,對采取的數(shù)據(jù)進行分析,采取有關的數(shù)據(jù),把沒用的數(shù)據(jù)清理完成后,在對丟失的項目進行補救,轉換為數(shù)值表示。

還要選用適當?shù)臄?shù)據(jù)模型來進行訓練和驗證。選擇挖掘方式,讓它成為測試集,比較結果,找出結果最合理的方式。還要描述和分類軟件的漏洞,把漏洞數(shù)據(jù)用到軟件數(shù)據(jù)庫,把相應位置的漏洞找出來,進行進一步的分類。

(三)挖掘開源軟件

開源軟件的挖掘開放性等性質,所以對這種軟件的開發(fā),要和其他的軟件區(qū)別開來。在正常情況下,開發(fā)軟件,對參與報告等應用要有完整的記錄。開發(fā)人員組成社會網絡,因為它具有開放性,所以使開發(fā)的人員一直都在變化中進行。其次,還要對開源軟件進行動態(tài)性挖掘,方便地管理了開源項目。

(四)挖掘版本控制信息

主要保證了項目參與者和共同編輯的統(tǒng)一性,來更新全局。挖掘版本的應用方式,對變更信息挖掘找出不同模塊,以及系統(tǒng)之間存在的關系。挖掘技術的應用可以把系統(tǒng)的維護成本降低,避免后期的變換產生的漏洞,最終起到了維護的作用。

三、應用方法

(一)關聯(lián)法

關聯(lián)法的規(guī)則在于數(shù)據(jù)中的相關關聯(lián)和有趣的關聯(lián)。關聯(lián)法還具有兩個特征,第一個是支持度,第二個是置信度。

(二)分類法

分類法是對分類標號進行一系列的操作,前提是先建立起相對應的模型,對數(shù)據(jù)集進行描述之后來完成分類。判定樹法是主要的分類方法,包括了網絡分類法和支持向量機法等等。貪心算法是判定樹法的基礎,如果是樣本容量來進行分類的話,會導致出錯。

(三)聚類法

聚類法的應用是把數(shù)據(jù)分為多類,保證了數(shù)據(jù)的相似度,但是不同種類的對象有很明顯的特征。劃分法、基于密度法、模型法、網格法、層次法是聚類法的主要內容。

(四)克隆代碼數(shù)據(jù)挖掘

軟件工程中,克隆代碼的檢查是原始數(shù)據(jù)挖掘的需求,現(xiàn)在則有很多的方式,主要分為:文本對比成為基礎方式;標識符作為基礎的方式。

第一類應用了計算機的對比程序對語句新型判斷的過程,在改進中是對字符匹配效率提升,主要通過函數(shù)技術進行優(yōu)化,所用的工具是Duploc。第二類是把標示符號用作最基礎的方式,應用的工具有CCFiinder和DUP。

(五)計算機軟件數(shù)據(jù)檢索

它和克隆代碼是一樣的,也是計算機最原始的挖掘,它的挖掘過程主要有三類:據(jù)信息錄入、數(shù)據(jù)信息查找、數(shù)據(jù)信息內容查看。數(shù)據(jù)信息的錄入是指對檢索的信息進行錄入而進行的過程;數(shù)據(jù)信息查找是指當客戶需要查找數(shù)據(jù)時,把數(shù)據(jù)信息關鍵詞輸入到錄入框,點擊確定來進行對數(shù)據(jù)的查找。數(shù)據(jù)信息的查看是指客戶可以根據(jù)自己所需要的對數(shù)據(jù)進行在線查看或者下載查看,在導出數(shù)據(jù)過程后,會形成歷史記錄,對客戶查找的數(shù)據(jù)信息進行簡單的保存。