av色综合网,成年片色大黄全免费网站久久,免费大片黄在线观看,japanese乱熟另类,国产成人午夜高潮毛片

公務(wù)員期刊網(wǎng) 精選范文 數(shù)學(xué)建模聚類算法范文

數(shù)學(xué)建模聚類算法精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)學(xué)建模聚類算法主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)學(xué)建模聚類算法

第1篇:數(shù)學(xué)建模聚類算法范文

關(guān)鍵詞:數(shù)據(jù)挖掘;供應(yīng)商畫像;信用風(fēng)險(xiǎn)

0引言

在供應(yīng)商信用風(fēng)險(xiǎn)管理過程中,充分利用好大數(shù)據(jù)是企業(yè)占領(lǐng)市場(chǎng)、獲取利潤(rùn)的捷徑。將供應(yīng)商數(shù)據(jù)化,即構(gòu)建供應(yīng)商畫像是企業(yè)對(duì)供應(yīng)商信用進(jìn)行有效管理的重要手段,其目的是供應(yīng)商信用的全數(shù)據(jù)描述,根據(jù)價(jià)值細(xì)分供應(yīng)商,了解供應(yīng)商信用情況,制定精準(zhǔn)的供應(yīng)商管理方案,為供應(yīng)商信用管理提供支持。本文基于對(duì)供應(yīng)商的評(píng)價(jià)分析管理,通過對(duì)供應(yīng)商信息風(fēng)險(xiǎn)管理中大數(shù)據(jù)的挖掘、分析,提出供應(yīng)商畫像的概念,并以此為依據(jù)實(shí)現(xiàn)不同供應(yīng)商信用分級(jí)管理,同時(shí)提出業(yè)務(wù)和系統(tǒng)的改進(jìn)策略,以優(yōu)化供應(yīng)商之間及供應(yīng)商與電網(wǎng)企業(yè)之間的關(guān)系。在保證服務(wù)質(zhì)量的前提下,降低供應(yīng)鏈運(yùn)行成本,幫助電網(wǎng)企業(yè)建立競(jìng)爭(zhēng)優(yōu)勢(shì),獲得更多的客戶滿意度。

1國(guó)內(nèi)外數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀

數(shù)據(jù)挖掘技術(shù)是一種對(duì)電力企業(yè)信用管理決策提供支持的技術(shù),它主要是基于機(jī)器學(xué)習(xí)、人工智能、統(tǒng)計(jì)學(xué)等技術(shù)對(duì)大量的數(shù)據(jù)進(jìn)行處理,從而做出歸納性的推理,挖掘出數(shù)據(jù)中的潛在模式,并對(duì)供應(yīng)商的信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),從而幫助企業(yè)的決策者們及時(shí)調(diào)整市場(chǎng)策略以減少可能存在的風(fēng)險(xiǎn),做出盡可能少的錯(cuò)誤決策。從商業(yè)層面上來說,數(shù)據(jù)挖掘還可以描述為:按照企業(yè)既定的業(yè)務(wù)目標(biāo),對(duì)海量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索和分析,從而揭示隱藏的、未知的或者驗(yàn)證已知的數(shù)據(jù)的規(guī)律性,并進(jìn)一步將其模型化,用戶興趣模型也就應(yīng)運(yùn)而生。根據(jù)已有的數(shù)據(jù)對(duì)用戶信用風(fēng)險(xiǎn)進(jìn)行建模,并進(jìn)行規(guī)則抽取與提煉,得到用戶的畫像。國(guó)內(nèi)將數(shù)據(jù)挖掘的技術(shù)應(yīng)用在電信領(lǐng)域的成果案例也不少。比如李軍利用數(shù)據(jù)挖掘的算法對(duì)電信行業(yè)的客戶流失模型進(jìn)行建立與分析,針對(duì)不同種類的客戶分別進(jìn)行了不同模型的流失分析;段云峰、吳唯寧、李劍威等在數(shù)據(jù)倉(cāng)庫及電信領(lǐng)域的應(yīng)用中,運(yùn)用數(shù)據(jù)倉(cāng)庫的方法對(duì)電信行業(yè)的服務(wù)客戶進(jìn)行存儲(chǔ)管理;吳愛華在數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用研究中,應(yīng)用了數(shù)據(jù)挖掘的相關(guān)知識(shí)來研究數(shù)據(jù)挖掘算法在用戶關(guān)系管理中的應(yīng)用;葉松云在我國(guó)電信行業(yè)客戶流失管理的建模分析及應(yīng)用研究中,通過對(duì)電信行業(yè)的流失客戶進(jìn)行模型建構(gòu),通過管理這個(gè)流失模型來有效控制客戶的流失。目前南方電網(wǎng)企業(yè)和供應(yīng)商的信息交換處在一種繁雜的狀態(tài),電網(wǎng)企業(yè)可以對(duì)單個(gè)供應(yīng)商信用情況進(jìn)行信息的查詢,反饋,但很難通過獲得的信息對(duì)多個(gè)供應(yīng)商信用進(jìn)行有序、有效的管理。供應(yīng)商的管理缺乏直觀、可視化的手段和方法。通過建立供應(yīng)商模型可以將紛亂的數(shù)據(jù)進(jìn)行清洗和建模,提供進(jìn)一步的分析決策。

2基于大數(shù)據(jù)分析的電力企業(yè)供應(yīng)商信用風(fēng)險(xiǎn)管理

根據(jù)以上分析,在電力企業(yè)供應(yīng)商信用風(fēng)險(xiǎn)管理過程中,需要對(duì)收集到的供應(yīng)商數(shù)據(jù)進(jìn)行處理,進(jìn)行行為建模,以抽象出供應(yīng)商的標(biāo)簽,這個(gè)階段注重的是大概率事件,通過數(shù)學(xué)算法模型來排除供應(yīng)商的偶然行為,故需要運(yùn)用機(jī)器對(duì)供應(yīng)商的行為、偏好進(jìn)行猜測(cè),根據(jù)供應(yīng)商的關(guān)注點(diǎn)或投標(biāo)意向、投標(biāo)歷史、中標(biāo)情況等因素來判斷供應(yīng)商的忠誠(chéng)度、履約能力、信用等級(jí)等,并對(duì)供應(yīng)商行為進(jìn)行建模。簡(jiǎn)單來說,供應(yīng)商畫像就是通過算法計(jì)算等方式,用統(tǒng)一的標(biāo)準(zhǔn)衡量供應(yīng)商的表現(xiàn),并對(duì)未來發(fā)展進(jìn)行預(yù)測(cè),這是一種把單個(gè)分析集成化,把平面分析立體化的過程。可見,在供應(yīng)商信用風(fēng)險(xiǎn)管理過程中,應(yīng)結(jié)合供應(yīng)商屬性、行為、評(píng)價(jià)標(biāo)簽體系,充分研究數(shù)學(xué)算法模型,并應(yīng)用Python、R等工具建模推演,構(gòu)建供應(yīng)商評(píng)價(jià)模型,全面刻畫供應(yīng)商畫像。

2.1畫像構(gòu)建與數(shù)據(jù)分析

供應(yīng)商畫像模型旨在幫助管理供應(yīng)商、優(yōu)化投標(biāo)決策,因此畫像構(gòu)建的關(guān)鍵過程在于結(jié)合實(shí)際業(yè)務(wù)情況定性地選取投標(biāo)決策關(guān)心的供應(yīng)商評(píng)價(jià)指標(biāo),定量化評(píng)價(jià)指標(biāo),最后選取合適的評(píng)價(jià)維度給供應(yīng)商貼上標(biāo)簽,通過不同維度的標(biāo)簽還原供應(yīng)商的“畫像”。因此,數(shù)據(jù)處理和分析建模的過程應(yīng)該基于上述關(guān)鍵過程的指標(biāo)數(shù)據(jù)特征以及業(yè)務(wù)分析邏輯。現(xiàn)在針對(duì)供應(yīng)商畫像的研究還不算特別多,我們以流行的“用戶畫像”分析進(jìn)行對(duì)比,從而可以發(fā)現(xiàn)供應(yīng)商畫像和用戶畫像有何異同,從用戶畫像當(dāng)中又能尋找到什么可行的分析思路。圖1是用戶畫像的一般流程??梢园l(fā)現(xiàn)供應(yīng)商畫像與用戶畫像的建模過程本質(zhì)上都是數(shù)據(jù)收集-建模-畫像成型的過程,區(qū)別只是在于:首先,畫像構(gòu)建的目的不同,用戶畫像的目的是進(jìn)行精準(zhǔn)營(yíng)銷,而精準(zhǔn)營(yíng)銷的建模工作是要對(duì)用戶分類后對(duì)不同類別用戶的消費(fèi)行為進(jìn)行預(yù)測(cè)。而供應(yīng)商畫像的目的是為了精準(zhǔn)管理、精準(zhǔn)招標(biāo),建模工作是要對(duì)供應(yīng)商分類后對(duì)不同類別的供應(yīng)商進(jìn)行評(píng)級(jí)。其次,畫像的標(biāo)簽維度不同,標(biāo)簽維度的構(gòu)建同樣是從畫像構(gòu)建的目的出發(fā),用戶畫像關(guān)心的是用戶的購(gòu)買能力、行為特征、社交網(wǎng)絡(luò)等,供應(yīng)商畫像關(guān)心的是供應(yīng)商的商務(wù)狀況、產(chǎn)品質(zhì)量、信用狀況。(1)數(shù)據(jù)收集。通過訪談和調(diào)研搜集數(shù)據(jù),確定供應(yīng)商指標(biāo)的打分邏輯和統(tǒng)計(jì)口徑。(2)數(shù)據(jù)預(yù)處理。對(duì)收集到的數(shù)據(jù)進(jìn)行清洗,目前收集到的數(shù)據(jù)量非常小,且需要進(jìn)行整合、預(yù)處理,包括缺失值和異常值的處理、數(shù)據(jù)數(shù)量級(jí)的統(tǒng)一、后續(xù)分析所要進(jìn)行的標(biāo)準(zhǔn)化處理。在構(gòu)建供應(yīng)商畫像的現(xiàn)有數(shù)據(jù)中,資格評(píng)審涉及的商務(wù)與技術(shù)兩大維度的數(shù)據(jù)已經(jīng)根據(jù)權(quán)重進(jìn)行了打分,分?jǐn)?shù)的數(shù)量級(jí)為10以內(nèi),因此部分?jǐn)?shù)據(jù)只需要剔除不滿足資格評(píng)審的數(shù)據(jù)(表現(xiàn)為所有維度都為0值)以及數(shù)值超出權(quán)重的分值。履約評(píng)價(jià)的數(shù)據(jù)有物資合同簽訂及時(shí)率(0-100%)、一次性試驗(yàn)通過率(0-100%)、到貨及時(shí)率(0-100%)和不良行為記錄(分值范圍0.1-12)。對(duì)于這部分?jǐn)?shù)據(jù)需要根據(jù)權(quán)值進(jìn)行標(biāo)準(zhǔn)化,由于權(quán)值需要根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)一步確定,因此目前只需要將不良行為記錄的量化數(shù)值壓縮到與0-100%相同的范圍。(3)數(shù)據(jù)降維。目前的供應(yīng)商信用風(fēng)險(xiǎn)評(píng)級(jí)指標(biāo)過多,不能滿足供應(yīng)商畫像的特征提取與分類要求,需要進(jìn)行降維處理。擬采用關(guān)聯(lián)性分析和主成分分析降低指標(biāo)維度,同時(shí)最大化保留原有數(shù)據(jù)的信息。在資格評(píng)審中,商務(wù)基本面信息的數(shù)據(jù)涉及15個(gè)指標(biāo),技術(shù)能力更是高達(dá)10余個(gè),這些指標(biāo)反映的意義具有較強(qiáng)的關(guān)聯(lián)性(共線性)且在有限的數(shù)據(jù)量的情況下變量過多將會(huì)大大降低模型的自由度從而影響精確度,因此為了滿足后續(xù)的分類和擬合要求,必須要剔除冗余變量,對(duì)指標(biāo)進(jìn)行降維處理。(4)特征分類。結(jié)合業(yè)務(wù)理解初步確定分類個(gè)數(shù)(供應(yīng)商不同特征維度的級(jí)別個(gè)數(shù)),利用聚類分析算法對(duì)供應(yīng)商不同特征維度進(jìn)行分類,后續(xù)根據(jù)分類情況和數(shù)據(jù)特征適當(dāng)調(diào)整分類個(gè)數(shù)。在構(gòu)建標(biāo)簽之前,需要對(duì)供應(yīng)商進(jìn)行分類,由于目前的數(shù)據(jù)是不具有分類結(jié)果標(biāo)簽(y值),因此這是一個(gè)無監(jiān)督的分類問題,無法采用決策樹、神經(jīng)網(wǎng)絡(luò)等學(xué)習(xí)類模型;又因?yàn)槟壳皵?shù)據(jù)集的數(shù)據(jù)量非常少,需要大量訓(xùn)練數(shù)據(jù)的無監(jiān)督深度學(xué)習(xí)模型也不適用,因此,針對(duì)無監(jiān)督和小樣本的特點(diǎn),選用聚類分析解決分類問題。聚類試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集稱為一個(gè)“簇”。通過這樣的劃分,每個(gè)簇可能對(duì)應(yīng)一些潛在的概念(類別),如“財(cái)務(wù)狀況良好”、“技術(shù)能力強(qiáng)”等。不過,這些概念對(duì)于聚類算法而言事先是未知的,聚類過程僅僅能自動(dòng)形成簇結(jié)構(gòu),簇對(duì)應(yīng)的概念語義需要結(jié)合業(yè)務(wù)來把握和命名。常用的聚類算法有K均值算法、層次聚類算法等非常多,而針對(duì)現(xiàn)有的數(shù)據(jù),K-means算法適用的情景是:簇?cái)?shù)確定(同維度標(biāo)簽評(píng)級(jí)個(gè)數(shù)確定)且較少、數(shù)據(jù)量較大;而Hierarchicalclustering適用簇?cái)?shù)不確定(可能有一定范圍)、數(shù)據(jù)量相對(duì)大的情況。具體采用哪一種分類算法要根據(jù)數(shù)據(jù)情況以及業(yè)務(wù)分類要求和可視化要求而定。(5)分類結(jié)果檢驗(yàn)。通過計(jì)算該特征維度不同類別的供應(yīng)商的加權(quán)總分對(duì)分類后不同簇的供應(yīng)商的總分進(jìn)行統(tǒng)計(jì)上的顯著性檢驗(yàn)。(6)構(gòu)建畫像標(biāo)簽。結(jié)合對(duì)供應(yīng)商管理評(píng)級(jí)的業(yè)務(wù)理解,從數(shù)據(jù)層面分析該特征維度下不同簇的供應(yīng)商的區(qū)別,并增加語義內(nèi)容。

2.2設(shè)計(jì)供應(yīng)商畫像

根據(jù)行業(yè)經(jīng)驗(yàn)及領(lǐng)先實(shí)踐,通過對(duì)南網(wǎng)供應(yīng)商各類行為數(shù)據(jù)及外部數(shù)據(jù)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)挖掘,結(jié)合公司戰(zhàn)略、未來發(fā)展愿景還有指標(biāo)構(gòu)建的一般原則,將供應(yīng)商的綜合畫像構(gòu)建為六大一級(jí)指標(biāo),分別為供應(yīng)商資質(zhì)評(píng)價(jià)、供應(yīng)商履約運(yùn)行評(píng)價(jià)、企業(yè)風(fēng)險(xiǎn)信用評(píng)價(jià)、社會(huì)行為與責(zé)任、供應(yīng)商生態(tài)與供應(yīng)商創(chuàng)新。其中最重要的企業(yè)風(fēng)險(xiǎn)信用評(píng)價(jià)指標(biāo)包括企業(yè)基本風(fēng)險(xiǎn)(如企業(yè)人員變更頻率)、司法風(fēng)險(xiǎn)(開庭公告次數(shù)、法律訴訟次數(shù))、經(jīng)營(yíng)風(fēng)險(xiǎn)(稅務(wù)評(píng)級(jí)等級(jí)、股權(quán)質(zhì)押比率、動(dòng)產(chǎn)抵押比率、司法拍賣事件次數(shù)、欠稅信息次數(shù)、行政處罰次數(shù)、抽檢檢查合格比率)。

第2篇:數(shù)學(xué)建模聚類算法范文

關(guān)鍵字:計(jì)量地理學(xué);教學(xué)改革;用型人才培養(yǎng)

中圖分類號(hào):G640文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-2851(2010)10-0105-02

一、引言

計(jì)量地理學(xué)又稱又稱數(shù)量地理學(xué),應(yīng)用數(shù)學(xué)方法研究地理學(xué)方法論的學(xué)科。是地理學(xué)中發(fā)展較快的新學(xué)科。它運(yùn)用統(tǒng)計(jì)推理、數(shù)學(xué)分析、數(shù)學(xué)程序和數(shù)學(xué)模擬等數(shù)學(xué)工具,憑計(jì)算機(jī)技術(shù),分析自然地理和人文地理的各種要素,以獲得有關(guān)地理現(xiàn)象的科學(xué)結(jié)論,在地理學(xué)的自然與人文的傳統(tǒng)領(lǐng)域,不斷取得開拓性研究結(jié)果。60年代末至70年代中期,多元統(tǒng)計(jì)方法和隨機(jī)過程引進(jìn)地理學(xué)研究領(lǐng)域。70年代末期引進(jìn)數(shù)據(jù)處理技術(shù),開始研究大系統(tǒng)理論在地理環(huán)境分析中的應(yīng)用,并與數(shù)據(jù)庫和信息系統(tǒng)技術(shù)相結(jié)合,深入研究地區(qū)自然、社會(huì)、經(jīng)濟(jì)、人口等過程的各種數(shù)學(xué)模型,闡明地域現(xiàn)象的空間分布結(jié)構(gòu)規(guī)律與模式,進(jìn)行有關(guān)地理結(jié)構(gòu)和地理組織的演繹。由于兼容并蓄了系統(tǒng)論、控制論、信息論、決策論等學(xué)科的內(nèi)容和方法,從而豐富和加強(qiáng)了計(jì)量地理學(xué)的理論基礎(chǔ)。計(jì)量地理學(xué)的誕生和發(fā)展,標(biāo)志著傳統(tǒng)地理學(xué)的革新[1]。

廣西北部灣經(jīng)濟(jì)區(qū)的功能定位是:立足北部灣、服務(wù)“三南”(西南、華南和中南)、溝通東中西、面向東南亞,充分發(fā)揮連接多區(qū)域的重要通道、交流橋梁和合作平臺(tái)作用,以開放合作促開發(fā)建設(shè),努力建成中國(guó)-東盟開放合作的物流基地、商貿(mào)基地、加工制造基地和信息交流中心,成為帶動(dòng)、支撐西部大開發(fā)的戰(zhàn)略高地和開放度高、輻射力強(qiáng)、經(jīng)濟(jì)繁榮、社會(huì)和諧、生態(tài)良好的重要國(guó)際區(qū)域經(jīng)濟(jì)合作區(qū)。按照《廣西北部灣經(jīng)濟(jì)區(qū)發(fā)展規(guī)劃》[2]所確定的產(chǎn)業(yè)發(fā)展目標(biāo),《人才發(fā)展規(guī)劃》重點(diǎn)確定了石化、林漿紙、能源、鋼鐵和鋁加工、糧油食品加工、海洋產(chǎn)業(yè)、高技術(shù)、物流和現(xiàn)代服務(wù)業(yè)等九大重點(diǎn)發(fā)展產(chǎn)業(yè)的人才需求。 現(xiàn)代服務(wù)業(yè),包括旅游、會(huì)展、金融等服務(wù)業(yè),2010年,旅游業(yè)人才總量約為9.85萬人,會(huì)展業(yè)人才總量約為1.4萬人,金融業(yè)人才總量約為2.7萬人。到2015年,旅游人才總量發(fā)展到12.32萬人,會(huì)展業(yè)人才總量約為2.3萬-2.8萬人,金融業(yè)人才總量約為2.98萬-3.13萬人。由此可見北部灣應(yīng)用型人才培養(yǎng)破在眉睫。

二、計(jì)量地理學(xué)原有的教學(xué)理念與方法

(一)《計(jì)量地理學(xué)》課程簡(jiǎn)介。《計(jì)量地理學(xué)》被國(guó)家教學(xué)指導(dǎo)委員會(huì)列為我國(guó)綜合性大學(xué)和高等師范院校地理學(xué)專業(yè)本科生的必修課?!队?jì)量地理學(xué)》課程類別專業(yè)必修課,先修課程是線性代數(shù)、概率與數(shù)理統(tǒng)計(jì)。是地理科學(xué)、地理信息系統(tǒng)、資源環(huán)境與城鄉(xiāng)規(guī)劃管理等專業(yè)學(xué)生的專業(yè)必修課程。通過本課程的學(xué)習(xí),首先使學(xué)生掌握在地學(xué)研究中常用的幾種定量分析方法,如相關(guān)分析、回歸分析、時(shí)間序列分析、空間統(tǒng)計(jì)分析、聚類分析、主成分分析、線性規(guī)劃、層次分析法、投入產(chǎn)出等方法的基本原理;其次,培養(yǎng)學(xué)生分析問題和解決實(shí)際問題的能力,使學(xué)生能夠運(yùn)用有關(guān)建模技術(shù)和多種定量分析方法對(duì)資源利用、環(huán)境保護(hù)、區(qū)域發(fā)展等地理問題進(jìn)行空間統(tǒng)計(jì)和決策分析。本課程所采用的配套實(shí)驗(yàn)教材是由徐建華教授等編寫的《〈計(jì)量地理學(xué)〉配套實(shí)習(xí)指導(dǎo)》[3]。此教材分類列出了19 個(gè)實(shí)習(xí)內(nèi)容,每個(gè)實(shí)習(xí)內(nèi)容均以教材中例題和練習(xí)題為線索,主要使用SPSS軟件和Matlab軟件方法,并附有部分自編的Matlab6.5應(yīng)用程序,供學(xué)生上機(jī)實(shí)習(xí)參考。本教材教學(xué)目標(biāo)明確,可操作性強(qiáng),對(duì)于學(xué)生進(jìn)行實(shí)際操作起到了積極的指導(dǎo)作用,更有助于學(xué)生理論與實(shí)際的結(jié)合,從而切實(shí)掌握計(jì)量地理學(xué)的基本方法。本課程以院系的計(jì)算機(jī)機(jī)房作為實(shí)習(xí)基地,實(shí)驗(yàn)室環(huán)境好,軟硬件設(shè)備齊全、先進(jìn),專門供學(xué)生課內(nèi)外使用,從而提高學(xué)生們參與研究的積極性和主動(dòng)性。

(二)日前該課程注重幾個(gè)方面的改革

(1) 教學(xué)觀念的改革。理論跟實(shí)踐相結(jié)合,解決地理問題,提高他們對(duì)軟件的應(yīng)用能力、實(shí)際操作能力。培養(yǎng)大學(xué)生以數(shù)學(xué)方法為手段,注重思考,提高邏輯分析、多種方法綜合應(yīng)用的能力。

(2) 教學(xué)方法的改革。課堂多媒體教學(xué)與傳統(tǒng)教學(xué)相結(jié)合,改善呆板的多媒體教學(xué)模式。

(3) 考核方式的改革。傳統(tǒng)的閉卷試卷模式已經(jīng)束縛學(xué)生學(xué)習(xí)這個(gè)課的學(xué)習(xí)思想,要向作業(yè)、實(shí)踐課、課堂考多角度轉(zhuǎn)換。

(三)各大高校對(duì)《計(jì)量地理學(xué)》的改革現(xiàn)狀與西部教學(xué)對(duì)比。

(1) 華東師范大學(xué)的該門課程是已經(jīng)申請(qǐng)了精品課程,實(shí)驗(yàn)條件教學(xué)條件好,西部地區(qū)無法比。

(2) 有的高校采用了雙語教學(xué)有利于提高學(xué)生應(yīng)用外語的能力[6],同時(shí)也引進(jìn)了外國(guó)最先進(jìn)的理論來支持。西部地區(qū)是教學(xué)條件相對(duì)落后的地區(qū),可以有這樣的嘗試,但是還是實(shí)實(shí)在在的理論教學(xué)和動(dòng)手操作操作教學(xué)對(duì)學(xué)生的就業(yè)能力有幫助。

(3) 我國(guó)計(jì)量地理學(xué)研究取得了豐碩成果.學(xué)者從不同區(qū)域、不同視角展開討論.本文在國(guó)內(nèi)關(guān)于計(jì)量地理學(xué)發(fā)展研究的基礎(chǔ)上,對(duì)其發(fā)展、評(píng)價(jià)及存在問題等做了探索。西部地區(qū)地理環(huán)境數(shù)據(jù)的搜集整理都比較的困難,但是很多學(xué)者都是突破困難去收集數(shù)據(jù),但是這些有用的數(shù)據(jù)往往沒有好的方法即使處理都是學(xué)者帶回自己的實(shí)驗(yàn)室完成,這樣的完成回來驗(yàn)證的時(shí)候結(jié)果滯后很久了,不能及時(shí)發(fā)現(xiàn)地理現(xiàn)象的更變。

三、為了適應(yīng)北部灣應(yīng)用型人才培養(yǎng),針對(duì)《計(jì)量

地理學(xué)教學(xué)》的教學(xué)改革的做如下嘗試

高等教育大眾化理論是應(yīng)用型人才培養(yǎng)模式改革的理論基礎(chǔ),建立起與社會(huì)接軌的良性機(jī)制,建立課程類型多樣化和學(xué)習(xí)自由的原則[4],建立能實(shí)際操作的人才原則,要求我們改革勢(shì)在必行。多數(shù)教學(xué)的三大寶,課本、多媒體課件、實(shí)驗(yàn)儀器或者實(shí)驗(yàn)環(huán)境。課本是根基,重中重。多媒體課件是圍繞課本的一個(gè)良好的輔助教學(xué)工具。實(shí)驗(yàn)儀器或者實(shí)驗(yàn)環(huán)境則是對(duì)課本的具體的應(yīng)用。大部分的課本離不開實(shí)驗(yàn)環(huán)境。《計(jì)量地理學(xué)》這個(gè)門課就是理論和實(shí)踐想結(jié)合的教學(xué)科目,地理學(xué)是綜合性、應(yīng)用性、多科學(xué)、多領(lǐng)域的復(fù)雜學(xué)科。一般是按照內(nèi)容的設(shè)置,案例推理教學(xué)[5],多種教學(xué)方法相結(jié)合,必須合理巧妙地運(yùn)用數(shù)學(xué)工具。

第一、.開發(fā)一個(gè)跟計(jì)量地理學(xué)理論匹配的軟件,包括理論過程的變化演示。

為了滿足學(xué)生對(duì)實(shí)驗(yàn)數(shù)據(jù)收集到得出結(jié)論的整個(gè)過程的演示,加深對(duì)計(jì)量地理學(xué)每一個(gè)算法和理論結(jié)論的理解和使用。應(yīng)用型人才的培養(yǎng)就是要培養(yǎng)可操作性的人才,有了軟件就能更好的解釋地理變化規(guī)律的現(xiàn)象。大學(xué)英語這樣的課程靠聽、說、讀、寫來完成,計(jì)量學(xué)必須有軟件支持,軟件包括如下理論:

1.數(shù)據(jù)預(yù)處理算法包括:平均值(非分組和分組)、眾數(shù)(非分組和分組),中位數(shù)(非分組和分組),極差,離差,標(biāo)準(zhǔn)差、變異系數(shù),絕對(duì)值距離、歐式距離、些方差等。

2.數(shù)據(jù)分析算法包括回歸算法,聚類算法、時(shí)間序列算法、馬爾可夫預(yù)測(cè)算法、散點(diǎn)圖、G統(tǒng)計(jì),線性規(guī)劃算法等。

3.算法的分析和改進(jìn)算法聚類算法的改進(jìn)、最短網(wǎng)絡(luò)路徑算法的改進(jìn)等。

本文為全文原貌 未安裝PDF瀏覽器用戶請(qǐng)先下載安裝 原版全文

4.最后制圖的圖、表、曲面分析圖包括散點(diǎn)轉(zhuǎn)成直線圖、聚類譜系圖、趨勢(shì)面變化圖、AHP決策分析圖、最短路徑演化圖等。

第二、軟件的開發(fā)與設(shè)計(jì),注重參數(shù)設(shè)計(jì)環(huán)節(jié),好的參數(shù)設(shè)置,更能有好的地理解釋。

這門課有幾個(gè)重要的地理參數(shù)設(shè)置,往往很多學(xué)生不懂什么叫參數(shù)的設(shè)定,到底設(shè)定有什么好處,我們?cè)陂_發(fā)軟件就是應(yīng)該想到有這個(gè)設(shè)定,讓他們完全體會(huì)自己操作的一種實(shí)在感。

第三、數(shù)學(xué)建模的知識(shí)有所缺乏,應(yīng)加強(qiáng)數(shù)學(xué)建模的思想與理念。

地理知識(shí)的積累與消化的過程是一個(gè)數(shù)據(jù)收集、數(shù)據(jù)整理、預(yù)處理、數(shù)學(xué)建模、計(jì)算機(jī)編程演算,程序驗(yàn)證、數(shù)據(jù)檢驗(yàn)程序,得到結(jié)論一個(gè)數(shù)據(jù)體系的反復(fù)驗(yàn)證的過程,這個(gè)過程里數(shù)學(xué)建模是相當(dāng)關(guān)鍵,不懂建模知識(shí),得不到想要的結(jié)果與理論,所以多引入初級(jí)數(shù)學(xué)建模的知識(shí),達(dá)到腦、手、眼三合一,并提高學(xué)生的反應(yīng)能力。

第四、多元性、交叉性這些概念太抽象,應(yīng)簡(jiǎn)化理論。采用動(dòng)態(tài)演算具體步驟的方法。

本科學(xué)生的特點(diǎn)是學(xué)習(xí)基礎(chǔ),得到基礎(chǔ)知識(shí),學(xué)會(huì)動(dòng)手操作,不要太多抽象到教師的理解、表達(dá)也困難的理論,我們將實(shí)在的理論傳授給他們,通過步步演示,步步推算,深入了解計(jì)算的過程,才能激發(fā)大家對(duì)這門課的興趣,激發(fā)對(duì)數(shù)學(xué)演變過程的興趣。

第五、案例教學(xué)好,好的案例,好學(xué)生實(shí)踐做榜樣,才是完美的教學(xué)過程。

教學(xué)的案例分析是十分重要的,沒有案例的理論是空洞的理論,尤其是地理學(xué)這樣的綜合性、應(yīng)用性很強(qiáng)的學(xué)科。對(duì)象越具體,空間數(shù)據(jù)收集越廣,教師在課堂中演示一種方法,學(xué)生在試驗(yàn)的過程中演示另一種方法的嘗試,這樣有自己的體驗(yàn)結(jié)果,比較算法的優(yōu)缺點(diǎn),同時(shí)體驗(yàn)到數(shù)學(xué)建模的優(yōu)缺點(diǎn),算法直觀、易懂,更大的促進(jìn)了學(xué)生的發(fā)散性思維,綜合思維得到跳躍。

第六、事物的演練過程需要記憶,有了軟件記憶效果更加明確。

不同時(shí)間的數(shù)據(jù),通過軟件演示幾組數(shù)據(jù)的對(duì)比,減少同學(xué)們的抽象記憶,加深實(shí)際記憶,這樣教學(xué)效果更加立體凸顯。

總之,對(duì)于西部地區(qū)教學(xué)實(shí)驗(yàn)條件缺乏的高校,擬采取這樣的教學(xué)措施,便于教師與學(xué)生之間交流、提高學(xué)生對(duì)知識(shí)的理解、運(yùn)用、傳播。以上的教學(xué)結(jié)構(gòu)模式見圖1。

圖1 教學(xué)模式結(jié)構(gòu)圖圖2 軟件設(shè)計(jì)的樹狀圖

四、軟件設(shè)計(jì)方法

開發(fā)工具:vc++,數(shù)據(jù)庫采用電子表格導(dǎo)入形式;開發(fā)界面分為幾大模塊:預(yù)處理、各個(gè)章節(jié)的方法,后期數(shù)據(jù)幾個(gè)檢驗(yàn)。學(xué)生可以在機(jī)房實(shí)驗(yàn)也可以將軟件存放自己的計(jì)算機(jī)自學(xué)用,在以后的工作中使用。軟件設(shè)計(jì)的樹狀圖見圖2。

五、結(jié)束語

多媒體教學(xué)課件目前存在的弊端是教師花長(zhǎng)時(shí)間做課件,學(xué)生看不過來,記筆記也記不過了,對(duì)知識(shí)的思考與理解都不能同步進(jìn)行,教師辛苦,學(xué)生學(xué)不了知識(shí)。本文用理論、多媒體教學(xué)、多知識(shí)模塊軟件和學(xué)生理論與實(shí)踐同步的教學(xué)模式極大的解決了學(xué)生對(duì)知識(shí)掌握和使用的能力。對(duì)已經(jīng)學(xué)習(xí)過該門課程畢業(yè)班的三個(gè)班級(jí)和非畢業(yè)班兩個(gè)班級(jí)的學(xué)生用新的教學(xué)模式:理論、多媒體教學(xué)、多知識(shí)模塊軟件和學(xué)生理論與實(shí)踐同步的教學(xué)模式,讓學(xué)生體檢軟件的實(shí)際演算操作,重新學(xué)習(xí)課程2個(gè)章節(jié),課后展開問卷調(diào)查,210人問卷中有效票188,中性票13,無效票9, 167票非常感興趣占90%,164票能獨(dú)立解決一些問題87%,其中141人既感興趣有能獨(dú)立解決問題占76%。該教學(xué)方法將繼續(xù)應(yīng)用于下一批次的教學(xué)中,為日后的應(yīng)用型人才培養(yǎng)打好基礎(chǔ)。

參考文獻(xiàn)

[1] 徐建華,計(jì)量地理學(xué),高等教學(xué)出版社,普通高等教育“十一五”國(guó)家級(jí)規(guī)劃教材。

[2]《廣西北部灣經(jīng)濟(jì)區(qū)2008-2015年人才發(fā)展規(guī)劃》。

[3] jpkc.ecnu.省略/0802/kechengjs.htm(華東師范大學(xué)精品課程網(wǎng)站)。

[4] 楊新軍、王寶平,大學(xué)生地理學(xué)思維方式的培養(yǎng)與計(jì)量地理學(xué)課程教學(xué)的思考,高等理科教育,2007,第三期:119-122。

[5] 陳彥光,劉繼生,地理學(xué)的主要任務(wù)與研究方法---從整個(gè)科學(xué)體系的視角看地理科學(xué)的發(fā)展[j],地理科學(xué),2004,24(3):257-263。

第3篇:數(shù)學(xué)建模聚類算法范文

1軟測(cè)量建模方法解析

典型的軟測(cè)量模型結(jié)構(gòu)如圖1所示[3].與傳統(tǒng)儀表檢測(cè)技術(shù)相比,軟測(cè)量技術(shù)具有通用性和靈活性強(qiáng),易實(shí)現(xiàn)且成本低等優(yōu)點(diǎn)[1]。影響熱工過程參數(shù)軟測(cè)量精度的主要因素為數(shù)據(jù)的預(yù)處理方法、輔助變量的選擇、模型的算法和結(jié)構(gòu)等[4G5].由于現(xiàn)場(chǎng)采集的數(shù)據(jù)存在一定的誤差以及儀表測(cè)量誤差等,因此在建立軟測(cè)量模型時(shí)需要對(duì)建模數(shù)據(jù)進(jìn)行預(yù)處理,以消除誤差.此外,還需對(duì)算法中間及輸出結(jié)果進(jìn)行有效性檢測(cè),以避免輸出不合理的數(shù)據(jù).另外,輔助變量需要通過機(jī)理分析進(jìn)行初步確定,并且對(duì)其的選取需要考慮變量的類型、數(shù)量和測(cè)點(diǎn)位置等,同時(shí)需要注意輔助變量對(duì)系統(tǒng)運(yùn)行經(jīng)濟(jì)性、可靠性和可維護(hù)性等的影響,從而簡(jiǎn)化軟測(cè)量模型和提高軟測(cè)量精度.輔助變量選取的最佳數(shù)量與測(cè)量噪聲、過程自由度及模型不確定性等有關(guān),其下限值是待測(cè)主導(dǎo)變量的數(shù)量.所選輔助變量應(yīng)與主導(dǎo)變量密切相關(guān),且為與動(dòng)態(tài)特性相似的可測(cè)參數(shù),具有較強(qiáng)的魯棒性和抗過程輸出或不可測(cè)擾動(dòng)的能力,易于在線獲取,能夠滿足軟測(cè)量的精確度要求.由于某些熱工測(cè)量對(duì)象的輔助變量類型和數(shù)量很多,且各變量之間存在耦合關(guān)系,因此為了提高軟測(cè)模型性能和精度,需對(duì)輸入輔助變量進(jìn)行降維處理.由于在工業(yè)過程中通常采用同時(shí)確定輔助變量的測(cè)定位置和數(shù)量方法,因此對(duì)測(cè)點(diǎn)位置的選擇原則同于變量數(shù)量的選擇原則.在構(gòu)建軟測(cè)量機(jī)理模型過程中,要求具有足夠多能夠反映工況變化的過程參數(shù),并運(yùn)用化學(xué)反應(yīng)動(dòng)力學(xué)、質(zhì)量平衡、能量平衡等各種平衡方程,確定主導(dǎo)變量與一些可測(cè)輔助變量的關(guān)系.但是,經(jīng)若干過程簡(jiǎn)化后的軟測(cè)量機(jī)理模型難以保證測(cè)量精度,且有很多熱工過程機(jī)理尚不明確,因此難以對(duì)軟測(cè)量進(jìn)行機(jī)理建模.針對(duì)復(fù)雜的非線性熱工過程,辨識(shí)建模方法通過現(xiàn)場(chǎng)數(shù)據(jù)、試驗(yàn)測(cè)試或流程模擬,獲得工況變化過程中的輸入(輔助變量)和輸出(主導(dǎo)變量)數(shù)據(jù),根據(jù)兩者的數(shù)學(xué)關(guān)系建立軟測(cè)量模型.該方法主要有基于統(tǒng)計(jì)分析的主元分析(PCA)法和偏最小二乘(PLA)法、基于人工智能的神經(jīng)網(wǎng)絡(luò)(ANN)法、基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)(SVM)法、模糊理論法等[6].

1.1主元分析方法

PCA法通過映射或變換對(duì)原數(shù)據(jù)空間進(jìn)行降維處理,將高維空間中的問題轉(zhuǎn)化為低維空間中的問題,新映射空間的變量由各原變量的線性組合生成[7].降維后數(shù)據(jù)空間在包含最少變量的同時(shí),盡量保持原數(shù)據(jù)集的多元結(jié)構(gòu)特征,以提高模型精度.通常,采用該方法對(duì)現(xiàn)場(chǎng)采集的系統(tǒng)輸入輸出變量數(shù)據(jù)進(jìn)行相關(guān)性分析,以優(yōu)選輔助變量集,并利用對(duì)應(yīng)的輸入輸出變量建立預(yù)測(cè)模型.但是,該方法受樣本噪聲影響較大,建立的模型較難理解.PCA法基于線性相關(guān)和高斯統(tǒng)計(jì)的假設(shè),而核主元分析(KPCA)法對(duì)非線性系統(tǒng)具有更好的特征抽取能力,因而針對(duì)飛灰含碳量等呈非線性特征的變量,基于KPCA法建立其軟測(cè)量模型,效果較好[8].

1.2偏最小二乘法PLA法

通過計(jì)算最小化誤差的平方和,匹配出數(shù)據(jù)變量的最優(yōu)函數(shù)組合,是一種數(shù)學(xué)優(yōu)化方法.該方法用最簡(jiǎn)化的方法求出某些難以計(jì)算的數(shù)值,通常被用于曲線擬合.偏最小二乘回歸(PLSR)法建立在PCA原理上,主要根據(jù)多因變量對(duì)多自變量的回歸建模,在解決樣本個(gè)數(shù)少于變量個(gè)數(shù)問題時(shí),特別是當(dāng)各變量的線性關(guān)聯(lián)度較高時(shí)采用PLSR法建立其軟測(cè)量模型更為有效.

1.3人工神經(jīng)網(wǎng)絡(luò)

ANN法在理論上可在不具備對(duì)象先驗(yàn)知識(shí)的條件下,構(gòu)造足夠的樣本,建立輔助變量與主導(dǎo)變量的映射關(guān)系,從而通過網(wǎng)絡(luò)學(xué)習(xí)獲得ANN模型.ANN由許多節(jié)點(diǎn)(神經(jīng)元)相互連接構(gòu)成,每個(gè)節(jié)點(diǎn)代表一個(gè)特定的輸出函數(shù)(激勵(lì)函數(shù)),2個(gè)節(jié)點(diǎn)間的連接代表通過該連接信號(hào)的權(quán)重(ANN的記憶).選取ANN運(yùn)算模型的輔助變量和主導(dǎo)變量后,為使待測(cè)的主導(dǎo)變量近似于實(shí)際測(cè)量變量,還可利用最小二乘法、遺傳算法、聚類法等神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練己知結(jié)構(gòu)網(wǎng)絡(luò),通過不斷調(diào)整結(jié)構(gòu)的連接權(quán)值和閾值訓(xùn)練出擬合度最優(yōu)的ANN模型.ANN模型采用分布式并行信息處理算法,具有自學(xué)習(xí)、自適應(yīng)、聯(lián)想存儲(chǔ)(通過反饋網(wǎng)絡(luò)實(shí)現(xiàn))、高速尋找優(yōu)化解、較強(qiáng)在線校正能力、非線性逼近等特性,其在解決較強(qiáng)非線性和不確定性系統(tǒng)的擬合問題具有較大優(yōu)勢(shì)[9],因此成為應(yīng)用最廣泛的一種熱工過程參數(shù)軟測(cè)量建模方法.但是,神經(jīng)網(wǎng)絡(luò)系統(tǒng)受訓(xùn)練樣本質(zhì)量、空間分布和訓(xùn)練算法等因素影響較大,外推能力較差,受黑箱式表達(dá)方式限制,模型的可解釋性較差.當(dāng)實(shí)際樣本空間超出訓(xùn)練樣本空間區(qū)域時(shí),模型輸出誤差較大.因此,實(shí)際工業(yè)過程中需定時(shí)對(duì)該方法的參數(shù)進(jìn)行校正.ANN還包括反向傳播神經(jīng)網(wǎng)絡(luò)(BP)和徑向基神經(jīng)網(wǎng)絡(luò)(RBF).BP模型將樣本輸入輸出問題變?yōu)榉蔷€性優(yōu)化問題,采用最優(yōu)梯度下降算法優(yōu)化并迭代求得最優(yōu)值.RBF包含輸入層、隱含層(隱層)和輸出層,為3層結(jié)構(gòu),隱層一般選取基函數(shù)作為傳遞函數(shù)(激勵(lì)函數(shù)),輸出層對(duì)隱層的輸出進(jìn)行線性加權(quán)組合,因此其節(jié)點(diǎn)為線性組合器.相比BP模型,RBF模型訓(xùn)練速度快,分類能力強(qiáng),具有全局逼近能力等.

1.4支持向量機(jī)法SVM法

以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,是一種新型針對(duì)小樣本情況的機(jī)器統(tǒng)計(jì)學(xué)習(xí)方法.其需要滿足特定訓(xùn)練樣本學(xué)習(xí)精度的要求和具備準(zhǔn)確識(shí)別任意樣本的能力.該方法根據(jù)有限的訓(xùn)練樣本信息盡可能尋求模型復(fù)雜性和學(xué)習(xí)能力間的最優(yōu)關(guān)系,從而有效解決了基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的神經(jīng)網(wǎng)絡(luò)建模方法的欠學(xué)習(xí)或過學(xué)習(xí)問題[10G11],且泛化能力強(qiáng),能夠保證較小的泛化誤差,對(duì)樣品依賴程度低,可以較好地對(duì)非線性系統(tǒng)進(jìn)行建模和預(yù)測(cè),是對(duì)小樣本情況分類及回歸等問題極優(yōu)的解決方法.但是,當(dāng)樣本數(shù)據(jù)較大時(shí),傳統(tǒng)訓(xùn)練算法復(fù)雜的二次規(guī)劃問題會(huì)導(dǎo)致SVM法計(jì)算速度較慢,不易于工程應(yīng)用,抗噪聲能力較差等,且參數(shù)選擇不當(dāng)會(huì)使模型性能變差.目前,對(duì)SVM法還沒有成熟的指導(dǎo)方法,基于經(jīng)驗(yàn)數(shù)據(jù)建模,則對(duì)模型精度的影響較大.對(duì)于工業(yè)過程對(duì)象,許多在SVM法基礎(chǔ)上進(jìn)行改進(jìn)的算法和混合算法被用于軟測(cè)量建模,并已取得了良好的試驗(yàn)效果.如基于最小二乘支持向量機(jī)(LSGSVM)法的建模方法將最小二乘線性系統(tǒng)的誤差平方和作為損失函數(shù)代替二次規(guī)劃方法,利用等式約束替代SVM法中的不等式約束.由于LSGSVM法只需求解1組線性等式方程組,因此顯著提高了計(jì)算速度和模型的泛化能力[12G13].與傳統(tǒng)SVM法相比,其訓(xùn)練時(shí)間更短,結(jié)果更具確定性,更適合工業(yè)過程的在線建模.1.5模糊理論法模糊理論法根據(jù)模糊邏輯和模糊語言規(guī)則求解新的模糊結(jié)果[14].由專家構(gòu)造模糊邏輯語言信息,并轉(zhuǎn)化為控制策略,從而解決模型未知或模型不確定性的復(fù)雜工業(yè)問題,尤其適合被測(cè)對(duì)象不確定,難以用數(shù)學(xué)方式定量描述的軟測(cè)量建模[15G16].模糊理論法不需要被測(cè)對(duì)象的精確數(shù)學(xué)模型,但模糊系統(tǒng)本身不具有學(xué)習(xí)功能,如果能夠?qū)⑵渑c人工神經(jīng)網(wǎng)絡(luò)等人工智能方法相結(jié)合,則可提高軟測(cè)量的性能.

2軟測(cè)量技術(shù)研究現(xiàn)狀

目前,軟測(cè)量的機(jī)理、偏最小二乘、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、模糊建模等方法均屬于全局建模方法,而這些方法均存在待定參數(shù)過多、在線和離線參數(shù)難以同時(shí)用于建模、模型結(jié)構(gòu)較難確定等問題.因此,20世紀(jì)60年代末,Bates等[17]提出了將幾個(gè)模型相加的方法,該方法可以有效提高模型的魯棒性和預(yù)測(cè)精度.該方法將系統(tǒng)首先拆分為多個(gè)子系統(tǒng),然后分別對(duì)每個(gè)子系統(tǒng)建模并相加.全局模型被視為各子模型的組合,從而不僅可提高模型對(duì)熱工過程參數(shù)的描述性能,而且較單一模型具有更高的精度.通常,在多模型建模時(shí),首先通過機(jī)理分析建立帶參數(shù)的機(jī)理模型,并利用輸入輸出數(shù)據(jù)對(duì)模型待測(cè)參數(shù)進(jìn)行辨識(shí).而對(duì)機(jī)理尚不清楚的部分,則采用數(shù)據(jù)建模,即根據(jù)輸入輸出數(shù)據(jù)構(gòu)建補(bǔ)償器進(jìn)行誤差補(bǔ)償.基于此,本文以主要熱工過程參數(shù)為對(duì)象,綜述軟測(cè)量技術(shù)的研究現(xiàn)狀.

2.1鋼球磨煤機(jī)負(fù)荷、風(fēng)量和出口溫度

鋼球磨煤機(jī)(球磨機(jī))制粉系統(tǒng)的用電量在電站廠用電中占比可高達(dá)15%.目前對(duì)球磨機(jī)煤量的測(cè)量方法有差壓法、電流法、噪音法、物位法、振動(dòng)法等[18],但這些方法都難以精確地測(cè)量球磨機(jī)煤量,從而導(dǎo)致制粉系統(tǒng)自動(dòng)控制品質(zhì)欠佳,使電耗量增加.建立球磨機(jī)負(fù)荷與相關(guān)輔助變量的關(guān)系,可實(shí)現(xiàn)球磨機(jī)負(fù)荷、煤量的軟測(cè)量.輔助變量可選為給煤量、熱風(fēng)量、再循環(huán)風(fēng)量、球磨機(jī)出口溫度及出入口壓差、球磨機(jī)電流等[19].王東風(fēng)和宋之平[20]采用前向復(fù)合型人工神經(jīng)網(wǎng)絡(luò)建立了基于分工況學(xué)習(xí)的變結(jié)構(gòu)式負(fù)荷模型,以測(cè)量球磨機(jī)負(fù)荷,其正常運(yùn)行工況下采用延時(shí)神經(jīng)網(wǎng)絡(luò)法負(fù)荷模型,球磨機(jī)出口煤量較小(趨于堵煤)時(shí)采用回歸神經(jīng)網(wǎng)絡(luò)法負(fù)荷模型,并通過仿真試驗(yàn)和實(shí)測(cè)數(shù)據(jù)證明了該建模方法的可行性和有效性,對(duì)運(yùn)行指導(dǎo)也取得了較好的效果.司剛?cè)萚21]提出了基于復(fù)合式神經(jīng)網(wǎng)絡(luò)的球磨機(jī)負(fù)荷軟測(cè)量方法,選取球磨機(jī)噪音及出入口壓差、出口溫度、球磨機(jī)電流等作為輔助變量,獲得了球磨機(jī)負(fù)荷變化規(guī)律.趙宇紅等[22]基于神經(jīng)網(wǎng)絡(luò)和混沌信息技術(shù)建立了球磨機(jī)出力軟測(cè)量模型,仿真結(jié)果表明該模型能夠預(yù)測(cè)穩(wěn)態(tài)和動(dòng)態(tài)過程中的球磨機(jī)出力.湯健等[23]則提出了基于多源數(shù)據(jù)特征融合的軟測(cè)量方法,其采用核主元分析提取各頻段的非線性特征,建立了基于最小二乘支持向量機(jī)的模型,該算法運(yùn)算精度較高.張炎欣[24]在即時(shí)學(xué)習(xí)策略建??蚣芟?首先通過灰色關(guān)聯(lián)分析方法確定主要的輔助變量,隨后采用混合優(yōu)化算法進(jìn)行支持向量機(jī)模型計(jì)算,發(fā)現(xiàn)其結(jié)果相比標(biāo)準(zhǔn)支持向量機(jī)模型和BP神經(jīng)網(wǎng)絡(luò)模型具有更好的預(yù)測(cè)性能.磨煤機(jī)一次風(fēng)量的準(zhǔn)確測(cè)量是確定合理風(fēng)煤比,提高鍋爐燃燒效率的重要因素.因此,楊耀權(quán)等[25G26]基于BP神經(jīng)網(wǎng)絡(luò)選取42個(gè)輔助變量建立了磨煤機(jī)一次風(fēng)量的軟測(cè)量模型,通過對(duì)某電廠數(shù)據(jù)的測(cè)試,驗(yàn)證了該方法較現(xiàn)場(chǎng)流量測(cè)量?jī)x表輸出值更準(zhǔn)確,同時(shí)基于支持向量機(jī)回歸方法建立的風(fēng)量模型也較流量測(cè)量?jī)x表的精度高,且能夠適應(yīng)機(jī)組變化.此外,梁秀滿和孫文來[27]基于熱平衡原理進(jìn)行了機(jī)理建模,實(shí)現(xiàn)了球磨機(jī)出口溫度的軟測(cè)量.

2.2煤質(zhì)

電站鍋爐入爐煤質(zhì)對(duì)機(jī)組安全、經(jīng)濟(jì)運(yùn)行影響較大.對(duì)此,劉福國(guó)等[28G29]利用煙氣成分、磨煤機(jī)運(yùn)行狀態(tài)、煤灰分和煤元素成分等建立了入爐煤軟測(cè)量機(jī)理模型,實(shí)現(xiàn)了入爐煤質(zhì)元素成分和發(fā)熱量的在線監(jiān)測(cè).董實(shí)現(xiàn)和徐向東[30]利用模糊神經(jīng)網(wǎng)絡(luò)構(gòu)建辨識(shí)模型,并進(jìn)行了鍋爐煤種低位發(fā)熱量模型參數(shù)的辨識(shí),其辨識(shí)誤差在2%以內(nèi).馬萌萌[31]利用BP神經(jīng)網(wǎng)絡(luò)法進(jìn)行建模,研究了煤質(zhì)元素分析,并利用遺傳算法對(duì)BP神經(jīng)網(wǎng)絡(luò)各層連接值進(jìn)行了提前尋優(yōu),結(jié)果表明經(jīng)遺傳算法優(yōu)化后的模型較單純BP神經(jīng)網(wǎng)絡(luò)模型誤差更小.巨林倉(cāng)等[32]采用遺傳算法與BP網(wǎng)絡(luò)聯(lián)合的建模方式,分析了煤粉從制粉系統(tǒng)到完全燃燒的過程,結(jié)果表明煤質(zhì)在線軟測(cè)量模型能夠有效預(yù)測(cè)煤種揮發(fā)分、固定碳含量和低溫發(fā)熱量.

2.3風(fēng)煤比

電站鍋爐各燃燒器出口的風(fēng)煤比不能相差太大,否則可能造成鍋爐中心火焰偏移、燃燒不穩(wěn)定、結(jié)焦等問題.對(duì)此:金林等[33]基于氣固兩相流理論進(jìn)行了機(jī)理建模,根據(jù)乏氣送粉方式下風(fēng)粉混合前后的壓力差計(jì)算了風(fēng)煤比,通過理論推導(dǎo)和仿真試驗(yàn)發(fā)現(xiàn),風(fēng)煤比計(jì)算值與混合壓差呈良好的對(duì)應(yīng)關(guān)系;陳小剛和金秀章[34]通過對(duì)風(fēng)煤比機(jī)理模型的研究,發(fā)現(xiàn)一次風(fēng)與煤粉混合后管道內(nèi)壓差呈明顯的線性關(guān)系;劉穎[35]將給粉機(jī)轉(zhuǎn)速、風(fēng)粉混合前后動(dòng)壓、風(fēng)粉溫度等作為輔助變量,采用機(jī)理建模與支持向量機(jī)相結(jié)合的方法,進(jìn)行風(fēng)煤比軟測(cè)量建模,仿真結(jié)果顯示所建模型性能優(yōu)于RBF神經(jīng)網(wǎng)絡(luò)模型.

2.4煙氣含氧量

目前主要使用熱磁式傳感器和氧化鋯傳感器等測(cè)量鍋爐煙氣含氧量,其存在測(cè)量誤差大、反應(yīng)速度慢、成本高、使用壽命短等問題.對(duì)此,采用軟測(cè)量方法測(cè)量煙氣含氧量.鍋爐煙氣含氧量主要受煤質(zhì)、煤粉未完全燃盡、爐膛漏風(fēng)等因素影響,因此選取總?cè)剂狭?、風(fēng)機(jī)風(fēng)量和電流、再熱蒸汽溫度、汽包壓力、爐膛出口煙溫、鍋爐給水流量等參數(shù)作為輔助變量.韓璞等[36]構(gòu)建了電站鍋爐煙氣含氧量的復(fù)合型神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型,并在不同機(jī)組負(fù)荷下通過實(shí)測(cè)方法驗(yàn)證了該模型的有效性.盧勇和徐向東[37]提出了基于統(tǒng)計(jì)分析和神經(jīng)網(wǎng)絡(luò)的偏最小二乘(NNPLS)法建立鍋爐煙氣含氧量軟測(cè)量模型的方法,并進(jìn)行了穩(wěn)態(tài)和動(dòng)態(tài)建模,結(jié)果表明所建模型具有很強(qiáng)的泛化能力.陳敏[38]引入主元分析理論和偏最小二乘法進(jìn)行了輔助變量的優(yōu)化選取,并采用BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)了對(duì)煙氣含氧量的預(yù)測(cè)分析.熊志化[39]進(jìn)行了基于支持向量機(jī)的煙氣含氧量軟測(cè)量,通過8個(gè)輔助變量進(jìn)行訓(xùn)練,并得出優(yōu)于傳統(tǒng)氧量分析儀和RBF神經(jīng)網(wǎng)絡(luò)模型的結(jié)論,尤其是在小樣本情況下.張倩和楊耀權(quán)[40]采用了類似的支持向量機(jī)回歸模型取得了良好的仿真結(jié)果.章云鋒[41]提出了基于最小二乘支持向量機(jī)的煙氣含氧量軟測(cè)量模型.張炎欣等[24,42]采用基于即時(shí)學(xué)習(xí)策略的改進(jìn)型支持向量機(jī)建立了煙氣含氧量軟測(cè)量模型,得到了與球磨機(jī)負(fù)荷相似的結(jié)論.王宏志等[43]構(gòu)建最小二乘支持向量機(jī)模型時(shí)應(yīng)用粒子群算法解決了多參數(shù)優(yōu)化的問題,并將其應(yīng)用于煙氣含氧量建模中后,獲得了較好的效果.趙征[44]等采用機(jī)理分析與統(tǒng)計(jì)分析相結(jié)合的建模方法,建立了一系列局部變量的軟計(jì)算模型,較好地反映煙氣含氧量的變化.

2.5飛灰含碳量

燃燒失重法是測(cè)試飛灰含碳量的傳統(tǒng)分析方法.該方法測(cè)試時(shí)間長(zhǎng)、所得結(jié)果無法實(shí)時(shí)反映飛灰含碳量,而反射法、微波吸收法,由于缺乏在線測(cè)量技術(shù)或成本較高,難以大規(guī)模應(yīng)用于在線測(cè)量[45].煤質(zhì)和鍋爐運(yùn)行參數(shù)是影響飛灰含碳量的主要參數(shù),因此燃煤收到基低位發(fā)熱量、揮發(fā)分、灰分、水分,以及鍋爐負(fù)荷、磨煤機(jī)給煤量、省煤器出口煙氣含氧量、燃燒器擺動(dòng)角度、爐膛風(fēng)量和風(fēng)壓等參數(shù)可被選為輔助變量.對(duì)灰含碳量的軟測(cè)量難以采用機(jī)理建模方法.而BP神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的非線性擬合能力和學(xué)習(xí)簡(jiǎn)單的規(guī)則等優(yōu)點(diǎn)被廣泛用灰含碳量的軟測(cè)量.周昊等[46]采用BP神經(jīng)網(wǎng)絡(luò)算法建立了電站鍋爐的飛灰含碳量模型,該模型輸出結(jié)果與試驗(yàn)實(shí)測(cè)結(jié)果基本吻合.李智等[47]采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行了飛灰含碳量的建模和分析,得到了良好的預(yù)測(cè)結(jié)果.趙新木等[48]選取11個(gè)輔助變量進(jìn)行了改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的計(jì)算和預(yù)測(cè),并探討了燃燒器擺動(dòng)角度、鍋爐燃料特性、煤粉細(xì)度、過量空氣系數(shù)等單變量對(duì)飛灰含碳量的影響.王春林等[49]和劉長(zhǎng)良等[50]分別采用基于支持向量機(jī)回歸算法和最小二乘支持向量機(jī)算法進(jìn)行建模,結(jié)果顯示支持向量機(jī)法相比BP神經(jīng)網(wǎng)絡(luò)法等建模方法具有學(xué)習(xí)速度快、泛化能力強(qiáng)、對(duì)樣本依賴低等優(yōu)點(diǎn).陳敏生和劉定平[8]利用最小二乘支持向量機(jī)建立了飛灰含碳量軟測(cè)量模型,并采用KPCA法提取變量特征數(shù)據(jù)處理非線性數(shù)據(jù),通過在四角切圓燃燒鍋爐上的仿真試驗(yàn)驗(yàn)證了所建模型的有效性和優(yōu)越性.

2.6燃燒優(yōu)化

高效低污染是電站鍋爐燃燒優(yōu)化的目標(biāo).顧燕萍等[51]基于最小二乘支持向量機(jī)算法建立了鍋爐燃燒模型,進(jìn)行了排煙溫度、飛灰含碳量、NOx排放量等參數(shù)的軟測(cè)量研究,隨后采用遺傳算法對(duì)鍋爐運(yùn)行工況進(jìn)行尋優(yōu),得到了燃燒優(yōu)化方案,研究結(jié)果表明該算法比BP神經(jīng)網(wǎng)絡(luò)算法性能更優(yōu)越.王春林[11]建立了基于支持向量機(jī),并以鍋爐主要燃燒試驗(yàn)數(shù)據(jù)為輔助變量的軟測(cè)量模型,其將遺傳算法與支持向量機(jī)模型相結(jié)合,使得對(duì)飛灰含碳量、排煙溫度、NOx排放量的軟測(cè)量取得了良好的優(yōu)化效果.高芳等[52]以鍋爐熱效率和NOx排放量為輸入?yún)?shù),建立了最小二乘支持向量機(jī)模型,試驗(yàn)結(jié)果表明模型輸出誤差很小,良好的參數(shù)組合可為鍋爐優(yōu)化運(yùn)行提供指導(dǎo).

2.7其他熱工參數(shù)

對(duì)于主蒸汽溫度、汽包水位、省煤器積灰、煙氣污染物排放量等參數(shù),學(xué)者們也進(jìn)行了軟測(cè)量研究.熊志化等[53]對(duì)主蒸汽流量進(jìn)行了軟測(cè)量,以給水溫度等為輔助變量的歷史數(shù)據(jù)仿真結(jié)果表明,支持向量機(jī)算法較RBF神經(jīng)網(wǎng)絡(luò)算法具有明顯優(yōu)勢(shì).何麗娜[54]提出了基于現(xiàn)場(chǎng)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)建模,與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)建模相比,無需數(shù)學(xué)表達(dá)式和傳遞函數(shù),只需要現(xiàn)場(chǎng)數(shù)據(jù),以主蒸汽溫度系統(tǒng)為建模對(duì)象,采用主元分析法對(duì)建模數(shù)據(jù)進(jìn)行預(yù)處理,降維后,通過分析過熱器運(yùn)行機(jī)理確定了輔助變量,并合理預(yù)測(cè)了主蒸汽溫度.梅華[16]提出了基于模糊辨識(shí)的自適應(yīng)預(yù)測(cè)控制算法,并應(yīng)用于發(fā)電廠主蒸汽溫度控制中,仿真結(jié)果表明該算法具有良好的負(fù)荷適應(yīng)性.李濤永等[55]以給煤量設(shè)定值為輸入,主蒸汽壓力為輸出,利用聚類分析方法將熱工過程的非線性問題分解并轉(zhuǎn)化為若干個(gè)工況點(diǎn)的線性問題,得出了辨識(shí)模型及其擬合曲線.張小桃等[56]根據(jù)機(jī)組運(yùn)行機(jī)理,利用主元分析法、多變量統(tǒng)計(jì)監(jiān)測(cè)理論等確定不同機(jī)組運(yùn)行過程中影響汽包水位變化的主導(dǎo)因素.王少華[57]建立了基于機(jī)理分析與數(shù)據(jù)統(tǒng)計(jì)分析方法相結(jié)合的鍋爐汽包水位軟測(cè)量模型,試驗(yàn)結(jié)果表明該模型可較好地反映鍋爐參數(shù)在典型擾動(dòng)工況下的汽包水位動(dòng)態(tài)特性.王建國(guó)等[58]采用機(jī)理分析建模,以省煤器進(jìn)出口煙氣溫度、省煤器管壁溫度、煙氣流速等為輔助變量,對(duì)在線監(jiān)測(cè)鍋爐省煤器積灰的軟測(cè)量進(jìn)行了分析.楊志[59G62]選取經(jīng)遺傳算法優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)模型對(duì)SO2排放量進(jìn)行了預(yù)測(cè)研究,其選取了硫分、負(fù)荷、給煤量、過量空氣系數(shù)、排煙溫度等參數(shù)作為模型輸入變量,SO2排放量作為輸出變量,試驗(yàn)結(jié)果表明該方法能夠滿足在線監(jiān)測(cè)SO2排放量的要求.

3結(jié)語

第4篇:數(shù)學(xué)建模聚類算法范文

[關(guān)鍵詞]數(shù)據(jù)挖掘;時(shí)間序列;數(shù)據(jù)庫

[DOI]10.13939/ki.zgsc.2016.03.038

在數(shù)據(jù)庫技術(shù)迅猛發(fā)展和數(shù)據(jù)庫管理系統(tǒng)日臻完善的今天,數(shù)據(jù)庫的規(guī)模與日俱增,數(shù)量不斷增多,并且這些激增的數(shù)據(jù)中包含著非常重要的信息,所以傳統(tǒng)的數(shù)據(jù)庫存儲(chǔ)和查詢方法已經(jīng)無法滿足人們對(duì)數(shù)據(jù)中隱含知識(shí)的渴求。而時(shí)間序列數(shù)據(jù)挖掘技術(shù)則可以有效地解決上述問題,并且可以在確保數(shù)據(jù)挖掘可靠性和準(zhǔn)確性的基礎(chǔ)上大大降低運(yùn)行成本。因此,對(duì)于時(shí)間序列數(shù)據(jù)挖掘在實(shí)踐應(yīng)用中的關(guān)鍵問題進(jìn)行分析和探究具有非常重要的意義。

1 時(shí)間序列數(shù)據(jù)挖掘概述

1.1 時(shí)間序列數(shù)據(jù)挖掘的含義

通常而言,各個(gè)數(shù)據(jù)單元均可以由一個(gè)數(shù)據(jù)變量和時(shí)間變量所組成的二元組來加以表示,比如股票價(jià)格和商品的銷售金額等,所以可以將這些數(shù)據(jù)按照時(shí)間的順序加以排列,這樣就構(gòu)成了所謂的時(shí)間序列數(shù)據(jù)庫。在這些時(shí)間序列數(shù)據(jù)中包含著許多未知的有用信息,具有很高的挖掘價(jià)值。而時(shí)間序列數(shù)據(jù)挖掘就是從這些大型的時(shí)間序列數(shù)據(jù)庫中找到人們所需要的各種有用數(shù)據(jù)。

1.2 時(shí)間序列數(shù)據(jù)挖掘的內(nèi)容

在對(duì)當(dāng)前國(guó)內(nèi)外就時(shí)間序列數(shù)據(jù)挖掘方面的研究進(jìn)行分析,可以將其歸納為時(shí)間序列數(shù)據(jù)變換、時(shí)間序列數(shù)據(jù)可視化、時(shí)間序列數(shù)據(jù)庫相似搜索、時(shí)間序列聚類分類分析、時(shí)間序列預(yù)測(cè)以及時(shí)間序列分割與模式發(fā)現(xiàn)等幾個(gè)主要的組成部分。其中的時(shí)間序列數(shù)據(jù)變換實(shí)際上就是將原始狀態(tài)下所對(duì)應(yīng)的時(shí)間序列在某個(gè)特征空間下的映像時(shí)間序列來對(duì)最初的原始時(shí)間序列進(jìn)行描述,其可以有效地減少計(jì)算所花費(fèi)的成本,并且實(shí)際的數(shù)據(jù)壓縮率更高;時(shí)間序列數(shù)據(jù)可視化則是將那些繁雜的時(shí)間序列在數(shù)據(jù)挖掘技術(shù)、虛擬現(xiàn)實(shí)技術(shù)以及圖形圖像技術(shù)等先進(jìn)技術(shù)的應(yīng)用下而變得直觀化、形象化,以便于人們更好地理解;時(shí)間序列聚類和分類分析則是根據(jù)時(shí)間粒度和模式長(zhǎng)度的不同而將待處理的序列數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆指詈途垲愄幚?,以便于更好地進(jìn)行分析;時(shí)間序列數(shù)據(jù)庫相似搜索則是遵循相應(yīng)的搜索算法來對(duì)于那些相似性時(shí)間序列數(shù)據(jù)庫進(jìn)行搜索,以避免出現(xiàn)漏報(bào)問題;時(shí)間序列分割與模式發(fā)現(xiàn)主要用于時(shí)間序列的分割算法應(yīng)用中以及系統(tǒng)模型變化的檢測(cè)中,其已經(jīng)成為當(dāng)前我國(guó)在時(shí)間序列數(shù)據(jù)挖掘研究中的重要課題,具有很高的研究?jī)r(jià)值。

2 時(shí)間序列數(shù)據(jù)挖掘中若干關(guān)鍵問題的分析

2.1 傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘的過程和分類分析

首先,從數(shù)據(jù)挖掘的過程來講,傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘過程可以主要分成以下幾個(gè)步驟:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果分析和知識(shí)同化。其次,從數(shù)據(jù)挖掘的分類來講,時(shí)間序列數(shù)據(jù)挖掘的主要任務(wù)就是從龐大的數(shù)據(jù)庫中找尋到用戶所需的數(shù)據(jù)。根據(jù)數(shù)據(jù)挖掘作用模式的不同,可以將其分成分類模式、偏差分析和序列模式等預(yù)測(cè)性模式和關(guān)聯(lián)模式、聚類模式等描述型模式,并且描述型模式一般不能直接應(yīng)用于預(yù)測(cè)。而就具體的時(shí)間序列數(shù)據(jù)挖掘的分類而言,其主要包括分類模式、關(guān)聯(lián)規(guī)則、聚類模式偏差分析、序列模式和回歸模式等幾個(gè)部分,下面就這幾個(gè)部分的主要內(nèi)容進(jìn)行詳細(xì)的闡述。

第一,序列模式。序列模式是數(shù)據(jù)挖掘中一個(gè)非常重要的研究課題,其已經(jīng)廣泛應(yīng)用于各行各業(yè)中,比如疾病診斷、DNA序列分析、自然災(zāi)害預(yù)測(cè)、Web訪問模式的預(yù)測(cè)等,并且該種模式與管理規(guī)則之間比較類似,其也是重點(diǎn)把握數(shù)據(jù)間的聯(lián)系。但是為了發(fā)現(xiàn)序列模式,相關(guān)人員必須要確定事件有無發(fā)生以及事件發(fā)生的時(shí)間。比如,在購(gòu)買彩色電視的人群中,有50%的人群會(huì)選擇在半年內(nèi)購(gòu)買影碟機(jī)。

第二,關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則又被稱為管理模式,其實(shí)際上就是形如XY的邏輯關(guān)系式,并且其中的X和Y分別代表數(shù)據(jù)庫中屬性取值的判斷。在當(dāng)前的管理規(guī)則算法中,常用的關(guān)聯(lián)規(guī)則算法策略是將其分解成兩個(gè)主要的子任務(wù),即頻繁項(xiàng)集的產(chǎn)生和規(guī)則的產(chǎn)生。

第三,分類模式。分類的概念實(shí)際上就是在已有訓(xùn)練集或者數(shù)據(jù)集的基礎(chǔ)上來構(gòu)造一個(gè)分類模型或者分類函數(shù),并將其應(yīng)用于實(shí)際的數(shù)據(jù)預(yù)測(cè)中來確保數(shù)據(jù)的挖掘的質(zhì)量。

第四,回歸模式。與分類模式類似,回歸模式的函數(shù)定義也是借助相應(yīng)的數(shù)學(xué)集合模型來表示,但是其預(yù)測(cè)值是連續(xù)的,這點(diǎn)與分類模式預(yù)測(cè)值的離散性是相互區(qū)別的。

第五,偏差分析。在時(shí)間序列數(shù)據(jù)庫中不可避免地會(huì)出現(xiàn)一些異常的記錄,找出這些異常記錄在確保數(shù)據(jù)挖掘質(zhì)量方面具有重要的意義。偏差包含許多潛在的知識(shí),比如分類中不規(guī)則的特例、反常實(shí)例或者偏差預(yù)測(cè)值過大的模型等。

第六,聚類模式。所謂的聚類實(shí)際上就是將一組時(shí)間序列數(shù)據(jù)按照差異性和相似性規(guī)程來進(jìn)行合適的分類,以盡可能地減小同類別數(shù)據(jù)間的差異性,增強(qiáng)他們之間的相似性,提高數(shù)據(jù)挖掘的質(zhì)量。

2.2 傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘的方法分析

理論上來講,傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘方法主要包括決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、粗集方法、遺傳算法、模糊集方法、統(tǒng)計(jì)分析方法、概念樹方法、可視化技術(shù)和貝葉斯網(wǎng)絡(luò)等幾種常用的數(shù)據(jù)挖掘方法。比如其中的神經(jīng)網(wǎng)絡(luò)方法具有自適應(yīng)性、自組織性和魯棒性好的優(yōu)勢(shì),非常適合用于解決數(shù)據(jù)挖掘中存在的各種問題,是近些年人們關(guān)注度比較大的一種方式,并且其更加適合于當(dāng)前我國(guó)市場(chǎng)數(shù)據(jù)庫的建模與分析;概念樹方法則是對(duì)時(shí)間序列數(shù)據(jù)庫中記錄的屬性字段按照歸類的方法進(jìn)行抽象所得到的層次結(jié)構(gòu),這點(diǎn)與我國(guó)所指定的省市縣地區(qū)結(jié)構(gòu)分布類似;可視化技術(shù)則大大拓寬了我國(guó)傳統(tǒng)圖表所具有的功能,可以使人們更加清楚地剖析時(shí)間序列數(shù)據(jù),同時(shí)也可以更好地歸納數(shù)據(jù)中存在的規(guī)律性;粗集方法則是一種研究不確定、不精確數(shù)學(xué)知識(shí)的工具,其具有操作簡(jiǎn)便、算法簡(jiǎn)單等優(yōu)點(diǎn),所以是當(dāng)前常用的一種方法。

2.3 傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘的局限性

通常而言,建模是時(shí)間序列數(shù)據(jù)挖掘的前提和基礎(chǔ),但是所建模型大都局限于常參數(shù)、平穩(wěn)的單變量CARMA模型或ARMA模型,所以實(shí)際的數(shù)據(jù)挖掘過程中可能存在一定的誤差,準(zhǔn)確性和可靠性無法得以保證。另外,其局限性還表現(xiàn)為以下幾個(gè)方面:建模方法所采用的非線性最小二乘法或者最大似然法的計(jì)算量非常大,并且計(jì)算的可靠性比較低;沒有考慮到噪聲污染所對(duì)應(yīng)的時(shí)間序列,即數(shù)據(jù)的濾波問題沒有得到有效地估計(jì)處理;實(shí)際所用的分析方法主要為譜分析法(或頻域方法)等,所以為了確保結(jié)果的可靠性和準(zhǔn)確性,就必須要對(duì)這些局限性問題進(jìn)行切實(shí)解決。而現(xiàn)代時(shí)間序列數(shù)據(jù)挖掘方式則可以有效地突破上述傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘中存在的種種局限點(diǎn),不僅可以簡(jiǎn)化建模及其計(jì)算的方法,也可以用新型的新息方法和狀態(tài)空間方法來取代傳統(tǒng)時(shí)間序列,還可以有效地應(yīng)用自校正和自適應(yīng)預(yù)測(cè)原理來分析現(xiàn)代時(shí)間序列,同時(shí)也可以有效地提升時(shí)間序列挖掘的質(zhì)量。因此,在實(shí)際的應(yīng)用中,相關(guān)人員必須要不斷發(fā)展、改造和創(chuàng)新時(shí)間序列的分析方式和手段。

總之,隨著數(shù)據(jù)收集技術(shù)和存儲(chǔ)技術(shù)的快速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的日臻完善,人們所積累的數(shù)據(jù)也越來越多,同時(shí)這些與日俱增的數(shù)據(jù)背后也涵蓋了大量的重要數(shù)據(jù)信息,但是傳統(tǒng)的時(shí)間序列數(shù)據(jù)挖掘手段卻無法深入分析這些數(shù)據(jù)。因此,相關(guān)人員必須要采用現(xiàn)代時(shí)間序列數(shù)據(jù)挖掘手段,同時(shí)要不斷完善和創(chuàng)造新的方法,從而更好地使用當(dāng)前與日增的時(shí)間序列數(shù)據(jù)。

參考文獻(xiàn):

[1]劉勁松.數(shù)據(jù)挖掘中的現(xiàn)代時(shí)間序列分析方法[J].信息技術(shù),2014,11(7):100-102.

第5篇:數(shù)學(xué)建模聚類算法范文

關(guān)鍵詞:R語言;數(shù)據(jù)挖掘;C4.5;Cart

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)28-0016-03

隨著互聯(lián)網(wǎng)社交網(wǎng)站的繁榮和各種網(wǎng)絡(luò)應(yīng)用的不斷深入,社交網(wǎng)站已成為互聯(lián)網(wǎng)上的重要平臺(tái)應(yīng)用。伴隨社交網(wǎng)絡(luò)的發(fā)展,不同地域、性格和特質(zhì)的用戶群展現(xiàn)出了差異化的需求,面對(duì)這些群體和用戶需求,如何細(xì)分市場(chǎng)識(shí)別并提供差異化的服務(wù),以幫助企業(yè)在激烈的競(jìng)爭(zhēng)中保持老用戶,發(fā)展新用戶。本文圍繞社交網(wǎng)絡(luò)理論和客戶細(xì)分理論的研究,運(yùn)用數(shù)據(jù)挖掘工具中的決策樹算法,對(duì)社交網(wǎng)絡(luò)客戶細(xì)分進(jìn)行了深入的探討并最終得出可指導(dǎo)時(shí)間的社交網(wǎng)絡(luò)客戶細(xì)分規(guī)則。

1.1 R語言

R是一種在數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域廣泛使用的語言,R語言是一種開源語言,該語言的前身是S語言,也可以說R語言是S語言的一種實(shí)現(xiàn),R在語法上類似C語言。R是一個(gè)統(tǒng)計(jì)分析軟件,既可以進(jìn)行統(tǒng)計(jì)分析,又可以進(jìn)行圖形顯示。R能進(jìn)行復(fù)雜的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理,利用數(shù)據(jù)、向量、矩陣的數(shù)學(xué)方法進(jìn)行各種統(tǒng)計(jì)分析,并將統(tǒng)計(jì)分析結(jié)果以圖形方式展示出來,因此R也是一種統(tǒng)計(jì)制圖軟件。R內(nèi)嵌豐富的數(shù)學(xué)統(tǒng)計(jì)函數(shù),從而使使用者能靈活的進(jìn)行統(tǒng)計(jì)分析。它可以運(yùn)行于UNIX,Windows和Macintosh的操作系統(tǒng)上,而且嵌入了一個(gè)非常方便實(shí)用的幫助系統(tǒng)。

R是一種功能強(qiáng)大的編程語言,就像傳統(tǒng)的編程語言C和JAVA一樣,R也可以利用條件、循環(huán)等編程方法實(shí)現(xiàn)對(duì)數(shù)據(jù)的各種處理,從而實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)目的。R作為一種開源的軟件,被越來越多的用來代替SAS等軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析。

R作為一個(gè)統(tǒng)計(jì)系統(tǒng)來使用,其中集成了用于經(jīng)典和現(xiàn)代統(tǒng)計(jì)分析的各種算法和函數(shù),這些算法和函數(shù)是以包的形式提供的。R內(nèi)含了8個(gè)包,如果需要其他的包,可在官網(wǎng)上進(jìn)行下載安裝。

1.2 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(Data mining),顧名思義就是從海量的數(shù)據(jù)中運(yùn)用數(shù)據(jù)挖掘算法從中提取出隱含的、有用的信息。數(shù)據(jù)挖掘涉及統(tǒng)計(jì)學(xué)、人工智能和數(shù)據(jù)庫等多種學(xué)科。近年來,隨著計(jì)算機(jī)的發(fā)展,各個(gè)領(lǐng)域積累了海量的數(shù)據(jù),這些數(shù)據(jù)如何變廢為寶,這就需要數(shù)據(jù)挖掘的幫助。因此數(shù)據(jù)挖掘在信息產(chǎn)業(yè)界廣泛應(yīng)用,比如市場(chǎng)決策和分析、科學(xué)研究、智能探索、商務(wù)管理等。

數(shù)據(jù)挖掘是一個(gè)多學(xué)科的交叉領(lǐng)域,統(tǒng)計(jì)學(xué)、人工智能和數(shù)據(jù)庫等多種學(xué)科為數(shù)據(jù)挖掘提供豐富的理論基礎(chǔ)。包括統(tǒng)計(jì)學(xué)的概率分析、相關(guān)性、參數(shù)估計(jì)、聚類分析和假設(shè)檢驗(yàn)等,以及機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別、信息檢索、知識(shí)庫、并行計(jì)算、圖形學(xué)、數(shù)據(jù)庫等。同時(shí)數(shù)據(jù)挖掘也為這些領(lǐng)域提供了新的挑戰(zhàn)和機(jī)遇。例如,數(shù)據(jù)挖掘提升了源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面性能。隨著數(shù)據(jù)挖掘的蓬勃發(fā)展,近幾年分布式技術(shù)在處理海量數(shù)據(jù)方面也變得越來越重要,尤其是Hadoop的發(fā)展極大的提高了數(shù)據(jù)挖掘的并行處理效率。

數(shù)據(jù)挖掘也同時(shí)促進(jìn)了數(shù)據(jù)挖掘算法的發(fā)展,數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的方法和計(jì)算方法,算法將首先分析數(shù)據(jù)源提供的數(shù)據(jù),根據(jù)數(shù)據(jù)的特點(diǎn)和需求建立特定的數(shù)學(xué)模型。

根據(jù)數(shù)據(jù)挖掘模型的特點(diǎn),可以選擇相應(yīng)的算法。在選擇算法是,可根據(jù)實(shí)際情況選擇劃分聚類的算法,或選擇決策樹的算法。選擇算法的不同可能對(duì)挖掘結(jié)果有一定的影響。

數(shù)據(jù)挖掘的步驟是首先確立挖掘目標(biāo),提出一個(gè)初步計(jì)劃,估計(jì)用到的工具和技術(shù);第二步是數(shù)據(jù)理解,即收集原始數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行描述和初步探索,檢查這些數(shù)據(jù)的質(zhì)量;第三步是數(shù)據(jù)準(zhǔn)備,包括數(shù)據(jù)選擇、清洗、合并和格式化;第四步是建立數(shù)據(jù)模型,包括選擇建模技術(shù)、測(cè)試方案設(shè)計(jì)、模型訓(xùn)練;第五步是模型評(píng)估,根據(jù)評(píng)估結(jié)果得出結(jié)論,確定是否部署該模型;第六步是模型部署;第七步是選擇算法;最后是得出結(jié)論。

1.3 C4.5算法

C4.5是一種機(jī)器學(xué)習(xí)的方法,在數(shù)據(jù)挖掘分類中應(yīng)用廣泛,它的目標(biāo)是監(jiān)督學(xué)習(xí)。C4.5是在ID3的基礎(chǔ)上衍生出來的。ID3是一種決策樹算法。ID3衍生出C4.5和CART兩種算法。

C4.5的算法思路是,在給定的數(shù)據(jù)集中,每一個(gè)元祖都是互斥的,每一個(gè)元組都能用一組屬性值來描述,每一個(gè)元組都屬于某一類別。C4.5的目標(biāo)是通過學(xué)習(xí),建立一個(gè)從屬性值到類別的映射關(guān)系,并且這個(gè)映射能夠指導(dǎo)對(duì)新的類別進(jìn)行分類。

C4.5是一種決策樹算法,決策樹是一種樹結(jié)構(gòu),其中每個(gè)非葉節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)葉節(jié)點(diǎn)給定一個(gè)類標(biāo)記。決策樹建立起來之后,對(duì)于一個(gè)未給定類標(biāo)記的元組,學(xué)習(xí)一條有根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑,該葉節(jié)點(diǎn)的標(biāo)記就是該元組的預(yù)測(cè)。決策樹的優(yōu)勢(shì)在于適合于探測(cè)性的知識(shí)發(fā)現(xiàn)。

圖1就是一棵典型的C4.5算法對(duì)數(shù)據(jù)集產(chǎn)生的決策樹。

表1所示,它表示的是天氣情況與去不去打高爾夫球之間的關(guān)系。

1.4 Cart算法

CART(Classification And Regression Tree),即分類回歸樹算法,該算法是一種決策樹算法,并且生成的是一棵二叉樹。Cart有兩種關(guān)鍵思想,一種是將訓(xùn)練樣本進(jìn)行二分遞歸分割建樹,即給定一個(gè)訓(xùn)練集,用二分算法將該訓(xùn)練集分成兩個(gè)子訓(xùn)練集,不斷遞歸鄉(xiāng)下分割,這樣每個(gè)非葉子節(jié)點(diǎn)都有兩個(gè)分支,所以對(duì)于第一棵子樹的葉子節(jié)點(diǎn)數(shù)比非葉子節(jié)點(diǎn)數(shù)多1,最終形成一顆二叉樹;另一種是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。

遞歸劃分法,用類別集Y表示因變量,用X1,X2,…,XP表示自變量,通過遞歸分割的方式把關(guān)于X的P維空間分割成不重疊的矩形。

CART算法是怎樣進(jìn)行樣本劃分的呢?首先,一個(gè)自變量被選擇,例如Xi的一個(gè)值Si,若選擇Si把P維空間分為兩個(gè)部分,一部分包含的元素都滿足XiSi。其次把上述分割的兩部分遞歸分割,直到把X空間劃分的每個(gè)小矩形都盡可能的是同構(gòu)的。

CART過程中第二個(gè)關(guān)鍵的思想是用獨(dú)立的驗(yàn)證數(shù)據(jù)集對(duì)根據(jù)訓(xùn)練集生長(zhǎng)的樹進(jìn)行剪枝。CART剪枝的目的是生成一個(gè)具有最小錯(cuò)誤的樹,因?yàn)橐环矫嬖跇渖蛇^程中可能存在不能提高分類純度劃分節(jié)點(diǎn),如果使用這些異常數(shù)據(jù)進(jìn)行分類,分類的準(zhǔn)確性就會(huì)受到很大的影響。剪去這些異常數(shù)據(jù)的過程,被稱為樹剪枝。通過剪枝,可以去除這些孤立點(diǎn)和雜音,提高樹獨(dú)立于訓(xùn)練數(shù)據(jù)正確分類的能力。另一方面分類回歸樹的遞歸建樹過程存在過擬合訓(xùn)練數(shù)據(jù)。

CART用成本復(fù)雜性標(biāo)準(zhǔn)來剪枝。CART用的成本復(fù)雜性標(biāo)準(zhǔn)是分類樹的簡(jiǎn)單誤分(基于驗(yàn)證數(shù)據(jù)的)加上一個(gè)對(duì)樹的大小的懲罰因素。成本復(fù)雜性標(biāo)準(zhǔn)對(duì)于一個(gè)數(shù)來說是Err(T)+a|L(T)|,其中a表示每個(gè)節(jié)點(diǎn)的懲罰,Err(T)是驗(yàn)證數(shù)據(jù)被樹誤分部分,L(T)是樹T的葉節(jié)點(diǎn)樹,其中a是一個(gè)變動(dòng)的數(shù)字。從這個(gè)序列的樹中選擇一個(gè)在驗(yàn)證數(shù)據(jù)集上具有最小誤分的樹稱為最小錯(cuò)誤樹。

2 基于R語言數(shù)據(jù)挖掘算法的客戶分類

2.1 數(shù)據(jù)準(zhǔn)備

本研究采用的社交網(wǎng)絡(luò)數(shù)據(jù)均來自于某論壇,本文采用LoalaSam爬蟲程序,LoalaSam是一個(gè)由c/c++開發(fā),運(yùn)行在Windows平臺(tái)上的一個(gè)多線程的網(wǎng)絡(luò)爬蟲程序,它甚至每一個(gè)工作線程可以遍歷一個(gè)域名。LoalaSam能快速的獲取信息,圖片,音頻,視頻等資源。

通過LoalaSam對(duì)某論壇進(jìn)行爬去,采用LoalaSam模仿用戶登錄,跳過驗(yàn)證碼,不斷地向服務(wù)器發(fā)出請(qǐng)求,進(jìn)入用戶界面后,并通過網(wǎng)頁中的超鏈接,以該用戶為根節(jié)點(diǎn)抓取和此用戶相關(guān)聯(lián)的所有用戶,并遞歸的不斷縱深抓取,最終形成實(shí)驗(yàn)用的數(shù)據(jù)源。并將這些數(shù)據(jù)保存到Oracle數(shù)據(jù)庫中。

通過Oracle數(shù)據(jù)庫存取采集到的數(shù)據(jù),數(shù)據(jù)庫一共使用兩張表,一張關(guān)系表friend,一個(gè)實(shí)體表user,每次抓取到的客戶信息全部存入user表中,并同時(shí)為所有好友關(guān)系在user表中進(jìn)行關(guān)聯(lián)。

本文采用基于R語言的數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)社交網(wǎng)絡(luò)的客戶細(xì)分。本文在聚類算法實(shí)現(xiàn)的時(shí)候創(chuàng)新性的提出一種新的聚類策略即首先通過分層聚類算法計(jì)算樣本抽樣并得出可聚類的簇?cái)?shù)。然后將簇?cái)?shù)傳遞給劃分聚類算法,在所有實(shí)驗(yàn)樣本上進(jìn)行更為精確和高效的重定位?;诖司垲惤Y(jié)果,我們將同時(shí)采用Cart算法和C4.5算法來進(jìn)行決策樹規(guī)則探索。

2.2 數(shù)據(jù)預(yù)處理

本文研究數(shù)據(jù)的預(yù)處理,從數(shù)據(jù)的抓取結(jié)果來看很多屬性類型為字符型,無論是采用數(shù)據(jù)庫系統(tǒng)還是轉(zhuǎn)換為其他形式的文件形式來存儲(chǔ),挖掘算法處理起來其速度、資源消耗都不是樂觀的。因此對(duì)部分屬性就行了數(shù)字離散化處理。

2.3 PAM分類算法實(shí)證

本文在進(jìn)行聚類研究的時(shí)候,采取了折中的辦法。首先利用分層方法對(duì)樣本進(jìn)行聚類,得出可劃分的簇?cái)?shù)目;進(jìn)而將分層所得的簇?cái)?shù)目以參數(shù)形式回傳劃分算法,進(jìn)行迭代和重新定位。即采用DIANA算法劃分抽樣樣本,得出可劃分的簇?cái)?shù)目K,進(jìn)而將K交予PAM,以對(duì)樣本進(jìn)行重新劃分定位。兩種方法協(xié)同作用,共同確立最后的劃分。

PAM算法將整個(gè)樣本劃分為4部分,在excel里利用透視表對(duì)相應(yīng)type進(jìn)行匯總,分別計(jì)算各個(gè)類別的平均來訪輸(Account),平均分享相冊(cè)數(shù)(Album),平均貢獻(xiàn)日志數(shù)(Diary),平均擁有的好友數(shù)(Frinum);Count列代表每種類別的客戶數(shù)。

PAM算法產(chǎn)生的四種類別:

觀察可知,絕大部分客戶集中在群組1,這個(gè)群組來訪人數(shù)和好友數(shù)較多,相冊(cè)數(shù)和日志數(shù)也處于中上游水平,在擁有相當(dāng)社會(huì)資本的同時(shí)具備一定的成長(zhǎng)潛力,是論壇的中間力量,為Diamond用戶。群組2位居第二,這群組各項(xiàng)指標(biāo)均位于末端,也是所謂的消極客戶,稱之為Copper。群組4除日志數(shù)和好友數(shù)率高于Copper組外,其余觀察均墊底,表明這部分客戶的成長(zhǎng)潛力和積極性都未表現(xiàn)出來,有可能是新加入客戶,稱之為Silver。群組3客戶人數(shù)位居最末,其余各項(xiàng)指標(biāo)均位居第一,表明這個(gè)群組在社交網(wǎng)中最受歡迎,稱之為Gold。

由于只將客戶的社會(huì)屬性提取作為類別命名的依據(jù),四個(gè)類別背后隱含其他信息均未在上述討論中,但是實(shí)際影響類別的分屬,如果研究具體挖掘各個(gè)因素對(duì)于客戶細(xì)分類別的影響,還應(yīng)該通過決策樹和相應(yīng)的決策規(guī)則方法。

2.4 CART策樹算法實(shí)證

CART算法采用二分遞歸分割的技術(shù),利用GINI系數(shù)為屬性找到最佳劃分,能夠考慮每個(gè)節(jié)點(diǎn)都成為葉子的可能,對(duì)每個(gè)節(jié)點(diǎn)都分配類別。CART可以生成結(jié)構(gòu)簡(jiǎn)潔的二叉樹,但精度和效率較C$.5差。

首先進(jìn)行CART算法分析,需要下載tree程序包。R語言的實(shí)現(xiàn)過程如下:

>library(tree) #加載程序包

>newint=read.csv(“interval.csv”) #interval為合并過類別的新表

>nt=tree(type~,new int) #調(diào)用算法對(duì)原始數(shù)據(jù)進(jìn)行建樹

>summary(nt) #輸出Cart決策樹的概要

Classification tree:

Tree(formula = type ~,data = int)

我們發(fā)現(xiàn)Cart算法能清晰地描述出規(guī)則,并輸出一顆簡(jiǎn)潔明了的二叉樹。上述決策樹規(guī)則中,行末標(biāo)注“*”號(hào)的為最終輸出的決策樹規(guī)則??梢园l(fā)現(xiàn),此模型中葉節(jié)點(diǎn)為每一分支中y值概率最高的類別決定,最終生成了深度為5,葉節(jié)點(diǎn)數(shù)為15的一顆二叉樹。

第一分支是以來訪人數(shù)Account作為測(cè)試屬性的,分成Account=2.5兩枝:在Account=2.5這一枝則判斷好友數(shù)Frinum的數(shù)量。依此類推,最終得到15個(gè)葉節(jié)點(diǎn)和規(guī)則,節(jié)點(diǎn)的樣本量分布依次為1056,117,883,1107,396,845,353, 650,462,591,919,1046,451,264,370。從分類結(jié)果看,最終的錯(cuò)分率(Misclassification error rate)為24%,,劃分效果上表現(xiàn)中規(guī)中矩。

用CART算法建立的模型結(jié)果簡(jiǎn)單易懂,很容易被人理解,它以一種簡(jiǎn)潔的方式解釋了為什么數(shù)據(jù)進(jìn)行這樣或那樣的分類,所以當(dāng)分析商業(yè)問題時(shí),這種方法會(huì)給決策者提供簡(jiǎn)潔的if-then規(guī)則,遠(yuǎn)比一些復(fù)雜的方程更讓決策者接受。

2.5 C4.5決策樹算法實(shí)證

接著我們嘗試用C4.5算法得到一顆完備的決策樹。在R語言中實(shí)現(xiàn)C4.5算法需要用到RWeKa數(shù)據(jù)包。WeKa全名為懷卡托智能分析環(huán)境(Waikato Environment for knowledge Analisys),是一個(gè)基于Java,用于數(shù)據(jù)挖掘用于數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的開源項(xiàng)目。其開發(fā)者是來自新西蘭懷卡托大學(xué)的兩名學(xué)者lanH.Witten和Eibe Frank。經(jīng)過十多年年的發(fā)展歷程,WeKa是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一,而且被公認(rèn)為是數(shù)據(jù)挖掘開源項(xiàng)目中最著名的一個(gè)。RWeKa為Weka的R語言擴(kuò)展包,成功加載RWe卡包后就可以在R語言環(huán)境中實(shí)現(xiàn)Weka的數(shù)據(jù)挖掘功能。RWeka的數(shù)據(jù)挖掘功能。RWeka的安裝同樣需要一定的數(shù)據(jù)包支持,都成功導(dǎo)入后,程序才能正常調(diào)用。WeKa里的J48決策樹模型是對(duì)Quinlan的C4.5決策樹算法的實(shí)現(xiàn),并加入了合理的剪枝過程,有非常好的精度。

以下為算法的R語言實(shí)現(xiàn)過程:

>library(RWeka) #加載RWeka程序包

>library(party) #加載party程序包

>inj

>summary(inj) #輸出C4.5決策樹的概要

對(duì)結(jié)果觀察發(fā)現(xiàn),C4.5的決策樹效果相當(dāng)好,正確分類的樣本數(shù)為10231個(gè),準(zhǔn)確率達(dá)到98%。聚類結(jié)果中Diamond中只有26個(gè)被錯(cuò)誤預(yù)測(cè)為Gold,1個(gè)被錯(cuò)誤預(yù)測(cè)為Silver,還有1個(gè)被錯(cuò)誤預(yù)測(cè)為Copper。但是由于決策樹過于完備,節(jié)點(diǎn)和葉子都較多。實(shí)際操作的時(shí)候可視具體情況需要結(jié)合Cart和C4.5的特點(diǎn)進(jìn)行取舍。

3 結(jié)論

隨著社交網(wǎng)絡(luò)的蓬勃發(fā)展,本文圍繞社交網(wǎng)絡(luò)理論和客戶細(xì)分理論研究,運(yùn)用數(shù)據(jù)挖掘工具中的PAM聚類算法和Cart和C4.5決策樹算法,對(duì)社交網(wǎng)絡(luò)的客戶細(xì)分進(jìn)行了深入的探討并最終得出可指導(dǎo)實(shí)踐的社交網(wǎng)絡(luò)客戶細(xì)分規(guī)則。

本文分析決策樹的過程將同時(shí)采用兩種決策樹算法,利用CART算法提供可視化的二叉樹,利用C4.5提供完備的決策樹規(guī)則。

C4.5和Cart是決策樹中比較常見的算法,C4.5具有思想簡(jiǎn)單,構(gòu)造的樹深度小、分類速度快、學(xué)習(xí)能力強(qiáng)、構(gòu)造結(jié)果可靠等優(yōu)點(diǎn),但當(dāng)節(jié)點(diǎn)數(shù)較多時(shí),其在決策樹規(guī)則的可視化和可理解程度方面較差。

Cart算法采用二分遞歸分割的技術(shù),利用Gini系數(shù)為屬性找到最佳劃分,能夠考慮每個(gè)節(jié)點(diǎn)都成為葉子的可能,對(duì)每個(gè)節(jié)點(diǎn)都分配類別。Cart可以生成結(jié)構(gòu)簡(jiǎn)潔的二叉樹,但精度和效率較差。前者生成可理解的簡(jiǎn)單的樹圖,但在劃分精度還有所欠缺;后者在劃分上產(chǎn)生的葉節(jié)點(diǎn)和規(guī)則較多,但錯(cuò)分率低至2%。在實(shí)際的操作過程中,需視實(shí)際需要進(jìn)行取舍。

參考文獻(xiàn):

[1] 薛薇,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.

[2] Heather Green, Making Social Networks Profitable.BussinessWeek, Sep 2008

第6篇:數(shù)學(xué)建模聚類算法范文

關(guān)鍵詞:PEMFC系統(tǒng);結(jié)構(gòu);建模

中圖分類號(hào):TP183

PEMFC系統(tǒng)是一種具有多輸入、多相流循環(huán)的復(fù)雜化學(xué)、電化學(xué)反應(yīng)系統(tǒng),具有強(qiáng)非線性。從上個(gè)世紀(jì)80年代起,國(guó)外研究人員對(duì)PEMFC的數(shù)學(xué)模型進(jìn)行了廣泛而深入的研究,建立了各種靜態(tài)或動(dòng)態(tài)解析模型,對(duì)分析和提高PEMFC的性能起到了重要的作用。然而解析建模不得不作大量的簡(jiǎn)化和假設(shè),其結(jié)果模型精度極為有限,表達(dá)式過于復(fù)雜,很難用于控制系統(tǒng)的設(shè)計(jì),特別是滿足在線控制的設(shè)計(jì)需要。模糊辨識(shí)是一種簡(jiǎn)單靈活有效的建模方法。它首先把被控對(duì)象系統(tǒng)連續(xù)的輸入輸出變量空間采用模糊聚類方法劃分成若干相互交疊的子空間,然后將這些子空間用模糊規(guī)則聯(lián)系起來,形成一個(gè)完整的系統(tǒng)模型,被控系統(tǒng)的先驗(yàn)知識(shí)很容易添加到這個(gè)模型中,從而避開被控對(duì)象的內(nèi)部復(fù)雜性。本文提出了一種基于模糊神經(jīng)網(wǎng)絡(luò)的PEMFC系統(tǒng)辨識(shí)方法對(duì)PEMFC電堆的氫氣輸入壓力、空氣輸入壓力和輸出電壓的關(guān)系進(jìn)行建模。

1 燃料電池電堆的描述和分析

圖1 燃料電池工作示意圖

燃料電池的工作過程實(shí)際是電解水的逆過程。一個(gè)典型的質(zhì)子交換膜燃料電池是由陰極、陽極、催化劑層、電解質(zhì)隔板構(gòu)成的,電池的工作原理如圖1所示。氫氣通過導(dǎo)氣板到達(dá)陽極,在陽極催化劑作用下,氫分子分解為帶正電的氫離子(即質(zhì)子),并釋放出帶負(fù)電的電子。氫離子穿過電解質(zhì)(質(zhì)子交換膜)到達(dá)陰極,電子則通過外電路到達(dá)陰極。電子在外電路形成電流,通過連接向負(fù)載輸出電能。在電池的另一端,氧氣或空氣涌過導(dǎo)氣板到達(dá)陰極,在陰極催化劑作用下,氧與氫離子及電子發(fā)生反應(yīng)生成水。

在控制過程中,氫氣和空氣的輸入壓力過大,會(huì)使得氫氣和空氣的流速過快,會(huì)使反應(yīng)不完全并過多地帶走熱量,降低電池的工作溫度,從而使電池的電性能變差;而壓力過小會(huì)使得流速過慢則將無法滿足負(fù)載要求,膜溫度升高,甚至導(dǎo)致干膜,影響電池壽命。

2 辨識(shí)的結(jié)構(gòu)與算法

利用T-S模糊模型描述復(fù)雜、病態(tài)、非線性系統(tǒng)動(dòng)態(tài)特性,是一種十分有效的方法。T-S模糊模型以系統(tǒng)局部線性化為基礎(chǔ),通過模糊推理實(shí)現(xiàn)全局的非線性,可以克服模型的高維問題,結(jié)構(gòu)簡(jiǎn)單、逼近能力強(qiáng),是模糊辨識(shí)中常用模型。設(shè)計(jì)出如圖2所示的模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。由圖2可見,該網(wǎng)絡(luò)由前件網(wǎng)絡(luò)和后件網(wǎng)絡(luò)兩部分組成,前件網(wǎng)絡(luò)用來匹配模糊規(guī)則的前件,后件網(wǎng)絡(luò)用來產(chǎn)生模糊規(guī)則的后件。

(1)前件網(wǎng)絡(luò)。前件網(wǎng)絡(luò)由4層組成。第一層為輸入層。它的每個(gè)節(jié)點(diǎn)直接與輸入向量的各分量xi連接,它起著將輸入值x=[x1 x2…xn]T傳送到下一層的作用。該層的節(jié)點(diǎn)數(shù)N1=n。

第二層每個(gè)節(jié)點(diǎn)代表一個(gè)語言變量值,如NM、PS等。它的作用是計(jì)算各輸入分量屬于各語言變量值模糊集合的隸屬度后函數(shù)μij,即 式中,i=1,2,…n,j=1,2,…,mi;n是輸入量的維數(shù);mi是xi的模糊分割數(shù)。例如,若隸屬函數(shù)采用高斯函數(shù)表示的鈴型函數(shù),則 式中,cij和σij分別表示隸屬函數(shù)的中心和寬度。該層的節(jié)點(diǎn)總數(shù) 。

圖2 基于T-S模型的模糊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

第三層的每個(gè)節(jié)點(diǎn)代表一條模糊規(guī)則,它的作用是用來匹配模糊規(guī)則的前件,計(jì)算出每條規(guī)則的適應(yīng)度,即 或

式中,i1∈{1,2,…,m1},i2∈{1,2,…,m2},…,in∈{1,2,…,mn},j=1,2,…m, 。

該層的節(jié)點(diǎn)總數(shù)N3=m。對(duì)于給定的輸入,只有在輸入點(diǎn)附近的語言變量值才有較大的隸屬度值,遠(yuǎn)離輸入點(diǎn)的語言變量值的隸屬度或者很小(高斯型隸屬度函數(shù)),或者為0(三角型隸屬度函數(shù))。當(dāng)隸屬度函數(shù)很?。ㄈ缧∮?.05)時(shí),近似取為0。因此,在αj中只有少數(shù)節(jié)點(diǎn)輸出非0,而多數(shù)節(jié)點(diǎn)的輸出為0,這一點(diǎn)類似于局部逼近網(wǎng)絡(luò)。

第四層的節(jié)點(diǎn)數(shù)與第三層相同,N4=N3=m,它所實(shí)現(xiàn)的是歸一化計(jì)算,即 ,其中i=1,2,…m。

(2)后件網(wǎng)絡(luò)。后件網(wǎng)絡(luò)由r個(gè)結(jié)構(gòu)相同的并列子網(wǎng)絡(luò)所組成,每一個(gè)子網(wǎng)絡(luò)產(chǎn)生一個(gè)輸出量。子網(wǎng)絡(luò)的第一層是輸入層,它將輸入變量傳送到第二層。輸入層中第0個(gè)節(jié)點(diǎn)的輸入值x0=1,它的作用是提供模糊規(guī)則后件中的常數(shù)項(xiàng)。

3 將T-S模糊神經(jīng)網(wǎng)絡(luò)應(yīng)用于PEMFC(質(zhì)子交換膜燃料電池)的擬合

模糊建模方法簡(jiǎn)單方便,只要獲得輸入輸出變量的實(shí)驗(yàn)數(shù)據(jù)或?qū)<医?jīng)驗(yàn)即可,無需確定機(jī)理模型中有關(guān)PEMFC材料、結(jié)構(gòu)等特性的系數(shù),通常這些系數(shù)的確定比較復(fù)雜。PEMFC是多輸入多輸出系統(tǒng),模糊建模方法能夠更方便建立多變量模型,可方便地應(yīng)用于PEMFC的自動(dòng)控制系統(tǒng)中。

4 結(jié)束語

本文提出了基于T-S模糊神經(jīng)網(wǎng)絡(luò)對(duì)PEMFC電堆進(jìn)行建模。采用模糊網(wǎng)絡(luò)的方法進(jìn)行模糊辨識(shí),同時(shí),引入了經(jīng)驗(yàn)?zāi):?guī)則,通過樣本訓(xùn)練,從而建立了T-S模糊模型,可以快速準(zhǔn)確地跟蹤系統(tǒng)動(dòng)態(tài)。避開了系統(tǒng)內(nèi)部的復(fù)雜性,得到了合理結(jié)果,證明了方法的有效性當(dāng)然,PEMFC的T-S模型也存在不足,它不同于機(jī)理模型,缺乏明確的物理意義,無法反映PEMFC的內(nèi)部工作特征,還需進(jìn)一步完善,以建立影響因素比較全面的性能模型。

參考文獻(xiàn):

[1]J.Larminie and A.Dicks.Fuel Cell Systems Explained[M].New York:Wiley,2000.

[2]K.Kordesch and G.Simader.Fuel Cells and Their Applications[M].New York:VCH,1996.

第7篇:數(shù)學(xué)建模聚類算法范文

[關(guān)鍵詞]聯(lián)通業(yè)務(wù) 客戶關(guān)系 數(shù)據(jù)挖掘

中圖分類號(hào):TN 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2015)23-0208-01

一 概述

客戶決定企業(yè)命運(yùn)。企業(yè)關(guān)注重點(diǎn)從產(chǎn)品逐步轉(zhuǎn)換到客戶,逐漸形成客戶為中心的客戶關(guān)系管理理念??蛻絷P(guān)系管理是信息技術(shù)和商業(yè)發(fā)展過程中得出的理論體系,客戶管理需要客戶的支持??蛻絷P(guān)系管理是企業(yè)利用信息技術(shù)和企業(yè)生產(chǎn)銷售相結(jié)的產(chǎn)物??蛻絷P(guān)系管理核心價(jià)值就是實(shí)現(xiàn)客戶價(jià)值??蛻絷P(guān)系管理利用計(jì)算機(jī)技術(shù),實(shí)現(xiàn)市場(chǎng)信息化、銷售自動(dòng)化過程、對(duì)客戶分析的全過程??蛻絷P(guān)系管理可以使企業(yè)及時(shí)了解客戶實(shí)際情況,增強(qiáng)客戶對(duì)企業(yè)歸屬感和信任感。它是一種全新的管理客戶模式。數(shù)據(jù)挖掘在客戶關(guān)系管理研究與實(shí)踐,大大促進(jìn)客戶價(jià)值實(shí)現(xiàn)。數(shù)據(jù)挖掘?qū)蛻敉诰蚪Y(jié)果會(huì)給企業(yè)帶來指導(dǎo)意見,決定企業(yè)未來發(fā)展方向。

聯(lián)通的客戶關(guān)系管理系統(tǒng)是基于客戶戰(zhàn)略的,它為企業(yè)傳遞的是一種新的客戶服務(wù)理念,是聯(lián)通客戶需求的風(fēng)向標(biāo),它直接影響聯(lián)通如何認(rèn)識(shí)客戶以及如何對(duì)待客戶, 也直接影響聯(lián)通公司的客戶服務(wù)形象。通過數(shù)據(jù)挖掘系統(tǒng)與客戶管理系統(tǒng)的結(jié)合,可以有效的實(shí)現(xiàn)對(duì)客戶消費(fèi)模式和客戶市場(chǎng)推廣的分析,實(shí)現(xiàn)對(duì)客戶的動(dòng)態(tài)防欺詐、流失分析及競(jìng)爭(zhēng)對(duì)手分析。正確有效的運(yùn)用數(shù)據(jù)挖掘意義重大。

二 數(shù)據(jù)挖掘的步驟

1.理解數(shù)據(jù)和數(shù)據(jù)的來源,進(jìn)行數(shù)據(jù)收集

大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒有數(shù)據(jù),數(shù)據(jù)挖掘也就無從做起。數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接??梢?,在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。

2.整合與檢查數(shù)據(jù)

收集到的數(shù)據(jù)必須是有用的,避免可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,因此數(shù)據(jù)的整理是必須的。同時(shí),通過數(shù)據(jù)整理,可以對(duì)數(shù)據(jù)做簡(jiǎn)單的泛化處理,從而在原始數(shù)據(jù)的基礎(chǔ)上得到更為豐富的數(shù)據(jù)信息,進(jìn)而便于下一步數(shù)據(jù)挖掘的順利進(jìn)行。

3.利建立模型和假設(shè)

主要采用時(shí)序算法、聚類算法、關(guān)聯(lián)算法等,根據(jù)采集數(shù)據(jù)建立模型。

4.模型評(píng)估

模型建立完畢后,需要驗(yàn)證模型的正確性,并進(jìn)行調(diào)整。應(yīng)該利用未參與建模的數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn)。這樣做的原因是按照使用建模的數(shù)據(jù)進(jìn)行檢驗(yàn),由于模型就是按照這些數(shù)據(jù)建立的,檢驗(yàn)結(jié)果自然會(huì)很好。但是一旦運(yùn)用到實(shí)際數(shù)據(jù)中,就會(huì)產(chǎn)生很大的偏差。檢驗(yàn)的方法是對(duì)已知客戶狀態(tài)的數(shù)據(jù)利用模型進(jìn)行預(yù)測(cè),并將所得到的模型預(yù)測(cè)值,和實(shí)際的客戶狀態(tài)相比較,預(yù)測(cè)正確值最多的模型就是最優(yōu)模型。不斷重復(fù)進(jìn)行數(shù)據(jù)挖掘一評(píng)估過程,多次的循環(huán)反復(fù),以達(dá)到預(yù)期的效果。

5.決策分析

數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實(shí)際情況,調(diào)整競(jìng)爭(zhēng)策略等。

三.數(shù)據(jù)挖掘在聯(lián)通客戶管理業(yè)務(wù)中的作用

1 數(shù)據(jù)總結(jié)

數(shù)據(jù)總結(jié)目的是對(duì)大量的數(shù)據(jù)進(jìn)行濃縮,將數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個(gè)體層次抽象總結(jié)到較高的總體層次上,從而實(shí)現(xiàn)對(duì)原始基本數(shù)據(jù)的總體把握。是數(shù)據(jù)挖掘的基本作用。用統(tǒng)計(jì)學(xué)中的方法計(jì)算出數(shù)據(jù)庫的各個(gè)數(shù)據(jù)項(xiàng)的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計(jì)量,或者通過利用統(tǒng)計(jì)圖形工具,對(duì)數(shù)據(jù)制作直方圖、餅狀圖等,是最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法。另一種廣泛使用的數(shù)據(jù)總結(jié)方法是聯(lián)機(jī)分析處理,是對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、輔助領(lǐng)導(dǎo)決策,主要通過多維數(shù)據(jù)的查詢、旋轉(zhuǎn)、鉆取和切片等關(guān)鍵技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析和報(bào)表。

2 關(guān)聯(lián)分析

數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。

3 分類

分析數(shù)據(jù)的各種屬性,一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中,并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。

4 聚類

聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。

四.數(shù)據(jù)挖掘技術(shù)在聯(lián)通客戶管理管理方面的應(yīng)用

1.客戶市場(chǎng)推廣分析

通過優(yōu)惠策略預(yù)測(cè)仿真的方法,利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)優(yōu)惠策略的仿真。根據(jù)數(shù)據(jù)挖掘模型,進(jìn)行模擬計(jì)費(fèi)和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題,并進(jìn)行相應(yīng)的調(diào)整優(yōu)化,以達(dá)到優(yōu)惠促銷活動(dòng)的收益最大化。

2.客戶消費(fèi)模式分析

客戶分類是客戶數(shù)據(jù)分析基礎(chǔ),數(shù)據(jù)挖據(jù)對(duì)客戶分類使用聚類和分類。通過分類可以發(fā)現(xiàn)不同客戶群體的習(xí)慣和規(guī)律,找到客戶價(jià)值點(diǎn),準(zhǔn)確預(yù)測(cè)客戶消費(fèi)方向??蛻舴诸愖屖袌?chǎng)營(yíng)銷活動(dòng)更有目的性,提高市場(chǎng)營(yíng)銷效率,企業(yè)合理配置企業(yè)資源??蛻舴诸惤Y(jié)果實(shí)現(xiàn)客戶利益最大化。如固話及移動(dòng)話費(fèi)行為分析,是對(duì)客戶歷年來長(zhǎng)話、市話、信息臺(tái)的大量詳單數(shù)據(jù)以及客戶檔案資料等相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,增值業(yè)務(wù)話費(fèi)分析,結(jié)合客戶的分類,可以從消費(fèi)能力、消費(fèi)習(xí)慣、消費(fèi)周期等諸方面對(duì)客戶的話費(fèi)行為進(jìn)行分析和預(yù)測(cè),從而為聯(lián)通全業(yè)務(wù)運(yùn)營(yíng)商的相關(guān)經(jīng)營(yíng)決策提供依據(jù)。

3.客戶流失分析

這是根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務(wù)屬性、客戶消費(fèi)情況等數(shù)據(jù)與客戶流失概率相關(guān)聯(lián)的數(shù)學(xué)模型,找出這些數(shù)據(jù)之間的關(guān)系,給出明確的數(shù)學(xué)公式,并根據(jù)此模型來監(jiān)控客戶流失的可能性。如果客戶流失的可能性過高,可通過促銷等手段來提高客戶忠誠(chéng)

度,防止客戶流失的發(fā)生,這就徹底改變了以往電信運(yùn)營(yíng)商在成功獲得客戶以后無法監(jiān)控客戶流失、無法有效實(shí)現(xiàn)客戶關(guān)懷等狀況。

4.對(duì)客戶欠費(fèi)進(jìn)行分析和動(dòng)態(tài)防欺詐

通過數(shù)據(jù)挖掘,總結(jié)現(xiàn)存的各種騙費(fèi)及其欠費(fèi)行為的內(nèi)在規(guī)律,并建立一套防欺詐和防欠費(fèi)行為的規(guī)則庫,當(dāng)客戶的話費(fèi)行為與該庫中規(guī)則吻合時(shí),系統(tǒng)可以提示運(yùn)營(yíng)商相關(guān)部門采取措施,從而降低運(yùn)營(yíng)商的損失風(fēng)險(xiǎn)。

5.競(jìng)爭(zhēng)對(duì)手分析

準(zhǔn)確定位通信群體的屬,預(yù)測(cè)對(duì)手市場(chǎng)政策和活動(dòng)規(guī)律,提前做好市場(chǎng)競(jìng)爭(zhēng)準(zhǔn)備。 通過對(duì)競(jìng)爭(zhēng)對(duì)手的客戶消費(fèi)行為研究與分析,搭建競(jìng)爭(zhēng)對(duì)手模型。通過模型研究市場(chǎng),利用對(duì)競(jìng)爭(zhēng)對(duì)手的客戶群體數(shù)量和增長(zhǎng)情況,推出競(jìng)爭(zhēng)對(duì)手的客戶群體。

第8篇:數(shù)學(xué)建模聚類算法范文

[關(guān)鍵詞] 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

第9篇:數(shù)學(xué)建模聚類算法范文

數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)庫和人工智能領(lǐng)域研究的熱點(diǎn)課題, 本文首先對(duì)數(shù)據(jù)挖掘技術(shù)的國(guó)內(nèi)外總體研究情況進(jìn)行概略介紹,包括數(shù)據(jù)挖掘技術(shù)產(chǎn)生背景、應(yīng)用領(lǐng)域、分類;然后詳細(xì)闡述了數(shù)據(jù)挖掘的各種技術(shù)方法,并對(duì)數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域做了相關(guān)介紹。

【關(guān)鍵詞】數(shù)據(jù)挖掘 決策支持 關(guān)聯(lián)規(guī)則 模式

1 前言

數(shù)據(jù)挖掘含義是指從大量、模糊、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其內(nèi)部中、人

們?cè)炔恢獣缘?、卻潛在有用的信息和知識(shí)的過程。我們把提取出的信息和知識(shí)表示為規(guī)律、概念、模式、規(guī)則等形式。數(shù)據(jù)挖掘被認(rèn)為是一門跨多知識(shí)領(lǐng)域和學(xué)科的新興課題,它為我們使用數(shù)據(jù)從簡(jiǎn)單查詢將變?yōu)樵跀?shù)據(jù)里挖掘與發(fā)現(xiàn)知識(shí)從而產(chǎn)生對(duì)決策行為提供支持。為了能夠滿足人們從大量數(shù)據(jù)里發(fā)現(xiàn)知識(shí)的需求,來自不同領(lǐng)域的專家學(xué)者,都致力于研究這個(gè)熱點(diǎn)課題――數(shù)據(jù)挖掘,不斷研究和產(chǎn)生出新的研究成果。自從加拿大蒙特利爾在1995年召開了首屆KDD&Data Mining國(guó)際學(xué)術(shù)會(huì)議,此后每年舉辦一次。通過數(shù)年努力, 數(shù)據(jù)挖掘技術(shù)研究取得了豐碩的成果,不少數(shù)據(jù)挖掘的軟件產(chǎn)品,已在歐洲、北美等國(guó)家得到廣泛的應(yīng)用。目前,應(yīng)用廣泛的數(shù)據(jù)挖掘系統(tǒng)有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我國(guó),數(shù)據(jù)挖掘技術(shù)的研究也取得了相當(dāng)客觀的成果。

2 數(shù)據(jù)挖掘的技術(shù)方法

通常情況下,我們把數(shù)據(jù)挖掘方法分為兩大方面,一是統(tǒng)計(jì)類型,有概率分析、相

關(guān)性、聚類分析和判別分析等常用技術(shù);二是人工智能領(lǐng)域中的機(jī)器學(xué)習(xí)型,通過訓(xùn)練和學(xué)量的樣品集獲得需要的模式或參數(shù)。

2.1 遺傳算法

遺傳算法是基于生物進(jìn)化過程組合優(yōu)化方法,它是和計(jì)算機(jī)科學(xué)與生物學(xué)結(jié)合的產(chǎn)物,由美國(guó)密西根大學(xué)教授D.J.Holland和他的同事們?cè)?975年首次提出。人們總結(jié)的遺傳算法基本思想分為兩點(diǎn):第一,將物種進(jìn)化理論用于求解問題,物種進(jìn)化又分為變異和遺傳兩個(gè)方面;第二,只有最能適應(yīng)環(huán)境的物種才能生存下來,所以需要反復(fù)求解后才可以獲得最佳解。遺傳算法按照規(guī)則產(chǎn)生經(jīng)過基因編碼最初群體,然后從代表問題可能潛在答案的初始群體出發(fā),選擇適應(yīng)度強(qiáng)的個(gè)體進(jìn)行交換和變異,目的是發(fā)現(xiàn)適應(yīng)度更佳的個(gè)體,這樣一代代地演化,得到最優(yōu)個(gè)體,解碼,該最佳個(gè)體編碼就是對(duì)應(yīng)的問題最佳解或近似最佳解。在遺傳算法的使用上,它的優(yōu)點(diǎn)是對(duì)問題要求信息較少,比較高效性和靈活性。在數(shù)據(jù)挖掘中,經(jīng)常用于估測(cè)其它算法的適合度,同時(shí)遺傳算法擅長(zhǎng)于數(shù)據(jù)聚類,通過和空間上類比和時(shí)間上類比,能夠使大量復(fù)雜數(shù)據(jù)系統(tǒng)化、條理化,從而找出他們之間的內(nèi)在聯(lián)系,獲得有用概念和模式。

2.2 關(guān)聯(lián)分析

在大型數(shù)據(jù)庫中,關(guān)聯(lián)規(guī)則挖掘是最常見的數(shù)據(jù)挖掘任務(wù)之一。關(guān)聯(lián)規(guī)則挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間的相關(guān)聯(lián)系。最著名的關(guān)聯(lián)規(guī)則挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有頻繁1-項(xiàng)集集合Ll,使用L1查找頻繁2-項(xiàng)集集合L2,繼而用L2用于L3,反復(fù)迭代,一直到不能找到頻繁k-項(xiàng)集。并利用事先設(shè)定好的最小支持度閾值進(jìn)行篩選,將小于最小支持度的候選項(xiàng)集刪除,再進(jìn)行下一次的合并生成該層的頻繁項(xiàng)集。經(jīng)過篩選可減少候選項(xiàng)集數(shù),從而加快關(guān)聯(lián)規(guī)則挖掘的速度。

2.3 決策樹

決策樹算法之所以在數(shù)據(jù)分析挖掘應(yīng)用中如此流行,主要原因在于決策樹的構(gòu)造不需要任何領(lǐng)域的知識(shí),很適合探索式的知識(shí)發(fā)掘,并且可以處理高維度的數(shù)據(jù)。在眾多的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析算法中,決策樹最大的優(yōu)點(diǎn)在于它所產(chǎn)生的一系列從樹根到樹枝(或樹葉)的規(guī)則,可以很容易地被分析師和業(yè)務(wù)人員理解,而且這些典型的規(guī)則甚至不用整理(或稍加整理),就是現(xiàn)成的可以應(yīng)用的業(yè)務(wù)優(yōu)化策略和業(yè)務(wù)優(yōu)化路徑。另外,決策樹技術(shù)對(duì)數(shù)據(jù)的分布甚至缺失非常寬容,不容易受到極值的影響。

國(guó)際上最有影響的決策樹方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特點(diǎn)在于自變量的挑選標(biāo)準(zhǔn)是:基于信息增益的度量選擇具有最高信息增益的屬性作為結(jié)點(diǎn)的分裂(分割)屬性,其結(jié)果就是對(duì)分割后的結(jié)點(diǎn)進(jìn)行分類所需的信息量最小,這也是一種劃分純度的思想。

決策樹技術(shù)在數(shù)據(jù)化運(yùn)營(yíng)中的主要用途體現(xiàn)在:作為分類、預(yù)測(cè)問題的典型支持技術(shù),它在用戶劃分、行為預(yù)測(cè)、規(guī)則梳理等方面具有廣泛的應(yīng)用前景,決策樹甚至可以作為其他建模技術(shù)前期進(jìn)行變量篩選的一種方法,即通過決策樹的分割來篩選有效地輸入自變量。

2.4 粗糙集方法

粗糙集理論定位為一種刻劃不確定性和不完整性的數(shù)學(xué)工具,可以有效地分析和處理不一致、不精確、不完整等信息,以從中發(fā)現(xiàn)隱藏的不為所知的知識(shí),揭示潛在的規(guī)律。該理論是由波蘭學(xué)者Z.Pawlak教授在1982年提出的,從1992年至今,每年召開以RS為主題的國(guó)際會(huì)議,推動(dòng)了RS理論的拓展和應(yīng)用。

粗糙集是處理模糊數(shù)據(jù)的有力工具,而要達(dá)到這樣的目的需要有兩個(gè)重要的步驟來進(jìn)行處理―屬性約簡(jiǎn)和值約簡(jiǎn),屬性約簡(jiǎn)是對(duì)粗糙集合(那些不能區(qū)分的集合)進(jìn)行縱向的簡(jiǎn)化,把不必要的屬性去掉,即去掉這些屬性也不會(huì)影響對(duì)象的區(qū)分能力,這樣便于以后進(jìn)一步的簡(jiǎn)約處理

由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點(diǎn)就是直接對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律,因此是一種天然的數(shù)據(jù)挖掘或者知識(shí)發(fā)現(xiàn)手段,與基于證據(jù)理論的數(shù)據(jù)挖掘方法、基于模糊理論的數(shù)據(jù)挖掘方法、基于概率論的數(shù)據(jù)挖掘方法等其他處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)知識(shí),而且與處理其他不確定性問題的理論有很強(qiáng)的互補(bǔ)性。

2.5 神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)是指能夠模仿人腦神經(jīng)元聯(lián)接結(jié)構(gòu)特征并且進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。根據(jù)人腦的神經(jīng)元的原理所產(chǎn)生的人工神經(jīng)網(wǎng)絡(luò)能夠通過不斷修正其內(nèi)部的節(jié)點(diǎn)間相互連接的關(guān)系達(dá)到處理信息的目的。BP(Back Propagation)網(wǎng)絡(luò),也稱為誤差反向傳播算法,是目前使用較多也比較成熟的神經(jīng)網(wǎng)絡(luò)算法, 1985 年Rumelhart 等人提出,它的實(shí)質(zhì)是通過誤差反向傳播算法訓(xùn)練數(shù)據(jù)的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型。BP 神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)和存儲(chǔ)大量輸入-輸出模式映射關(guān)系,而且還并不需要預(yù)先揭示表現(xiàn)此種映射關(guān)系數(shù)學(xué)模型。它采用的學(xué)習(xí)規(guī)則是最速下降法,主要利用反向傳播不斷修訂網(wǎng)絡(luò)的權(quán)值和閾值,達(dá)到建立的神經(jīng)網(wǎng)絡(luò)誤差的平方和最小。在數(shù)據(jù)挖掘中,神經(jīng)網(wǎng)絡(luò)主要用于獲取分類模式。BP 神經(jīng)網(wǎng)絡(luò)能夠用來聚類、分類和預(yù)測(cè)等,通常只需要一定歷史數(shù)據(jù),即把訓(xùn)練樣本作設(shè)為輸入,便能夠?qū)τ?xùn)練樣本訓(xùn)練,通過學(xué)習(xí)與存儲(chǔ)該數(shù)據(jù)樣本中隱含的知識(shí)信息后,能夠?yàn)楹竺娴臄?shù)據(jù)分析提供必要有用的知識(shí)。但是神經(jīng)網(wǎng)絡(luò)分類方法獲得的模式常常隱藏在網(wǎng)絡(luò)結(jié)構(gòu)中,不能夠顯示地表達(dá)成為一定的規(guī)則,所以不容易被人們理解和解釋;而且還需要多次掃描訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)需要的訓(xùn)練時(shí)間較長(zhǎng)。所以與其他數(shù)據(jù)挖掘方法相比較,神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘,要解決好兩個(gè)關(guān)鍵點(diǎn):降低不必要的訓(xùn)練時(shí)間,增強(qiáng)挖掘結(jié)果的可理解性。

2.6 模糊技術(shù)

模糊數(shù)據(jù)挖掘技術(shù)是通過利用原有數(shù)據(jù)挖掘技術(shù)同時(shí),與模糊理論相結(jié)合,以期從大量數(shù)據(jù)中發(fā)現(xiàn)更為廣泛的內(nèi)容,其挖掘結(jié)果將會(huì)使用戶更容易理解。由于現(xiàn)實(shí)生活中,數(shù)據(jù)之間的關(guān)系往往表現(xiàn)為模糊性,因此將模糊理論與數(shù)據(jù)挖掘技術(shù)結(jié)合從海量的、不完全的、隨機(jī)的、含噪聲的模糊數(shù)據(jù)中提取潛在的、未知即通過模糊集合理論對(duì)問題模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。因?yàn)槟:允强陀^存在,而且系的復(fù)雜性越高,模糊性就越強(qiáng),通常模糊集合理論是用隸屬度來描述模糊事物,所以它為數(shù)據(jù)挖掘提供了概念和知識(shí)的表達(dá)、定性定量的轉(zhuǎn)換、概念綜合和分解方法。

2.7 可視化技術(shù)

可視化技術(shù)是指采用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),把數(shù)據(jù)轉(zhuǎn)換成圖形或圖像并且在屏幕上顯示出來,從而進(jìn)行交互處理技術(shù)。它將信息的模式、數(shù)據(jù)關(guān)聯(lián)和趨勢(shì)展示給決策者,決策者能夠通過可視化的技術(shù)來交互分析數(shù)據(jù)之間的關(guān)系??梢暬夹g(shù)實(shí)現(xiàn)過程由四個(gè)步驟組成:數(shù)據(jù)預(yù)處理、映射、繪制和顯示。數(shù)據(jù)預(yù)處理階段,針對(duì)各不相同的可視化方法和內(nèi)容,要求對(duì)最初數(shù)據(jù)進(jìn)行變換處理,設(shè)置數(shù)據(jù)格式和標(biāo)準(zhǔn),并且要數(shù)據(jù)壓縮和解壓縮;在映射階段,針對(duì)不同類型的應(yīng)用數(shù)據(jù),使用不同的映射技術(shù)把數(shù)值數(shù)據(jù)轉(zhuǎn)換成幾何數(shù)據(jù);在繪制階段將幾何數(shù)據(jù)繪制成目標(biāo)圖像;在顯示階段,將圖像數(shù)據(jù)按用戶要求進(jìn)行輸出。在整個(gè)過程中,映射功能完成數(shù)據(jù)的建模功能,是核心。模型可視化的具體方法則與數(shù)據(jù)挖掘采用算法相關(guān)聯(lián),如,決策樹算法用樹形表示;過程可視化可以用數(shù)據(jù)流圖來描述知識(shí)發(fā)現(xiàn)過程。

3 數(shù)據(jù)挖掘應(yīng)用

數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的。數(shù)據(jù)挖掘的研究有利地促進(jìn)了數(shù)據(jù)挖掘技術(shù)應(yīng)用的發(fā)展與推廣。隨著研究的深入,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛。主要集中在以下幾方面:

3.1 金融業(yè)

數(shù)據(jù)挖掘技術(shù)用于銀行行業(yè)的存/貸款趨勢(shì)預(yù)測(cè),優(yōu)化存/貸款策略和投資組合。

3.2 生物信息

在基因工程中的染色體、基因序列的識(shí)別分析、基因表達(dá)路徑分析、基因表達(dá)相似性分析、以及制藥、生物信息和科學(xué)研究等。

3.3 零售業(yè)

數(shù)據(jù)挖掘技術(shù)被用來進(jìn)行分析購(gòu)物籃來協(xié)助貨架設(shè)置,安排促銷商品組合和促銷時(shí)間商業(yè)活動(dòng)。

3.4 客戶關(guān)系管理

數(shù)據(jù)挖掘技術(shù)被用于分析客戶的行為,分類客戶,以此進(jìn)一步針對(duì)客戶流失、客戶利潤(rùn)、客戶響應(yīng)等方面進(jìn)行分析,最終改善客戶關(guān)系管理。

3.5 電子商務(wù)

數(shù)據(jù)挖掘技術(shù)被用于在線交互式營(yíng)銷系統(tǒng)的經(jīng)營(yíng)模式、市場(chǎng)策略、Web廣告效果分析以及在線購(gòu)物的消費(fèi)者行為分析,從而優(yōu)化網(wǎng)站結(jié)構(gòu),改善網(wǎng)頁推薦和商品推薦內(nèi)容等。

4 結(jié)語

綜上, 數(shù)據(jù)挖掘涵蓋多種理論和技術(shù),有著廣泛應(yīng)用前景。深入分析研究數(shù)據(jù)挖掘,應(yīng)用數(shù)據(jù)挖掘技術(shù)將是我們未來努力的方向。

參考文獻(xiàn)

[1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.

[2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.

[3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.

[4]陸汝鈐.人工智能.北京:科學(xué)出版社, 1996:823-844.

[5]曾黃麟.粗集理論及其應(yīng)用[M].重慶:重慶大學(xué)出版社,1996.

[6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.

[7]何新貴.數(shù)據(jù)采掘中的模糊技術(shù)[J].計(jì)算機(jī)科學(xué),1998,25(???29-131.

[8]萬家華,劉冰,江早.知識(shí)發(fā)現(xiàn)中的可視化技術(shù)[J].計(jì)算機(jī)科學(xué),2000,27(增刊):131-134.

作者簡(jiǎn)介

王雅軒(1969-),女,研究生學(xué)歷?,F(xiàn)為大連外國(guó)語大學(xué)教授。主要研究方向?yàn)檐浖碚撆c應(yīng)用。

頊聰(1977-)男,研究生學(xué)歷。現(xiàn)為大連外國(guó)語大學(xué)講師。主要研究方向?yàn)橹悄苘浖?/p>