av色综合网,成年片色大黄全免费网站久久,免费大片黄在线观看,japanese乱熟另类,国产成人午夜高潮毛片

公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)探討論文范文

數(shù)據(jù)挖掘技術(shù)探討論文精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)探討論文主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術(shù)探討論文

第1篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

【關(guān)鍵詞】信息資源管理;研究生教學;財經(jīng)院校

【中圖分類號】G642 【文獻標識碼】B 【論文編號】1009―8097 (2008) 09―0125―03

信息資源管理(IRM)是為了確保信息資源的有效利用、以現(xiàn)代信息技術(shù)為手段,對信息資源實施計劃、預算、組織、指揮、控制、協(xié)調(diào)的一種管理活動[1]。信息資源管理的理論和實踐活動及以后信息資源管理類學科之間的集成和整合的需要,導致了一門滲透性很強的橫斷學科――信息資源管理學產(chǎn)生[2],其內(nèi)容涉及信息科學、管理科學、數(shù)據(jù)處理、通信、計算機科學、文獻情報學等各個方面。隨著全球信息化基礎(chǔ)設(shè)施建設(shè)的熱潮,信息資源管理也成為國內(nèi)外高校開設(shè)的一門重要課程。

一 國內(nèi)外高校同類課程現(xiàn)狀

信息資源管理作為一門新興邊緣學科,打破了原有學科界限,具有鮮明的時代特征,作為檔案學、圖書館情報學和情報學的一個分支領(lǐng)域,多學科綜合性、交叉性等特點是其典型特征[2]。在國外大學,IRM課程多設(shè)置在信息科學專業(yè),如美國東北大學,或者圖書館學專業(yè),如威斯康星大學。根據(jù)學科專業(yè)不同,課程側(cè)重點也有所不同,主要可分為三大方向:信息系統(tǒng)學派、記錄管理學派、信息管理學派。

90年代初,中國學者孟廣均和盧泰宏等人系統(tǒng)地引入了信息資源管理理論[3]。目前,國內(nèi)很多高校信息管理專業(yè)和圖書館情報學專業(yè)都開設(shè)了信息資源管理課程,大多都設(shè)置在本科專業(yè),也有一些設(shè)立了碩士和博士研究方向。大部分還是以傳統(tǒng)的信息管理為主線,以理論教育為主導,和企業(yè)應用及時代特點結(jié)合的較少,教學重點也依專業(yè)有所不同。

二 課程教學探討

1 課程定位

我校自2001年開始開設(shè)此課程作為信息學院碩士研究生必修課程。不同于其他高校的信息管理專業(yè)和圖書館情報學專業(yè),我校是財經(jīng)類院校,信息學院碩士方向主要為電子商務(wù)、供應鏈管理、信息管理,是以管理學、經(jīng)濟學為主、信息技術(shù)為輔助實現(xiàn)手段的交叉學科,因此我們的IRM課程定位也是多學科交叉,側(cè)重從管理思維及企業(yè)應用而不是技術(shù)角度,結(jié)合當前知識經(jīng)濟時代特征組織課程內(nèi)容體系、分析講解問題,和企業(yè)市場對具有復合型知識結(jié)構(gòu)人才的需求緊密結(jié)合。

2 體系結(jié)構(gòu)

本課程自開設(shè)以來,一直由作者承擔此課程的教學及相關(guān)研究工作。作者在對當前國內(nèi)IRM教材著作、教學內(nèi)容深入研究及6年教學實踐體驗的基礎(chǔ)上,結(jié)合在美國威斯康星大學圖書館和信息科學學院的交流學習經(jīng)驗,提出了適合本專業(yè)方向和學生特點的創(chuàng)新課程體系結(jié)構(gòu),經(jīng)過多次教學實踐,得到學生的認可。我們的課程體系遵循系統(tǒng)性和創(chuàng)新性原則,在保證教學內(nèi)容所包含的知識是具有內(nèi)在邏輯聯(lián)系的完整知識體系前提下,區(qū)別于以傳統(tǒng)信息系統(tǒng)管理為主線的內(nèi)容體系,采用符合知識經(jīng)濟時代特征的體系結(jié)構(gòu),反映學科領(lǐng)域最新成果,在這里提出來供大家探討。

(1) 信息資源管理概述:作為整個課程的基礎(chǔ),這部分主要包括數(shù)據(jù)、信息、信息資源、信息化、信息產(chǎn)業(yè)、知識、知識經(jīng)濟、知識管理等概念及其關(guān)聯(lián),目的是使學生掌握信息資源從產(chǎn)生到利用到再創(chuàng)造的過程。

(2) 知識管理:知識是從相關(guān)信息中過濾、提煉、經(jīng)過人腦加工得到的有用信息,知識管理是現(xiàn)代信息資源(知識資源)管理的核心。這部分主要介紹知識的生命周期;企業(yè)知識管理的原因、目的、工具和手段;知識管理的企業(yè)實施和應用;知識管理系統(tǒng)方案和技術(shù)平臺;北京移動、三星等企業(yè)知識管理案例分析。

(3) 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從海量數(shù)據(jù)中抽取出潛在的、有價值的信息、知識,是針對目前企業(yè)面對大量雜亂數(shù)據(jù)無法辨別有價值的資源進行管理,而提出的方法。本部分主要介紹數(shù)據(jù)挖掘的特點、原由、過程、人員、環(huán)境、相關(guān)技術(shù);數(shù)據(jù)挖掘的商業(yè)應用;相關(guān)軟件(重點SPSS系統(tǒng));數(shù)據(jù)挖掘與CRM;數(shù)據(jù)挖掘在證券行業(yè)、網(wǎng)絡(luò)應用、遠程教育等方面的應用案例分析。不同于介紹技術(shù)和算法為主的數(shù)據(jù)挖掘課程,本課程重點在于數(shù)據(jù)挖掘的商業(yè)應用,側(cè)重于分析、管理和應用。

(4) 信息資源規(guī)劃(IRP):IRP是完全中國特色的信息資源管理內(nèi)容,是指對企事業(yè)單位或政府部門所需要的信息資源,從采集、處理、傳輸?shù)绞褂玫娜嬉?guī)劃,是針對于國內(nèi)信息化建設(shè)的總體規(guī)劃。主要內(nèi)容包括:信息資源管理基礎(chǔ)標準的講解及應用;信息資源網(wǎng);IRP在大型企事業(yè)單位的實施(四一三三原則);IRP與ERP;IRP2000系統(tǒng)軟件介紹;政府信息資源規(guī)劃案例。

(5) 首席信息執(zhí)行官(CIO):CIO在企業(yè)的角色主要就是對企業(yè)的信息資源進行總體規(guī)劃、協(xié)調(diào)、管理,因此這部分主要介紹IRM與CIO;中國CIO面臨的挑戰(zhàn)和機遇;CIO與IRP的工程化方法;CIO與本組織信息化整體解決方案(IT服務(wù)鏈)。

(6) 網(wǎng)絡(luò)信息資源管理:適應當前網(wǎng)絡(luò)發(fā)展,介紹通過網(wǎng)絡(luò)如何對信息資源進行更好的組織和管理。主要包括網(wǎng)絡(luò)信息資源及信息結(jié)構(gòu);網(wǎng)絡(luò)信息資源組織;信息結(jié)構(gòu)(導航、標志、檢索等系統(tǒng))設(shè)計;網(wǎng)站資源設(shè)計原則;案例分析。

(7) 信息資源安全管理:在信息資源的開發(fā)、管理和利用過程中,安全問題是一個十分重要的問題,因此本部分主要從管理和技術(shù)兩方面對信息資源管理中的安全風險及應對措施進行分析,并結(jié)合案例介紹對系統(tǒng)進行審計和評價的方法。

3 教學資源

教師注重將所講授內(nèi)容體現(xiàn)在教學實踐本身,隨時隨處體現(xiàn)“信息資源管理”觀點和方法:利用知識管理理念,整合各方面知識資源,包括各種教材著作、專家渠道、國內(nèi)外最新研究論文、案例資源等內(nèi)容,形成資源庫。

自課程開設(shè)以來,先后使用參考過科學出版社出版孟廣均等著的《信息資源管理導論》,高等教育出版社王景光主編的《信息資源管理》,武漢大學馬費成編著的《信息資源開發(fā)利用》,北京理工大學甘仞初主編的《信息資源管理》,電子工業(yè)出版社肖明編著的《信息資源管理》等著作,以及Ricks Betty R & Gow, KAY F. Information Resource Management Cincinnati (Ohio)等國外著作。已有教材都對信息管理學科進行了全面系統(tǒng)的論述,但內(nèi)容大都比較抽象,理論性較強,多以信息系統(tǒng)論為核心,和現(xiàn)實企業(yè)應用及我們專業(yè)特點結(jié)合不足。因此,教師在教學中,指定其中兩本為參考教材,而圍繞課程體系的內(nèi)容主要來自于教師對國內(nèi)外研究資料收集整理加工后形成的教案、講義,資料來源大都為排名行業(yè)前列的學術(shù)刊物、數(shù)據(jù)庫、著名專家。除了理論知識,資源庫還納入不同企業(yè)的案例,以及知識案例獲取的各種專家渠道。

4 教學方法

結(jié)合課程和中國學生特點,教師在教學中注重創(chuàng)新性,借鑒國內(nèi)外同行的經(jīng)驗,及時引入先進的教學理念和方法手段,采用整合的教學方式“課堂講授+案例分析+Leading Discussion+小組討論/作業(yè)”相結(jié)合,目的在于盡量激發(fā)學生主動學習的愿望和能力,區(qū)別于以往“高級本科生”似的研究生教育方式。

(1) 教師的課堂講授主要在于讓學生了解知識課程體系結(jié)構(gòu)及關(guān)鍵知識點,特別是重點和難點,引導學生把點串成線,配合閱讀資料和案例,進而使知識面立體化。

(2) 案例分析,主要是教師通過企業(yè)渠道獲得并整理內(nèi)容詳實的企業(yè)案例,把理論知識融入到企業(yè)實際應用中,加深學生對理論和實踐如何結(jié)合起來的理解,彌補學生由于條件所限無法親自參與重要的企業(yè)實踐環(huán)節(jié)的缺口。

(3) Leading Discussion是教師借鑒美國大學研究生課程教學方法所得,培養(yǎng)學生獨立深度研究分析能力。由于課程內(nèi)容比現(xiàn)有教材更新,涉及范圍更廣,僅靠教材難以獲取足夠知識。教師定期提供國際上較新的研究論文,課下每位同學獨立閱讀并總結(jié)出不超過一頁紙的summary,提出2-3個針對性問題。課堂上每次輪流由不同學生主持leading discussion對論文進行分析討論,并回答問題。這種方式有助于學生開拓視野,了解國際最新動向,督促其主動學習、思考、溝通能力(這正是中國學生普遍缺乏的),還能提高專業(yè)英語閱讀理解歸納能力和閱讀速度。

(4) 小組討論/作業(yè)主要是教師提供案例內(nèi)容框架及引導問題,學生分組討論不同案例(課堂或課下,視時間而定),鼓勵brain storming,以PPT形式進行課堂演示,實現(xiàn)知識資源共享。最后教師對各組案例分析就行評價總結(jié)。

全程采用多媒體教學,教學中始終貫穿著啟發(fā)式、引導性和參與性的理念。啟發(fā)式教學:啟發(fā)學生通過以上各種方式實現(xiàn)自我學習、自我教育,克服教師滿堂貫、填鴨式的教學方式,注重研究生教育和本科教育的區(qū)別。引導性:教師在教學中先引入問題,積極啟發(fā)學生主動思考,而不是被動接受灌輸;引導學生探索性閱讀,進入學術(shù)研究領(lǐng)域。參與性:鼓勵學生主動參與教學環(huán)節(jié),師生互動、教學相長,調(diào)動學生學習的積極性和主動性。

5 考核

為體現(xiàn)課程的多學科交叉性、復合型知識能力特點,課程采用多形式考核方式,重在考察學生對企業(yè)實際問題分析、提出解決方案的能力,以及此過程中對現(xiàn)代IRM管理理念和知識的理解應用和滲透。在強調(diào)“開卷+閉卷”傳統(tǒng)考試形式基礎(chǔ)之上,將參與討論、案例分析、Leading Discussion、論文撰寫、企業(yè)調(diào)研、小組作業(yè)等綜合起來全面考察學生學習情況,這種“非概念記憶”的能力考核方式進一步調(diào)動了學生主動學習的積極性和創(chuàng)造力。

三 結(jié)言

經(jīng)過多次教學實踐不斷改進,教學內(nèi)容體系和方式方法得到了專家及學生的一致認可:普遍認為課程內(nèi)容新穎全面,反映信息資源管理領(lǐng)域的最新發(fā)展和趨勢;國外資源豐富,與國際學科發(fā)展接軌;高質(zhì)量案例的引入恰當充分,和實際企業(yè)應用相聯(lián)系。教師在講授中補充很多專業(yè)領(lǐng)域最新的知識,擴展學生知識面;注重關(guān)鍵知識點的掌握,培養(yǎng)學生獨立思考和判斷、分析、解決問題的能力,非常適合財經(jīng)類院校研究生階段教學的特點。

在教學中,我們也注意及時發(fā)現(xiàn)總結(jié)問題,充分意識到不足和需要改進之處:

1 教學中很多內(nèi)容都超出現(xiàn)有參考教材,因此需要將教學內(nèi)容資源整合成更加系統(tǒng)全面的教材,供學生參考。

2 對于一些最新的較為抽象的內(nèi)容,以及一些專業(yè)術(shù)語,還需進一步增加關(guān)聯(lián)性更強的實例,更加深入淺出的進行講解,讓學生更容易理解。

3 信息和網(wǎng)絡(luò)時代,知識及企業(yè)應用的更新頻率都在加速,需要及時更新資源庫以和現(xiàn)實世界發(fā)展保持同步,如何追蹤最新的知識資源、企業(yè)實踐和專家渠道是很大的挑戰(zhàn)。

信息資源管理課程是知識經(jīng)濟時代新興的一門重要課程,教學體系、方法發(fā)展還不完善。在北京召開的北京高校信息資源管理專業(yè)高級研討會上,大家也一致認為信息資源管理這門課程的教材的內(nèi)容和教學方法需要進一步改革。本文提出了適合財經(jīng)類院校研究生的教學內(nèi)容體系和教學方法設(shè)計,供開設(shè)此課程的高校教師探討,并希望能有一定的啟發(fā)借鑒作用。

參考文獻

[1] 王景光.信息資源管理[M].高等教育出版,2002.12.

第2篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

[作者簡介]王會金(1962― ),男,浙江東陽人,南京審計學院副校長,教授,博士,從事信息系統(tǒng)審計研究。

[摘 要]當前,我國急需一套完善的中觀信息系統(tǒng)審計風險控制體系。這是因為我國的中觀經(jīng)濟主體在控制信息系統(tǒng)審計風險時需要一套成熟的管理流程,且國家有關(guān)部門在制定信息系統(tǒng)審計風險防范標準方面也需要完善的控制體系作為支撐。在闡述COBIT與數(shù)據(jù)挖掘基本理論的基礎(chǔ)上,借鑒COBIT框架,構(gòu)建中觀信息系統(tǒng)審計風險的明細控制框架,利用數(shù)據(jù)挖掘技術(shù)有針對性地探索每一個明細標準的數(shù)據(jù)挖掘路徑,創(chuàng)建挖掘流程,建立適用于我國中觀經(jīng)濟特色的信息系統(tǒng)審計風險控制體系。

[關(guān)鍵詞]中觀信息系統(tǒng)審計;COBIT框架;數(shù)據(jù)挖掘;風險控制;中觀審計

[中圖分類號]F239.4 [文獻標識碼]A [文章編號]10044833(2012)01001608

中觀信息系統(tǒng)審計是中觀審計的重要組成部分,它從屬于中觀審計與信息系統(tǒng)審計的交叉領(lǐng)域。中觀信息系統(tǒng)審計是指IT審計師依據(jù)特定的規(guī)范,運用科學系統(tǒng)的程序方法,對中觀經(jīng)濟主體信息系統(tǒng)的運行規(guī)程與應用政策所實施的一種監(jiān)督活動,旨在增強中觀經(jīng)濟主體特定信息網(wǎng)絡(luò)的有效性、安全性、機密性與一致性[1]。與微觀信息系統(tǒng)相比,中觀信息系統(tǒng)功能更為復雜,且區(qū)域內(nèi)紛亂的個體間存在契約關(guān)系。中觀信息系統(tǒng)的復雜性主要體現(xiàn)在跨越單個信息系統(tǒng)邊界,參與者之間在信息技術(shù)基礎(chǔ)設(shè)施水平、信息化程度和能力上存在差異,參與者遵循一定的契約規(guī)則,依賴通信網(wǎng)絡(luò)支持,對安全性的要求程度很高等方面。中觀信息系統(tǒng)審計風險是指IT審計師在對中觀信息系統(tǒng)進行審計的過程中,由于受到某些不確定性因素的影響,而使審計結(jié)論與經(jīng)濟事實不符,從而受到相關(guān)關(guān)系人指控或媒體披露并遭受經(jīng)濟損失以及聲譽損失的可能性。中觀信息系統(tǒng)審計風險控制的研究成果能為我國大型企業(yè)集團、特殊的經(jīng)濟聯(lián)合體等中觀經(jīng)濟主體保持信息系統(tǒng)安全提供強有力的理論支持與實踐指導。

一、 相關(guān)理論概述與回顧

(一) COBIT

信息及相關(guān)技術(shù)的控制目標(簡稱COBIT)由美國信息系統(tǒng)審計與控制協(xié)會(簡稱ISACA)頒布,是最先進、最權(quán)威的安全與信息技術(shù)管理和控制的規(guī)范體系。COBIT將IT過程、IT資源及信息與企業(yè)的策略及目標聯(lián)系于一體,形成一個三維的體系框架。COBIT框架主要由執(zhí)行工具集、管理指南、控制目標和審計指南四個部分組成,它主要是為管理層提供信息技術(shù)的應用構(gòu)架。COBIT對信息及相關(guān)資源進行規(guī)劃與處理,從信息技術(shù)的規(guī)劃與組織、采集與實施、交付與支持以及監(jiān)控等四個方面確定了34個信息技術(shù)處理過程。

ISACA自1976年COBIT1.0版以來,陸續(xù)頒布了很多版本,最近ISACA即將COBIT5.0版。ISACA對COBIT理論的研究已趨于成熟,其思路逐步由IT審計師的審計工具轉(zhuǎn)向IT內(nèi)部控制框架,再轉(zhuǎn)向從高管層角度來思考IT治理。大多數(shù)國際組織在采納COSO框架時,都同時使用COBIT控制標準。升陽電腦公司等大型國際組織成功應用COBIT優(yōu)化IT投資。2005年,歐盟也選擇將COBIT作為其審計準則。國內(nèi)學者對COBIT理論的研究則以借鑒為主,如陽杰、張文秀等學者解讀了COBIT基本理論及其評價與應用方法[23];謝羽霄、黃溶冰等學者嘗試將COBIT理論應用于銀行、會計、電信等不同的信息系統(tǒng)領(lǐng)域[45]。我國信息系統(tǒng)審計的研究目前正處于起步階段,因而將COBIT理論應用于信息系統(tǒng)的研究也不夠深入。王會金、劉國城研究了COBIT理論在中觀信息系統(tǒng)重大錯報風險評估中的運用,金文、張金城研究了信息系統(tǒng)控制與審計的模型[1,6]。

(二) 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)出現(xiàn)于20世紀80年代,該技術(shù)引出了數(shù)據(jù)庫的知識發(fā)現(xiàn)理論,因此,數(shù)據(jù)挖掘又被稱為“基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)”。1995年,在加拿大蒙特利爾召開的首屆KDD & Date Mining 國際學術(shù)會議上,學者們首次正式提出數(shù)據(jù)挖掘理論[7]。當前,數(shù)據(jù)挖掘的定義有很多,但較為公認的一種表述是:“從大型數(shù)據(jù)庫中的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表現(xiàn)為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘所要處理的問題就是在龐大的數(shù)據(jù)庫中尋找有價值的隱藏事件,加以分析,并將有意義的信息歸納成結(jié)構(gòu)模式,供有關(guān)部門在進行決策時參考?!盵7]1995年至2010年,KDD國際會議已經(jīng)舉辦16次;1997年至2010年,亞太PAKDD會議已經(jīng)舉辦14次,眾多會議對數(shù)據(jù)挖掘的探討主要圍繞理論、技術(shù)與應用三個方面展開。

目前國內(nèi)外學者對數(shù)據(jù)挖掘的理論研究已趨于成熟。亞太PAKDD會議主辦方出版的論文集顯示,2001年至2007年僅7年時間共有32個國家與地區(qū)的593篇會議論文被論文集收錄。我國學者在數(shù)據(jù)挖掘理論的研究中取得了豐碩的成果,具體表現(xiàn)在兩個方面:一是挖掘算法的縱深研究。李也白、唐輝探索了頻繁模式挖掘進展,鄧勇、王汝傳研究了基于網(wǎng)絡(luò)服務(wù)的分布式數(shù)據(jù)挖掘,肖偉平、何宏研究了基于遺傳算法的數(shù)據(jù)挖掘方法[810]。二是數(shù)據(jù)挖掘的應用研究。我國學者對于數(shù)據(jù)挖掘的應用研究也積累了豐富的成果,并嘗試將數(shù)據(jù)挖掘技術(shù)應用于醫(yī)學、通訊、電力、圖書館、電子商務(wù)等諸多領(lǐng)域。2008年以來,僅在中國知網(wǎng)查到的關(guān)于數(shù)據(jù)挖掘應用研究的核心期刊論文就多達476篇。近年來,國際軟件公司也紛紛開發(fā)數(shù)據(jù)挖掘工具,如SPSS Clementine等。同時,我國也開發(fā)出數(shù)據(jù)挖掘軟件,如上海復旦德門公司開發(fā)的Dminer,東北大學軟件中心開發(fā)的Open Miner等。2000年以來,我國學者將數(shù)據(jù)挖掘應用于審計的研究成果很多,但將數(shù)據(jù)挖掘應用于信息系統(tǒng)審計的研究成果不多,且主要集中于安全審計領(lǐng)域具體數(shù)據(jù)挖掘技術(shù)的應用研究。

二、 中觀信息系統(tǒng)審計風險控制體系的構(gòu)想

本文將中觀信息系統(tǒng)審計風險控制體系(圖1)劃分為以下三個層次。

(一) 第一層次:設(shè)計中觀信息系統(tǒng)審計風險的控制框架與明細控制標準

中觀信息系統(tǒng)審計的對象包括信息安全、數(shù)據(jù)中心運營、技術(shù)支持服務(wù)、災難恢復與業(yè)務(wù)持續(xù)、績效與容量、基礎(chǔ)設(shè)施、硬件管理、軟件管理、數(shù)據(jù)庫管理、系統(tǒng)開發(fā)、變革管理、問題管理、網(wǎng)絡(luò)管理、中觀系統(tǒng)通信協(xié)議與契約規(guī)則等共計14個主要方面[11]。中觀信息系統(tǒng)審計風險控制體系的第一層次是根據(jù)COBIT三維控制框架設(shè)計的。這一層次需要構(gòu)架兩項內(nèi)容:(1)中觀信息系統(tǒng)審計風險的控制框架。該控制框架需要完全融合COBIT理論的精髓,并需要考慮COBIT理論的每一原則、標準、解釋及說明。該控制框架由14項風險防范因子組成,這14個因子必須與中觀信息系統(tǒng)審計的14個具體對象相對應。框架中的每一個因子也應該形成與自身相配套的風險控制子系統(tǒng),且子系統(tǒng)應該包含控制的要素、結(jié)構(gòu)、種類、目標、遵循的原則、執(zhí)行概要等內(nèi)容。(2)中觀信息系統(tǒng)審計風險的明細控制標準??刂瓶蚣苤械?4項風險防范因子需要具備與自身相對應的審計風險明細控制規(guī)則,IT審計師只有具備相應的明細規(guī)范,才能在中觀信息系統(tǒng)審計實施過程中擁有可供參考的審計標準。每個因子的風險控制標準的設(shè)計需要以COBIT三維控制框架為平臺,以4個域、34個高層控制目標、318個明細控制目標為準繩。

(二) 第二層次:確定風險控制框架下的具體挖掘流程以及風險控制的原型系統(tǒng)

第一層次構(gòu)建出了中觀信息系統(tǒng)審計風險控制的明細標準Xi(i∈1n)。在第一層次的基礎(chǔ)上,第二層次需要借助于數(shù)據(jù)挖掘技術(shù),完成兩個方面的工作。一是針對Xi,設(shè)計適用于Xi自身特性的數(shù)據(jù)挖掘流程。這一過程的完成需要數(shù)據(jù)資料庫的支持,因而,中觀經(jīng)濟主體在研討Xi明細控制標準下的數(shù)據(jù)挖掘流程時,必須以多年積累的信息系統(tǒng)控制與審計的經(jīng)歷為平臺,建立適用于Xi的主題數(shù)據(jù)庫。針對明細標準Xi的內(nèi)在要求以及主題數(shù)據(jù)庫的特點,我們就可以選擇數(shù)據(jù)概化、統(tǒng)計分析、聚類分析等眾多數(shù)據(jù)挖掘方法中的一種或若干種,合理選取特征字段,分層次、多角度地進行明細標準Xi下的數(shù)據(jù)挖掘?qū)嶒?,總結(jié)挖掘規(guī)律,梳理挖掘流程。二是將適用于Xi的n個數(shù)據(jù)挖掘流程體系完善與融合,開發(fā)針對本行業(yè)的中觀信息系統(tǒng)審計風險控制的原型系統(tǒng)。原型系統(tǒng)是指系統(tǒng)生命期開始階段建立的,可運行的最小化系統(tǒng)模型。此過程通過對n個有關(guān)Xi的數(shù)據(jù)挖掘流程的融合,形成體系模型,并配以詳細的說明與解釋。對該模型要反復驗證,多方面關(guān)注IT審計師對該原型系統(tǒng)的實際需求,盡可能與IT審計師一道對該原型系統(tǒng)達成一致理解。

(三) 第三層次:整合前兩個步驟,構(gòu)建中觀信息系統(tǒng)風險控制體系

第三層次是對第一層次與第二層次的整合。第三層次所形成的中觀信息系統(tǒng)風險控制體系包括四部分內(nèi)容:(1)中觀信息系統(tǒng)審計風險控制框架;(2)中觀信息系統(tǒng)審計風險控制參照標準;(3)中觀信息系統(tǒng)審計風險控制明細標準所對應的數(shù)據(jù)挖掘流程集;(4)目標行業(yè)的中觀信息系統(tǒng)審計風險控制的原型系統(tǒng)。在此過程中,對前三部分內(nèi)容,需要歸納、驗證、總結(jié),并形成具有普遍性的中觀審計風險控制的書面成果;對第四部分內(nèi)容,需要在對原型系統(tǒng)進行反復調(diào)試的基礎(chǔ)上將其開發(fā)成軟件,以形成適用于目標行業(yè)不同組織單位的“軟性”成果。在設(shè)計中觀信息系統(tǒng)風險控制體系的最后階段,需要遵循控制體系的前三部分內(nèi)容與第四部分內(nèi)容相互一致、相互補充的原則。相互一致表現(xiàn)在控制體系中的框架、明細控制標準、相關(guān)控制流程與原型系統(tǒng)中的設(shè)計規(guī)劃、屬項特征、挖掘原則相協(xié)調(diào);相互補充表現(xiàn)在控制體系中的框架、明細控制標準及相關(guān)控制流程是IT審計師在中觀信息系統(tǒng)審計中所參照的一般理念,而原型系統(tǒng)可為IT審計師提供審計結(jié)論測試、理念指導測試以及驗證結(jié)論。 三、 COBIT框架對中觀信息系統(tǒng)審計風險控制的貢獻

(一) COBIT框架與中觀信息系統(tǒng)審計風險控制的契合分析

現(xiàn)代審計風險由重大錯報風險與檢查風險兩個方面組成,與傳統(tǒng)審計風險相比,現(xiàn)代審計風險拓展了風險評估的范圍,要求考慮審計客體所處的行業(yè)風險。但從微觀層面看,傳統(tǒng)審計風險與現(xiàn)代審計風險的主要內(nèi)容都包括固有風險、控制風險與檢查風險。COBIT框架與中觀信息系統(tǒng)審計風險控制的契合面就是中觀信息系統(tǒng)的固有風險與控制風險。中觀信息系統(tǒng)的固有風險是指“假定不存在內(nèi)部控制情況下,中觀信息系統(tǒng)存在嚴重錯誤或不法行為的可能性”;中觀信息系統(tǒng)的控制風險是指“內(nèi)部控制體系未能及時預防某些錯誤或不法行為,以致使中觀信息系統(tǒng)依然存在嚴重錯誤或不法行為的可能性”;中觀信息系統(tǒng)的檢查風險是指“因IT審計師使用不恰當?shù)膶徲嫵绦?,未能發(fā)現(xiàn)已經(jīng)存在重大錯誤的可能性”。IT審計師若想控制中觀信息系統(tǒng)的審計風險,必須從三個方面著手:(1)對不存在內(nèi)部控制的方面,能夠辨別和合理評價被審系統(tǒng)的固有風險;(2)對存在內(nèi)部控制的方面,能夠確認內(nèi)部控制制度的科學性、有效性、健全性,合理評價控制風險;(3)IT審計師在中觀信息系統(tǒng)審計過程中,能夠更大程度地挖掘出被審系統(tǒng)“已經(jīng)存在”的重大錯誤。我國信息系統(tǒng)審計的理論研究起步較晚,IT審計師在分辨被審系統(tǒng)固有風險,確認控制風險,將檢查風險降低至可接受水平三個方面缺乏成熟的標準加以規(guī)范,因此我國的中觀信息系統(tǒng)審計還急需一套完備的流程與指南 當前我國有四項信息系統(tǒng)審計標準,具體為《審計機關(guān)計算機輔助審計辦法》、《獨立審計具體準則第20號――計算機信息系統(tǒng)環(huán)境下的審計》、《關(guān)于利用計算機信息系統(tǒng)開展審計工作有關(guān)問題的通知》(88號文件)以及《內(nèi)部審計具體準則第28號――信息系統(tǒng)審計》。。

圖2 中觀信息系統(tǒng)審計風險的控制框架與控制標準的設(shè)計思路

COBIT框架能夠滿足IT審計師的中觀信息系統(tǒng)審計需求,其三維控制體系,4個控制域、34個高層控制目標、318個明細控制目標為IT審計師辨別固有風險,分析控制風險,降低檢查風險提供了絕佳的參照樣板與實施指南。COBIT控制框架的管理理念、一般原則完全可以與中觀信息系統(tǒng)審計風險的控制實現(xiàn)完美契合。通過對COBIT框架與中觀信息系統(tǒng)審計的分析,筆者認為COBIT框架對中觀信息系統(tǒng)審計風險控制的貢獻表現(xiàn)在三個方面(見圖2):(1)由COBIT的管理指南,虛擬中觀信息系統(tǒng)的管理指南,進而評價中觀主體對自身信息系統(tǒng)的管理程度。COBIT的管理指南由四部分組成,其中成熟度模型用來確定每一控制階段是否符合行業(yè)與國際標準,關(guān)鍵成功因素用來確定IT程序中最需要控制的活動,關(guān)鍵目標指標用來定義IT控制的目標績效水準,關(guān)鍵績效指標用來測量IT控制程序是否達到目標。依據(jù)COBIT的管理指南,IT審計師可以探尋被審特定系統(tǒng)的行業(yè)與國際標準、IT控制活動的重要性層次、IT控制活動的目標績效水平以及評價IT控制活動成效的指標,科學地擬定被審系統(tǒng)的管理指南。(2)由COBIT的控制目標,構(gòu)建中觀信息系統(tǒng)的控制目標體系,進而評價中觀信息系統(tǒng)的固有風險與檢查風險。COBIT的控制目標包括高層域控制、中層過程控制、下層任務(wù)活動控制三個方面,其中,高層域控制由規(guī)劃與組織、獲取與實施、交付與支持以及監(jiān)控四部分組成,中層控制過程由“定義IT戰(zhàn)略規(guī)劃”在內(nèi)的34個高層控制目標組成,下層任務(wù)活動控制由318個明細控制目標組成。COBIT的控制目標融合了“IT標準”、“IT資源”以及被審系統(tǒng)的“商業(yè)目標”,為IT審計師實施中觀信息系統(tǒng)審計風險控制提供了層級控制體系與明細控制目標。IT審計師可以直接套用COBIT的控制層級與目標擬定中觀信息系統(tǒng)管理與控制的層級控制體系以及明細控制目標,然后再進一步以所擬定的明細控制目標作為參照樣板,合理評判中觀信息系統(tǒng)的固有風險與控制風險。中觀信息系統(tǒng)中“域”、“高層”、“明細”控制目標的三層結(jié)構(gòu)加強了IT審計師審計風險控制的可操作性。(3)由COBIT的審計指南,設(shè)計IT審計師操作指南,進而降低中觀信息系統(tǒng)審計的檢查風險。COBIT的審計指南由基本準則、具體準則、執(zhí)業(yè)指南三個部分組成?;緶蕜t規(guī)定了信息系統(tǒng)審計行為和審計報告必須達到的基本要求,為IT審計師制定一般審計規(guī)范、具體審計計劃提供基本依據(jù)。具體準則對如何遵循IT審計的基本標準,提供詳細的規(guī)定、具體說明和解釋,為IT審計師如何把握、評價中觀經(jīng)濟主體對自身系統(tǒng)的控制情況提供指導。執(zhí)業(yè)指南是根據(jù)基本標準與具體準則制定的,是系統(tǒng)審計的操作規(guī)程和方法,為IT審計師提供了審計流程與操作指南。

(二) 中觀信息系統(tǒng)審計風險控制體系建設(shè)舉例――構(gòu)建“設(shè)備管理”控制目標體系

前文所述,中觀信息系統(tǒng)審計的對象包括“信息安全”等14項內(nèi)容,本文以“硬件管理”為例,運用COBIT的控制目標,構(gòu)建“硬件管理”的控制目標體系,以利于IT審計師科學評價“硬件管理”存在的固有風險與控制風險?!霸O(shè)備管理”控制目標體系的構(gòu)建思路參見表1。

注:IT標準對IT過程的影響中P表示直接且主要的,S表示間接且次要的;IT過程所涉及的IT資源中C表示涉及;空白表示關(guān)聯(lián)微小。

表1以“設(shè)備管理”為研究對象,結(jié)合COBIT控制框架,并將COBIT框架中與“設(shè)備管理”不相關(guān)的中層控制過程剔除,最終構(gòu)建出“設(shè)備管理”控制的目標體系。該體系由4個域控制目標、21個中層過程控制目標、149個明細控制目標三個層級構(gòu)成,各個層級的關(guān)系見表1。(1)第一層級是域控制,由“P.設(shè)備管理的組織規(guī)劃目標”、“A.設(shè)備管理的獲取與實施目標”、“DS.設(shè)備管理的交付與支持目標”以及“M.設(shè)備管理的監(jiān)控目標”構(gòu)成;(2)第二層級是中層過程控制,由21個目標構(gòu)成,其中歸屬于P的目標5個,歸屬于A的目標3個,歸屬于D的目標9個,歸屬于M的目標4個;(3)第三層級是下層任務(wù)活動控制,由149個明細目標構(gòu)成,該明細目標體系是中層過程控制目標(P、A、DS、M)針對“IT標準”與“IT資源”的進一步細分。IT標準是指信息系統(tǒng)在運營過程中所應盡可能實現(xiàn)的規(guī)則,具體包括有效性、效率性、機密性等7項;IT資源是指信息系統(tǒng)在運營過程中所要求的基本要素,具體有人員、應用等5項。根據(jù)表1中“有效性”、“人員”等“IT標準”與“IT資源”合計的12個屬項,每個具體中層控制目標都會衍生出多個明細控制目標。例如,中層控制目標“DS13.運營管理”基于“IT標準”與“IT資源”的特點具體能夠演繹出6項明細控制目標,此7項可表述為“DS13-01.利用各項設(shè)備,充分保證硬件設(shè)備業(yè)務(wù)處理與數(shù)據(jù)存取的及時、正確與有效”,“DS13-02.充分保證硬件設(shè)備運營的經(jīng)濟性與效率性,在硬件設(shè)備投入成本一定的情況下,相對加大硬件設(shè)備運營所產(chǎn)生的潛在收益”,“DS13-03.硬件設(shè)備保持正常的運營狀態(tài),未經(jīng)授權(quán),不可以改變硬件的狀態(tài)、使用范圍與運營特性,保證設(shè)備運營的完整性”,“DS13-04.設(shè)備應該在規(guī)定條件下和規(guī)定時間內(nèi)完成規(guī)定的功能與任務(wù),保證設(shè)備的可用性”,“DS13-05.硬件設(shè)備運營的參與人員必須具備較高的專業(yè)素質(zhì),工作中遵循相應的行為規(guī)范”以及“DS13-06.工作人員在使用各項硬件設(shè)備時,嚴格遵循科學的操作規(guī)程,工作中注意對硬件設(shè)備的保護,禁止惡意損壞設(shè)備”。上述三個層級組成了完整的“硬件設(shè)備”控制目標體系,若將中觀信息系統(tǒng)審計的14個對象都建立相應的控制目標體系,并將其融合為一體,則將會形成完備的中觀信息系統(tǒng)審計風險控制的整體目標體系。

四、 數(shù)據(jù)挖掘技術(shù)對中觀信息系統(tǒng)審計風險控制的貢獻

(一) 數(shù)據(jù)挖掘技術(shù)與中觀信息系統(tǒng)審計風險控制的融合分析

中觀信息系統(tǒng)是由兩個或兩個以上微觀個體所構(gòu)成的中觀經(jīng)濟主體所屬個體的信息資源,在整體核心控制臺的統(tǒng)一控制下,以Internet為依托,按照一定的契約規(guī)則實施共享的網(wǎng)狀結(jié)構(gòu)式的有機系統(tǒng)。與微觀信息系統(tǒng)比較,中觀信息系統(tǒng)運行復雜,日志數(shù)據(jù)、用戶操作數(shù)據(jù)、監(jiān)控數(shù)據(jù)的數(shù)量相對龐雜。因而,面對系統(tǒng)海量的數(shù)據(jù)信息,IT審計師針對前文所構(gòu)建的明細控制目標Xi下的審計證據(jù)獲取工作將面臨很多問題,如數(shù)據(jù)信息的消化與吸收、數(shù)據(jù)信息的真假難辨等。而數(shù)據(jù)挖掘可以幫助決策者尋找數(shù)據(jù)間潛在的知識與規(guī)律,并通過關(guān)聯(lián)規(guī)則實現(xiàn)對異常、敏感數(shù)據(jù)的查詢、提取、統(tǒng)計與分析,支持決策者在現(xiàn)有的數(shù)據(jù)信息基礎(chǔ)上進行決策[12]。數(shù)據(jù)挖掘滿足了中觀信息系統(tǒng)審計的需求,當IT審計師對繁雜的系統(tǒng)數(shù)據(jù)一籌莫展時,數(shù)據(jù)挖掘理論中的聚類分析、關(guān)聯(lián)規(guī)則等技術(shù)卻能為中觀信息系統(tǒng)審計的方法提供創(chuàng)新之路。筆者認為,將數(shù)據(jù)挖掘技術(shù)應用于前文所述的明細控制目標Xi下審計證據(jù)篩選流程的構(gòu)建是完全可行的。恰當?shù)臄?shù)據(jù)挖掘具體技術(shù),科學的特征字段選取,對敏感與異常數(shù)據(jù)的精準調(diào)取,將會提高中觀信息系統(tǒng)審計的效率與效果,進而降低審計風險。

(二) 中觀信息系統(tǒng)審計風險控制目標Xi下數(shù)據(jù)挖掘流程的規(guī)劃

數(shù)據(jù)挖掘技術(shù)在中觀信息系統(tǒng)審計風險控制中的應用思路見圖3。

注:數(shù)據(jù)倉庫具體為目標行業(yè)特定中觀經(jīng)濟主體的信息系統(tǒng)數(shù)據(jù)庫

中觀信息系統(tǒng)審計明細控制目標Xi下數(shù)據(jù)挖掘流程設(shè)計具體可分為六個過程:(1)闡明問題與假設(shè)。本部分的研究是在一個特定的應用領(lǐng)域中完成的,以“中觀信息系統(tǒng)審計風險明細控制目標Xi”為主旨,闡明相關(guān)問題、評估“控制目標Xi”所處的挖掘環(huán)境、詳盡的描述條件假設(shè)、合理確定挖掘的目標與成功標準,這些將是實現(xiàn)“控制目標Xi下”挖掘任務(wù)的關(guān)鍵。(2)數(shù)據(jù)收集。圖3顯示,本過程需要從原始數(shù)據(jù)、Web記錄與日志文件等處作為數(shù)據(jù)源采集數(shù)據(jù)信息,采集后,還需要進一步描述數(shù)據(jù)特征與檢驗數(shù)據(jù)質(zhì)量。所采集數(shù)據(jù)的特征描述主要包括數(shù)據(jù)格式、關(guān)鍵字段、數(shù)據(jù)屬性、一致性,所采集數(shù)據(jù)的質(zhì)量檢驗主要考慮是否滿足“控制目標Xi”下數(shù)據(jù)挖掘的需求,數(shù)據(jù)是否完整,是否存有錯誤,錯誤是否普遍等。(3)數(shù)據(jù)預處理。該過程是在圖3的“N.異構(gòu)數(shù)據(jù)匯聚數(shù)據(jù)庫”與“U.全局/局部數(shù)據(jù)倉庫”兩個模塊下完成的。N模塊執(zhí)行了整合異構(gòu)數(shù)據(jù)的任務(wù),這是因為N中的異構(gòu)數(shù)據(jù)庫由不同性質(zhì)的異構(gòu)數(shù)據(jù)組合而成,數(shù)據(jù)屬性、數(shù)據(jù)一致性彼此間可能存在矛盾,故N模塊需要通過數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)透明訪問實現(xiàn)異構(gòu)數(shù)據(jù)的共享。U模塊承載著實現(xiàn)數(shù)據(jù)清理、數(shù)據(jù)集成與數(shù)據(jù)格式化的功能。“控制目標Xi”下的數(shù)據(jù)挖掘技術(shù)實施前,IT審計師需要事先完成清理與挖掘目標相關(guān)程度低的數(shù)據(jù),將特征字段中的錯誤值剔除以及將缺省值補齊,將不同記錄的數(shù)據(jù)合并為新的記錄值以及對數(shù)據(jù)進行語法修改形成適用于挖掘技術(shù)的統(tǒng)一格式數(shù)據(jù)等系列工作。(4)模型建立。在“V.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)”過程中,選擇與應用多種不同的挖掘技術(shù),校準挖掘參數(shù),實現(xiàn)最優(yōu)化挖掘?!翱刂颇繕薠i”下的數(shù)據(jù)挖掘技術(shù)可以將分類與聚類分析、關(guān)聯(lián)規(guī)則、統(tǒng)計推斷、決策樹分析、離散點分析、孤立點檢測等技術(shù)相結(jié)合,用多種挖掘技術(shù)檢查同一個“控制目標Xi”的完成程度[12]。選擇挖掘技術(shù)后,選取少部分數(shù)據(jù)對目標挖掘技術(shù)的實用性與有效性進行驗證,并以此為基礎(chǔ),以參數(shù)設(shè)計、模型設(shè)定、模型描述等方式對U模塊數(shù)據(jù)倉庫中的數(shù)據(jù)開展數(shù)據(jù)挖掘與進行知識發(fā)現(xiàn)。(5)解釋模型。此過程在模塊“W.模式解釋與評價”中完成,中觀信息系統(tǒng)審計風險領(lǐng)域?qū)<遗c數(shù)據(jù)挖掘工程師需要依據(jù)各自的領(lǐng)域知識、數(shù)據(jù)挖掘成功標準共同解釋模塊V,審計領(lǐng)域?qū)<覐臉I(yè)務(wù)角度討論模型結(jié)果,數(shù)據(jù)挖掘工程師從技術(shù)角度驗證模型結(jié)果。(6)歸納結(jié)論。在“Z.挖掘規(guī)律與挖掘路徑歸納”中,以W模塊為基礎(chǔ),整理上述挖掘?qū)嵤┻^程,歸納“控制目標Xi”下的挖掘規(guī)律,探究“控制目標Xi”下的挖掘流程,整合“控制目標Xi”(i∈1n)的數(shù)據(jù)挖掘流程體系,并開發(fā)原型系統(tǒng)。

(三) 數(shù)據(jù)挖掘流程應用舉例――“訪問控制”下挖掘思路的設(shè)計

如前所述,中觀信息系統(tǒng)審計包括14個對象,其中“網(wǎng)絡(luò)管理”對象包含“訪問管理”等多個方面。結(jié)合COBIT框架下“M1.過程監(jiān)控”與“IT標準-機密性”,“訪問管理”可以將“M1-i.用戶訪問網(wǎng)絡(luò)必須通過授權(quán),拒絕非授權(quán)用戶的訪問”作為其控制目標之一?!癕1-i”數(shù)據(jù)挖掘的數(shù)據(jù)來源主要有日志等,本部分截取網(wǎng)絡(luò)日志對“M1-i”下數(shù)據(jù)挖掘流程的設(shè)計進行舉例分析。

假設(shè)某中觀信息系統(tǒng)在2011年4月20日18時至22時有如下一段日志記錄。

(1) “Sep 20 19:23:06 UNIX login[1015]:FAILED LOGIN 3 FROM(null) FOR wanghua”

(2) “Sep 20 19:51:57 UNIX―zhangli[1016]:LOGIN ON Pts/1 BY zhangli FROM 172.161.11.49”

(3) “Sep 20 20:01:19 UNIX login[1017]:FAILED LOGIN 1 FROM(null) FOR wanghua”

(4) “Sep 20 20:17:23 UNIX―wanyu [1018]:LOGIN ON Pts/2 BY wanyu FROM 172.161.11.342”

(5) “Sep 20 21:33:20 UNIX―wanghua [1019]:LOGIN ON Pts/5 BY wanghua FROM 191.34.25.17”

(6) “Sep 20 21:34:39 UNIX su(pam――unix)[1020]:session opened for user root by wanghua (uid=5856)”

… … …

選取上述日志作為數(shù)據(jù)庫,以前文“控制目標Xi”下數(shù)據(jù)挖掘的6個過程為范本,可以設(shè)計“M1-i.用戶訪問網(wǎng)絡(luò)必須通過授權(quán),拒絕非授權(quán)用戶的訪問”下的審計證據(jù)挖掘流程。該挖掘流程的設(shè)計至少包括如下思路:a.選取“授權(quán)用戶”作為挖掘的“特征字段”,篩選出“非授權(quán)用戶”的日志數(shù)據(jù);b.以a為基礎(chǔ),以“LOGIN ON Pts BY 非授權(quán)用戶”作為 “特征字段”進行挖掘;c.以a為基礎(chǔ),選取“opened … by …”作為“特征字段”實施挖掘。假如日志庫中只有wanghua為非授權(quán)用戶,則a將會挖出(1)(3)(5)(6),b會挖出(5),c將會挖掘出(6)。通過對(5)與(6)嫌疑日志的分析以及“M1-i”挖掘流程的建立,IT審計師就能夠得出被審系統(tǒng)的“訪問控制”存在固有風險,且wanghua已經(jīng)享有了授權(quán)用戶權(quán)限的結(jié)論。

參考文獻:

[1]王會金,劉國城.COBIT及在中觀經(jīng)濟主體信息系統(tǒng)審計的應用[J].審計研究,2009(1):5862.

[2]陽杰,莊明來,陶黎娟.基于COBIT的會計業(yè)務(wù)流程控制[J].審計與經(jīng)濟研究,2009(2):7886.

[3]張文秀,齊興利.基于COBIT的信息系統(tǒng)審計框架研究[J].南京審計學院學報,2010(5):2934.

[4]謝羽霄,邱晨旭.基于COBIT的電信企業(yè)信息技術(shù)內(nèi)部控制研究[J].電信科學,2009(7):3035.

[5]黃溶冰,王躍堂.商業(yè)銀行信息化進程中審計風險與控制[J].經(jīng)濟問題探索,2008(2):134137.

[6]金文,張金城.基于COBIT的信息系統(tǒng)控制管理與審計[J].審計研究,2005(4):7579.

[7]陳安,陳寧.數(shù)據(jù)挖掘技術(shù)與應用[M].北京:科學工業(yè)出版社,2006.

[8]李也白,唐輝.基于改進的PE-tree的頻繁模式挖掘算法[J].計算機應用,2011(1):101104.

[9]鄧勇,王汝傳.基于網(wǎng)格服務(wù)的分布式數(shù)據(jù)挖掘[J].計算機工程與應用,2010(8):610.

[10]肖偉平,何宏.基于遺傳算法的數(shù)據(jù)挖掘方法及應用[J].湖南科技大學學報,2009(9):8286.

[11]孫強.信息系統(tǒng)審計[M].北京:機械工業(yè)出版社,2003.

[12]蘇新寧,楊建林.數(shù)據(jù)挖掘理論與技術(shù)[M]. 北京:科學技術(shù)出版社,2003.

Risk Control System of MesoInformation System Audit:From the Perspective of COBIT Framework of Date Mining Technology

WANG Huijin

(Nanjing Audit University, Nanjing 211815, China)

第3篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

我們在教學的過程中,也比較比較注重案例教學。例如,在講授神經(jīng)網(wǎng)絡(luò)時,我們可以用上海證券交易所中股市中股票隨時間變化的數(shù)據(jù)為例,讓學生討論如何應用神經(jīng)網(wǎng)絡(luò)對股票價格進行預測。人工神經(jīng)網(wǎng)絡(luò)是一種模仿自然界動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學模型,能夠較好地處理具有一定復雜性的數(shù)據(jù),在預測、擬合等方面取得了很好的應用效果。讓學生采用神經(jīng)網(wǎng)絡(luò)進行實際數(shù)據(jù)分析和處理,可以增強他們學習的積極性,更主動地投入到學習中去。我們也要求他們使用回歸分析的方法對股票價格進行預測,然后和神經(jīng)網(wǎng)絡(luò)預測的結(jié)果進行比較。通過這個過程,可以使學生們不但了解了神經(jīng)網(wǎng)絡(luò)與回歸分析算法的異同,加深他們對神經(jīng)網(wǎng)絡(luò)的認識。

加強實驗教學,增強學生動手能力

信息與計算科學專業(yè)是以信息領(lǐng)域為背景,數(shù)學與信息、管理相結(jié)合的交叉學科專業(yè)。該專業(yè)培養(yǎng)的學生具有良好的數(shù)學基礎(chǔ),能熟練地使用計算機,初步具備在信息與計算科學領(lǐng)域的某個方向上從事科學研究,解決實際問題,設(shè)計開發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門、高等院校、行政管理和經(jīng)濟管理部門,從事科研、教學和計算機應用軟件的開發(fā)和管理工作,也可以繼續(xù)攻讀信息與計算科學及相關(guān)學科的碩士學位。從信息與計算科學專業(yè)的培養(yǎng)目標可以看出信息與計算科學專業(yè)的本科生不但需要掌握理論知識,還需要具有將所學知識用來解決實際問題的能力。數(shù)據(jù)挖掘作為一門應用性較強的課程,需要學生能夠運用數(shù)據(jù)挖掘知識分析和解決實際問題,要求學生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計,以便在將來的就業(yè)中具有更好的適應性,因此實驗環(huán)節(jié)的教學有著其必要性?;谶@些原因,我們在這門課中引入實驗環(huán)節(jié),并將其納入考核要求。我們實驗所用的基本軟件是SAS統(tǒng)計分析軟件。SAS軟件是一個集統(tǒng)計分析、報表圖形、信息系統(tǒng)開發(fā)和大型數(shù)據(jù)庫管理等多種強大功能為一體的大型軟件系統(tǒng),是目前國際上主流的統(tǒng)計分析軟件之一。我們信息專業(yè)在大三時開設(shè)這門課程,之前已經(jīng)學過C語言和JAVA等程序設(shè)計方法,有了一定的編程基礎(chǔ),因此學習使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學們的使用。我們在平時的學習中,將一些SAS軟件的基本程序設(shè)計基礎(chǔ)知識先發(fā)給同學們,讓他們利用課后時間自己在個人電腦上進行熟悉,從而使得他們熟悉基本SAS程序設(shè)計方法,這樣可以在實驗課上直接運用SAS軟件進行數(shù)據(jù)挖掘程序的編寫。在實驗課上,我們主要將要實驗的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學,要求同學自己用數(shù)據(jù)挖掘的知識和SAS軟件進行編程實現(xiàn),并寫出實驗分析和小結(jié)。另外,在實驗中,我們也要求學生盡可能將一些實驗結(jié)果用圖表的形式如崖底碎石圖等表示出來,以利于進一步分析。對于少部分學有余力的同學,我們也引導他們自編相關(guān)的程序。比如說在SAS軟件中進行K-均值聚類用fastclus這個函數(shù)就可以了,但是學生對程序具體實現(xiàn)過程可能不是很清楚。如果學生能夠?qū)⒊绦騅-均值聚類詳細程序步驟自己編寫出來,就可以表明學生對所K-均值聚類算法也有了較清楚的認識。另外,對于屬于數(shù)學建模協(xié)會的同學,我們也引導他們將數(shù)據(jù)挖掘的知識和數(shù)學建模中某些問題相結(jié)合起來,對于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識分析的問題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識對其進行分析和求解,通過這樣的方式,可以這樣拓展這些同學的思路,也為數(shù)學建模培養(yǎng)了人才。

靈活的課后作業(yè)形式,提高學生的綜合能力

第4篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

作者簡介:舒忠梅,中山大學教育學院講師,博士;屈瓊斐,中山大學教育學院副教授,副院長,社會學博士;郭清順,中山大學科技發(fā)展研究院副主任,研究員,博士。(廣州/510275)

*本文系國家自然科學基金“ITS中基于有向超圖的個性化的學習過程及其支持資源的優(yōu)化”(61202345)的成果之一。 摘要:高等教育機構(gòu)正處于數(shù)據(jù)爆炸的信息時代,高校多年來積累的大量辦學數(shù)據(jù)為學校的科學管理帶來了挑戰(zhàn)與機遇。現(xiàn)代大學的科學管理亟待加強數(shù)據(jù)的有效利用,從信息技術(shù)的利用與高等學校的管理效益出發(fā),分析國內(nèi)外高等教育機構(gòu)應用商業(yè)智能技術(shù)進行教育管理和研究的狀況,探索基于商業(yè)智能技術(shù)搭建高校教育管理平臺的實踐應用,對平臺體系架構(gòu)、數(shù)據(jù)挖掘技術(shù)在大學生學習成果預測的應用案例等方面進行探討。

關(guān)鍵詞:高校管理;數(shù)據(jù)分析;商業(yè)智能《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)》提出:“信息技術(shù)對教育發(fā)展具有革命性的影響,必須予以高度重視?!盵1]信息技術(shù)的高速發(fā)展,為高等學校的教育教學及其服務(wù)管理提供了新的手段和豐富的資源。[2]隨著高等教育的發(fā)展和教育體制的改革,高校積極進行管理信息化建設(shè),實施數(shù)字化校園或智慧校園等舉措,積累了大量的教育數(shù)據(jù)。國際數(shù)據(jù)公司IDC研究表明,數(shù)字大學僅2007年創(chuàng)建或采集2.25×1021 位數(shù)據(jù),并預計將以每年60%的增速持續(xù),海量的數(shù)據(jù)時代已經(jīng)來臨。[3]針對海量教育數(shù)據(jù)的挑戰(zhàn)與機遇,本文從信息技術(shù)的利用與高等學校的管理效益出發(fā),探討如何通過商業(yè)智能技術(shù)有效利用當前高校管理產(chǎn)生的大量教育數(shù)據(jù)。

一、國內(nèi)外高校管理中的數(shù)據(jù)利用概況

高校管理產(chǎn)生和存儲的教育數(shù)據(jù)其實是高校的重要財富之一,充分利用可以有效提高高校的管理效益。同時,高校面臨著海量數(shù)據(jù)帶來的巨大挑戰(zhàn),如何管理并利用好海量數(shù)據(jù),如何從大量的教育數(shù)據(jù)中獲得有用的信息,提高高校管理系統(tǒng)的效率,是現(xiàn)代大學管理所面臨的新挑戰(zhàn)。

(一)現(xiàn)代大學的科學管理亟待數(shù)據(jù)有效利用的加強

在教育競爭日益激烈的今天,數(shù)據(jù)資源的管理和應用是現(xiàn)代大學取得競爭優(yōu)勢的重要工作之一。數(shù)據(jù)記錄著學校的有形資源及其歷史演變,導致高校數(shù)據(jù)量巨大,而其中真正有價值的信息卻不多。數(shù)據(jù)能否帶來價值和轉(zhuǎn)化為決策效益不僅僅取決于量的多少,更重要的是取決于數(shù)據(jù)的可用性和對其合理的使用。[4]

目前,大多數(shù)高校為滿足日常工作需求,建立了校務(wù)辦公信息系統(tǒng),但這些系統(tǒng)基本上屬于聯(lián)機事務(wù)處理(OLTP)系統(tǒng),無法直接提供各種綜合程度的數(shù)據(jù)采集并加以綜合利用的功能。同時,這些信息系統(tǒng)產(chǎn)生的大量數(shù)據(jù)也不能進一步提煉升華為知識,及時提供給決策部門,讓淹沒在眾多信息系統(tǒng)中的海量數(shù)據(jù)能夠“說話”已成為重要課題。

另一方面,在我國高校管理系統(tǒng)中,高等教育研究一直較少開展對高校管理信息有關(guān)的定量和綜合研究。而在國外大學的管理系統(tǒng)中,一個完整的院校研究部門是必不可少的,其基本功能就是對信息的管理和分析。對數(shù)據(jù)展開研究,是增強高校管理系統(tǒng)職能的一個重要環(huán)節(jié)。而且,隨著國家逐漸放給大學越來越多的辦學自的發(fā)展趨勢,高校管理系統(tǒng)將因重視信息的管理和分析而衍生出一個新的功能,或者吸引高等教育研究人員深入關(guān)注信息管理與分析問題,從而更加實際地支持高校管理提升,是已萌芽并可預見的發(fā)展趨勢。[5]

(二)國內(nèi)外高校管理中的商業(yè)智能應用

隨著云計算和云存儲的推廣,可以收集和利用越來越多的數(shù)據(jù)。為了高效地處理和有效地利用各種形式的海量數(shù)據(jù),以數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、聯(lián)機分析處理等為核心的商業(yè)智能(Business Intelligence, BI)技術(shù)應運而生。商業(yè)智能這一概念由加特納·格魯派于1989年提出,可將商業(yè)智能理解為一種能夠?qū)C構(gòu)現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識,幫助機構(gòu)通過基于事實和電腦化系統(tǒng),做出科學業(yè)務(wù)決策的工具。商業(yè)智能技術(shù)已成功地應用于銀行、電信、保險、制造業(yè)和零售業(yè)等行業(yè)。[6]從全球范圍來看,商業(yè)智能已經(jīng)成為最具有前景的信息化領(lǐng)域。

通過調(diào)查了解世界各地的高等教育部門采用商業(yè)智能技術(shù)的狀況發(fā)現(xiàn),高等教育已明顯落后于其它行業(yè)。然而,Dave Wells在文獻中指出,越來越多的高校正在關(guān)注商業(yè)智能應用這一主題,高等教育在技術(shù)方面已經(jīng)到了應用商業(yè)智能的時候了。[7]

例如,北美高等教育界較早關(guān)注商業(yè)智能應用的重要性,美國部分高校已經(jīng)采用或正開始采用商業(yè)智能技術(shù),對學校的教育數(shù)據(jù)進行整合分析,為學校的科學決策與管理提供信息支持。如賓州州立大學、密執(zhí)根大學均于2005年提出建設(shè)BI項目的倡議,弗羅里達州立大學、華盛頓大學分別于2007年、2008年開始利用BI項目分析學校整合數(shù)據(jù)進行決策支持,普渡大學于2008-2014年期間建設(shè)學校新的協(xié)同集成系統(tǒng),印第安納大學2009年提出BI建設(shè)路線圖,斯坦福大學商業(yè)智能中心2009年提交的BI架構(gòu)及方案獲批準、2010年正式啟動項目建設(shè),加州大學(總部)建設(shè)StatFinder系統(tǒng),伊利諾斯大學建立學校決策支持數(shù)據(jù)倉庫,亞利桑那州立大學為支持科學決策建設(shè)了儀表盤(dashboard)等。

·教育管理· 基于商業(yè)智能構(gòu)建高校教育管理平臺的實踐探討 在歐洲、亞洲等地區(qū)的高等教育體系中,商業(yè)智能技術(shù)的應用才剛剛起步。我國少數(shù)高校也開始邁出了建設(shè)BI系統(tǒng)的步伐,如中山大學2010年開始提出學校BI系統(tǒng)建設(shè)倡議,現(xiàn)已初步完成BI系統(tǒng)的數(shù)據(jù)倉庫建設(shè),上海交通大學2011年推出BI項目的子系統(tǒng)——財務(wù)管理駕駛艙系統(tǒng),復旦大學為學校師生在校生命周期實現(xiàn)管理信息化“全覆蓋”,中國人民大學推出綜合數(shù)據(jù)填報、數(shù)據(jù)存儲、數(shù)據(jù)管理和數(shù)據(jù)展示等四大功能的數(shù)據(jù)平臺,浙江大學為優(yōu)化資源配置建設(shè)共享數(shù)據(jù)中心進行數(shù)據(jù)集成,上海財經(jīng)大學建設(shè)校務(wù)決策支持系統(tǒng),常熟理工學院建立高校決策支持系統(tǒng)等等。

同時,基于商業(yè)智能技術(shù)產(chǎn)出的數(shù)據(jù),也形成一批對高等教育和高校自身進行深入分析的研究報告。如美國教育研究的主要組織院校研究學會,年會報告除了涵蓋數(shù)據(jù)管理、數(shù)據(jù)倉庫等關(guān)于計算機技術(shù)本身的報告之外,關(guān)于評估、資源、學生、合作和分析的報告,較多地來自于商業(yè)智能系統(tǒng)數(shù)據(jù)的研究結(jié)果。[8]

二、數(shù)據(jù)驅(qū)動的高校教育管理智能平臺架構(gòu)在海量教育數(shù)據(jù)亟待有效利用的驅(qū)動下,為提高高校管理效益,將商業(yè)智能技術(shù)應用到高校教育管理中,對高校產(chǎn)生的大量數(shù)據(jù)用數(shù)據(jù)挖掘等商業(yè)智能技術(shù)進行分析研究與處理,可以幫助高校決策者做出對學校發(fā)展更為有利的科學決策。其關(guān)鍵是建立綜合層面上的、能反映高校整體教育教學管理的信息集成系統(tǒng)平臺(下文簡稱高校BI系統(tǒng)平臺)。高校BI系統(tǒng)平臺體系架構(gòu)由數(shù)據(jù)源、數(shù)據(jù)存儲與管理層、數(shù)據(jù)分析層和用戶接口層組成,如圖1所示。

圖1高校BI系統(tǒng)體系架構(gòu)

(一)數(shù)據(jù)源

數(shù)據(jù)源是整個系統(tǒng)的基礎(chǔ),包括高校各類業(yè)務(wù)管理信息系統(tǒng)的內(nèi)部數(shù)據(jù)和其他外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括存放于操作型數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)和辦公自動化系統(tǒng)包含的各類文檔數(shù)據(jù),如學校財務(wù)處、人事處、教務(wù)處、科研處、設(shè)備處等部門數(shù)據(jù)庫中業(yè)務(wù)數(shù)據(jù);外部信息包括各類教育信息、外部統(tǒng)計和調(diào)研數(shù)據(jù)及文檔等。

(二)數(shù)據(jù)存儲與管理

數(shù)據(jù)存儲與管理層是整個系統(tǒng)的核心,包括ETL管理工具、公共數(shù)據(jù)集、元數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)據(jù)集市。高校BI系統(tǒng)平臺建設(shè)采用數(shù)據(jù)驅(qū)動設(shè)計方法,從學校原有的各個部門的業(yè)務(wù)處理系統(tǒng)和外部數(shù)據(jù)源中經(jīng)過ETL提取數(shù)據(jù),并根據(jù)常見的分析和統(tǒng)計主題,建設(shè)校級數(shù)據(jù)倉庫以及人才培養(yǎng)、師資隊伍、科學研究、辦學資源、交流合作等主題的數(shù)據(jù)集市。

(三)數(shù)據(jù)查詢與分析

高校決策者常常希望從不同的角度審視教育數(shù)據(jù),比如從時間、區(qū)域、學科、教學或科研成果、課程建設(shè)、學生層次、交流合作、辦學資源等維度全面了解學校的教育質(zhì)量和狀態(tài)。高校BI系統(tǒng)平臺的數(shù)據(jù)分析層利用商業(yè)智能技術(shù)為高校管理主要提供固定報表、即席查詢、統(tǒng)計分析、多維分析、預警功能、預測分析、數(shù)據(jù)挖掘建模分析及優(yōu)化分析等,根據(jù)學?,F(xiàn)有學生、教師、資源、科研和人才培養(yǎng)等狀況,有助于高校決策者全面地對學校資源配置進行調(diào)控、對學校整體辦學信息的內(nèi)部結(jié)構(gòu)進行調(diào)整等,做出對學校發(fā)展更為有利的科學決策。

(四)用戶接口

用戶接口層根據(jù)高校用戶訪問需求和角色訪問授權(quán)機制,提供強大的多用戶數(shù)據(jù)查詢操作,并以儀表盤或表格、直方圖、餅圖等直觀方式將查詢結(jié)果或決策信息呈現(xiàn)給用戶。

三、應用案例

下面以高校BI系統(tǒng)平臺中的調(diào)研數(shù)據(jù)為商業(yè)智能技術(shù)應用案例,利用回歸方法對大學生學習成果進行數(shù)據(jù)挖掘分析。

(一)數(shù)據(jù)來源

案例分析的數(shù)據(jù)來源于高校BI系統(tǒng)平臺中“中山大學學生學習狀況調(diào)查”項目于2012在中山大學全校范圍內(nèi)開展的在線調(diào)研數(shù)據(jù)。[13]調(diào)查覆蓋全校36個學院(系),調(diào)查總體約為3.3萬名本科生。讓學生在無壓力的情況下答題,共回收問卷7051份,回收率約為21.2%,與國際上通用的問卷回收率相當。案例分析聚焦于本科樣本,全部回收的問卷根據(jù)答題時長、問卷質(zhì)量標準等原則,篩選出有效問卷數(shù)據(jù)6673份,有效率為94.6%。

本研究從學生學習經(jīng)歷角度,在“生源-學習-成果”的邏輯框架中,考察分析學校因素和學生因素對于學生學習成果的影響機制。調(diào)查把學生學習經(jīng)歷和成果分解為生源情況、學校學習資源供給、學生與學校的融合、學生學習投入、學生成果、學校成果6 大維度,各維度下題目的內(nèi)部一致性均達到0.9以上,具有較高的信度。

(二)數(shù)據(jù)分析

逐步回歸提供了一種識別與學生學習成果相關(guān)的具體經(jīng)歷的方法,對于學生學習狀況調(diào)查中的227項進行相似項合并,用向前和向后逐步回歸確定與學習成果相關(guān)的項目,對殘差圖和診斷法的徹底審查,最后確定17個獨立變量出現(xiàn)在多元回歸模型中(如表2所示),其中,相關(guān)系數(shù)R為0.994,校正判定系數(shù)R2為0.988,因變量變化中有98.8%左右的信息可以由預測變量解釋,說明模型的擬合優(yōu)度較好;Durbin-Watson為1.937,接近最佳理想值,如表1所示。

表2顯示的是回歸系數(shù)的相關(guān)統(tǒng)計量,可以看出,這17個獨立變量的顯著性概率Sig.都小于0.05,說明其系數(shù)顯著不為0,這17個變量均與學生學習成果顯著相關(guān)。

分析表2中的數(shù)據(jù)可以看出,學生學習經(jīng)歷中的學校學習資源提供、學生學習投入和校園文化及學校成果等四大維度的17個變量均為影響學生學習成果的重要預測變量,包括課程作業(yè)評價、專業(yè)學習經(jīng)歷評價、學術(shù)規(guī)范指導、平等文化、多元能力的培養(yǎng)氛圍等學校因素變量,以及朋輩交流情況、自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關(guān)注的內(nèi)容情況、師生交流、課業(yè)活動及個人閑暇活動時間分配等學生因素變量。同時,在校經(jīng)歷滿意度、綜合滿意度和能力培養(yǎng)滿意度等融合學校因素和學生因素的學校成果也對學生學習成果具有一定的影響。

通過標準系數(shù)可以看出,朋輩交流情況、自主學習情況和討論關(guān)注的內(nèi)容情況分別是第一、第二和第三重要的預測變量,而性別、年級、所在校區(qū)等人口學變量并未出現(xiàn)在該回歸分析模型中,對學生學習成果的影響不顯著。

進一步分析朋輩交流情況和自主學習情況調(diào)查指標應答概況,如表3所示,“有時”、“時?!被颉邦l繁”進行朋輩交流的比例為63.7%~97.7%,自主學習的比例為52.5%~92.9%,朋輩交流和自主學習的平均比例相當高(81.8%)。“有時”、“時常”或“頻繁”地進行朋輩交流方面的主要比例情況為:“與家庭背景(社會、經(jīng)濟的)不同的同學交流”為97.7%、“與興趣不同的同學交流”為95.6%、“在與同學的談話中得到啟發(fā),改變自己的想法”為94.4%、“與世界觀、價值觀不同的同學交流”為93%、“與不同專業(yè)的同學交流”為92.6%、“同學與你談話后,表示受到了你的啟發(fā)”為90.8%?!坝袝r”、“時?!被颉邦l繁”地進行自主學習的主要比例情況為:“利用圖書館、網(wǎng)絡(luò)等資源豐富自己的學識”為92.9%、“根據(jù)課程安排,做課堂展示”為91.3%、“努力掌握對自己而言較難的課程內(nèi)容”為91.3%、“隨著學習經(jīng)歷的豐富不斷整合、梳理自己的知識系統(tǒng)”為88.4%,“因課程設(shè)置和教師的要求具有挑戰(zhàn)性而更加努力地學習”為85.9%。

上述情形符合Vincent Tinto在研究大學生退學問題時提出的理論模型:學生取得較好的學習成果,依賴于他們在學習經(jīng)歷中能否將自身的經(jīng)驗和目標與學校系統(tǒng)內(nèi)部的學術(shù)系統(tǒng)和社交系統(tǒng)相融合。[10]學術(shù)系統(tǒng)代表學生個人的課業(yè)表現(xiàn)、智力發(fā)展、學業(yè)成就等綜合表現(xiàn),如表2中自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關(guān)注的內(nèi)容情況及課業(yè)活動等屬于學術(shù)系統(tǒng)的范疇。社交系統(tǒng)代表學生在校內(nèi)的同伴關(guān)系、師生關(guān)系、社交行為等綜合表現(xiàn),如朋輩交流情況、師生交流及個人閑暇活動時間分配等屬于社交系統(tǒng)的范疇。學生在其學習經(jīng)歷中,有效地利用學習資源和校園文化氛圍、將學術(shù)系統(tǒng)和社交系統(tǒng)進行整合,可以從學業(yè)和人際關(guān)系上自我提升,從而提高學習成果。

四、小結(jié)

如今,高等教育機構(gòu)正處于數(shù)據(jù)爆炸但知識貧乏的信息時代,面對浩如煙海的各類教育數(shù)據(jù),若不能有效地加以利用,就會降低對數(shù)據(jù)的使用效益并使各級教育機構(gòu)的管理和決策尤為困難。同時,隨著教育改革的逐步深入和高等教育的國際化,高校面臨著質(zhì)量評估、績效考核、社會問責、大學排名等現(xiàn)實問題,如何有效地管理海量的教育數(shù)據(jù),并從這些數(shù)據(jù)中獲取有用的信息,調(diào)整教育教學策略,提升教育教學質(zhì)量和管理效益,是高校教育管理與深入發(fā)展的重要研究課題。

為此,對現(xiàn)代大學管理如何有效利用數(shù)據(jù)以提升高校管理效益進行了思考,探討了商業(yè)智能技術(shù)在高校管理中的應用情況,并從體系架構(gòu)、數(shù)據(jù)挖掘技術(shù)在大學生學習成果預測評價應用案例等方面進行分析。由于高校數(shù)據(jù)來源的異構(gòu)與多樣化、數(shù)據(jù)管理機制缺乏等,使得商業(yè)智能技術(shù)在高校教育管理中全面地展開深層次應用,還有很長的路要走。

參考文獻:

[1]國家中長期教育改革和發(fā)展規(guī)劃綱要工作小組辦公室.國家中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)[N].中國教育報,2010-07-30(1-3).

[2]熊才平,何向陽,吳瑞華.論信息技術(shù)對教育發(fā)展的革命性影響[J].教育研究,2012(6):22-29.

[3]John F.Gantz et al..The Diverse and Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth through 2011[EB/OL].Framingham, MA: IDC, 2008.http:///collateral/analyst-reports/diverse-exploding-digital-universe.pdf.

[4]常桐善.構(gòu)建院校智能體系:院校研究發(fā)展的新趨勢[J].高等教育研究,2009(10):49-54.

[5]屈瓊斐.信息管理與中國大學院校研究的實踐環(huán)境分析[J].高等教育研究,2010(11):69-72.

[6]V.Farrokhi, L.Pokorádi.The necessities for building a model to evaluate Business Intelligence projects Literature Review [J].International Journal of Computer Science & Engineering Survey (IJCSES),2012(2):1-10.

[7]Dave Wells.Institutional Intelligence: Applying business intelligence principles to higher education[EB/OL].Campus Technology, 2007.http://campus / articles /2007/04/institutional-intelligence.aspx.

[8]S.ElAtia, D.Ipperciel, A.Hammad.Implications and Challenges to Using Data Mining in Educational Research in the Canadian Context [J].Canadian Journal of Education, 2012(2): 101-119.

第5篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞:人工智能;案例式教學;興趣引導教學法;問題驅(qū)動教學法

中圖分類號: TP309 文獻標識碼:A 文章編號:1009-3044(2014)03-0599-02

人工智能是一門研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的綜合性技術(shù)學科[1],是計算機科學、控制論、信息論、神經(jīng)生理學、心理學、語言學等多種學科互相滲透、迅速發(fā)展且與人類生活密切相關(guān)的綜合性新學科,其核心研究領(lǐng)域包括模式識別、自然語言處理、機器學習、數(shù)據(jù)挖掘、人工神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)等等[2]。

語言信息處理是語言學與計算機科學交叉形成的一門新型學科,其課程體系以語言學、計算機應用、應用數(shù)學和認知科學為主干,研究內(nèi)容是自然語言的自動化信息處理技術(shù),是人類語言活動中信息成分的發(fā)現(xiàn)、提取、存儲、加工與傳輸[3]。目前該方向的主要應用領(lǐng)域包括機器翻譯、文獻檢索、信息提取、自然語言的人機接口等。由此可見,為語言信息處理專業(yè)開設(shè)人工智能課程是必須的。該文針對“人工智能”課程自身特點和語言信息處理專業(yè)研究生培養(yǎng)目標,并結(jié)合筆者多年來的教學經(jīng)驗,分別從課程內(nèi)容設(shè)定、教材選擇、教學方法、考核方式等多個方面對該課程的教學改革進行了探索與研究。

1 以“精”“典”為基本要求的教學內(nèi)容選擇

“人工智能”課程的突出特點研究內(nèi)容涉及面廣而學時數(shù)較短(大部分高校的研究生專業(yè)安排的課程的時數(shù)在36到48學時之間)。因而授課時不能追求內(nèi)容“大而全”,必須“精”,選擇重點、核心基礎(chǔ)知識進行學習,選擇與專業(yè)方向最相關(guān)的“典”型應用領(lǐng)域進行重點詳細介紹,使學生在有限的時間內(nèi)學到最有用的知識?!叭斯ぶ悄堋闭n程教學內(nèi)容總體可以分為三大部分。

第一部分是基礎(chǔ)理論知識,學習人工智能中知識的表示方式(謂詞邏輯表示法、產(chǎn)生式知識表示法、框架表示法、語義網(wǎng)絡(luò)表示法等)。語言信息處理專業(yè)學生本科專業(yè)背景不同(有文科,有理工科),所以該部分教學內(nèi)容難點在于教學進度和難易程度的均衡。本部分內(nèi)容可安排8~10學時。

第二部分是搜索與推理,對使用特定知識表示方式表達的知識和問題進行推導或搜索,得出相應結(jié)論或搜索結(jié)果。本部分安排10~12學時,重點在于啟發(fā)式搜索。

第三部分是人工智能中的典型應用領(lǐng)域。對于該部分內(nèi)容的選擇要以學生專業(yè)為中心進行,選擇與學生專業(yè)相關(guān)性較大的領(lǐng)域進行教學,以期能夠有助于學生了解并掌握學術(shù)的主流發(fā)展趨勢,從而能夠更好地培養(yǎng)自身的科學素養(yǎng)和創(chuàng)新能力。本部分主要學習機器翻譯、機器學習、自然語言處理、數(shù)據(jù)挖掘、多Agent系統(tǒng)等。本部分安排18~36學時。

2 選擇“最合適”的教材

教材是教師教和學生學的主要憑借,教材的好壞在很大程度上決定了教師能否成功“教”與學生能否順利“學”。教材的選擇要以教學對象的特點和教學目標為依據(jù),選擇最合適的教材。在廣泛研讀目前比較熱門的人工智能教材的基礎(chǔ)上,結(jié)合教學目標和教學對象的特點,選則清華大學出版社出版﹑蔡自興和徐光祐編著的《人工智能及其應用》(第4版)[1]作為教材。該教材總體也可以分為三部分:第一部分論述了人工智能的三大技術(shù), 即知識表示;第二部分論述推理及搜索; 第三部分論述人工智能的主要應用領(lǐng)域,包括專家系統(tǒng)、機器學習、自動規(guī)劃、分布式人工智能和自然語言理解等。與第三版本科生用書相比,增加了如本體論和非經(jīng)典推理、決策樹學習和增強學習、詞法分析和語料庫語言學等(非常適合筆者的教學對象)。

3 創(chuàng)新型人工智能課程教學方法

“人工智能”課程涉及的知識面廣,既包括基礎(chǔ)理論,也包括具體應用,即有抽象復雜的計算,也有繁雜的系統(tǒng)實現(xiàn),為此,如何激發(fā)學生的學習興趣并保持學生的學習興趣是本課程教學的關(guān)鍵。此外,因為是研究生教學,所以更突出學生的主體地位,注重培養(yǎng)學生的學習興趣、自主學習的意識和能力。為此,筆者主要采用了以下幾種教學方法。

3.1 興趣引導教學法

常言“興趣是最好的老師”,如何培養(yǎng)學生對本門課程的學習興趣,激發(fā)學生對本門課程的求知欲,是一門課程首要任務(wù)。

為了提高學生的學習興趣,筆者在第一節(jié)課讓學生觀看美國科幻電影“機器人”的相關(guān)片斷,通過機器人安德魯非凡的創(chuàng)造能力、情感表達能力和自學習能力讓學生更好地了解人工智能的目標、意義,激發(fā)學生探索人工智能的興趣;在學習“博弈策略”及“極大極小分析法”時,筆者通過讓學生來參與“一字棋”對決游戲說明博弈樹的層次結(jié)構(gòu)原理,通過“人機對弈”說明“α-β剪枝技術(shù)”引入的必要性;通過“啤酒與尿布”的故事說明數(shù)據(jù)挖掘技術(shù)在現(xiàn)實生活中的應用,讓學生認識到人工智能并不是虛無抽象的學科,而與人們的生活息息相關(guān),激發(fā)起學生用人工智能相關(guān)技術(shù)解決現(xiàn)實問題的興趣。

3.2 問題驅(qū)動教學法

在講授基礎(chǔ)理論時,如“不確定性推理”、“數(shù)據(jù)挖掘”等這一類型內(nèi)容抽象、算法復雜的知識時,采用了問題驅(qū)動式的教學方法。

教師首先提出與內(nèi)容相關(guān)的若干問題,并為學生相關(guān)的資料或向?qū)W生提供找到問題的一些線索,讓學生帶著問題去思考、分析和討論等方式來查找答案,主動獲取知識,應用知識,教師在必須的時候還需給予一定的引導和幫助。如在講授產(chǎn)生式知識表示法時,以“動物識別系統(tǒng)”問題原型,給出學生系統(tǒng)模型,讓學生編寫一個能夠用來進行動物識別的應用程序。

此教學法很好地培養(yǎng)學生解決問題的能力,形成研究的態(tài)度,提高認知能力。

3.3 實踐教學法

“實踐是檢驗真理的唯一標準”。人工智能課程中,能夠動手實踐的知識一定要讓實踐。

在講“專家系統(tǒng)”的構(gòu)造步驟時,用“營養(yǎng)專家系統(tǒng)”為案例進行介紹,將該專家系統(tǒng)分解為一個個小的具體任務(wù)(如知識庫構(gòu)建、規(guī)則庫的構(gòu)建、界面設(shè)計等),并分配給不同的學生,學生按照專家系統(tǒng)的一般構(gòu)造步驟去完成相應的任務(wù),最終完成一個完善的系統(tǒng),從而達到掌握專家系統(tǒng)構(gòu)建的教學目標。

實踐教學法可以提高學生分析、解決問題的能力和動手能力,并可以進一步加深對理論知識的理解。

3.4 案例教學法

案例教學法是將案例討論的方法運用到課堂教學活動中去,教師根據(jù)課堂教學目標和教學內(nèi)容的需要,通過設(shè)置一個具體的案例,引導學生參與分析、討論、表達等活動,讓學生在具體問題情境中積極思考、主動探索,以提高教與學的質(zhì)量和效果,培養(yǎng)學生認識問題、分析問題和解決問題等綜合能力的一種教學方法[4]。案例教學法中教師扮演設(shè)計者和激勵者的角色,鼓勵學生積極參與典型案例的討論,重點掌握教學進程,引導學生思考,組織討論研究,進行總結(jié)、歸納,同時教師也參與到學生共同研討。不但可以發(fā)現(xiàn)自己的不足,也可以從學生那里可以了解到大量感性資料。該教學法有利于調(diào)動學生學習主動性,通過生動具體的案例介紹可以促進學生對知識的理解和實際應用。

人工智能授課中,對于產(chǎn)生式系統(tǒng)和自然語言理解系統(tǒng)的有關(guān)概念及系統(tǒng)構(gòu)成技術(shù),采用了案例教學法。

在介紹產(chǎn)生式系統(tǒng)時,我們以動物識別系統(tǒng)為案例進行介紹。案例教學通常可以分為3個步驟,即案例引入、案例分析和案例總結(jié)。案例引入過程介紹產(chǎn)生式的語法和語義、產(chǎn)生式系統(tǒng)的組成及工作原理后,通過屏幕演示動物識別系統(tǒng)的運行過程使得學生能夠獲得老虎、金錢豹、斑馬、長頸鹿、鴕鳥、企鵝、信天翁七種動物的一些特征;案例分析階段通過向?qū)W生展示使用Prolog編寫的動物識別系統(tǒng)源程序,詳細介紹設(shè)計思想以及實現(xiàn)過程。該過程是案例教學的關(guān)鍵,教師引導學生進行案例分析,之后由學生進行補充,師生共同討論力求系統(tǒng)得以更完善;案例總結(jié)階段由老師對學生的討論情況進行總結(jié),在總結(jié)討論情況的基礎(chǔ)上提出一些問題(例如如何進一步提高系統(tǒng)的效率?)。

在介紹自然語言理解系統(tǒng)時,以自然語言情報檢索系統(tǒng)LUNAR[5]為例進行介紹。從LUNAR系統(tǒng)的詞法分析、語義解釋和問題回答三個階段進行詳細分析。經(jīng)過案例引入、案例分析和案例總結(jié)三個階段,使得學生對LUNAR系統(tǒng)的設(shè)計步驟、關(guān)鍵技術(shù)及設(shè)計思路有深入的了解。之后,要求學生寫出案例分析書面過程,并完成課后作業(yè)“指揮機器人的自然語言理解系統(tǒng)SHRDLU”。

4 課程考核方式的改革

研究生教育以培養(yǎng)學生的能力和素質(zhì)為主要目標。人工智能課程的考核方式也以此為目標,采用以考察理解應用為目的的論述題,或結(jié)課論文形式進行,同時注重平時考核。平時考核以學生查資料的能力、閱讀相關(guān)文獻即完成課后作業(yè)的情況為考核對象。

5 結(jié)束語

為了提高人工智能課的教學質(zhì)量,根據(jù)課程及教學對象的特點,結(jié)合教學過程實際問題,采用了合適的教材,安排了合適的學時,在教學過程中綜合各種教學方法的優(yōu)點,并采用了適當?shù)目己朔绞?。教學結(jié)果表明,通過這些嘗試,提高學生學習的興趣和積極性,取得較好的教學效果,學生能夠有意識地使用人工智能中的相關(guān)知識、思想來進行學術(shù)研究。

參考文獻:

[1] 蔡自興,徐光祐.人工智能及其應用——研究生用書[M]. 第3 版. 北京:清華大學出版社,2004.

[2] 廉師友.人工智能技術(shù)導論[M].西安:電子科技大學出版社, 2002.

第6篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞:通話行為;數(shù)據(jù)挖掘;模糊聚類;模糊C均值(FCM)聚類

中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2008)14-20926-03

1 引言

近年來電信事業(yè)蓬勃發(fā)展,隨著市場競爭的充分展開和電信資費的不斷下降,對于客戶的消費行為分析顯得越來越重要。對用戶呼叫行為進行有效分析和辨識,是對客戶分群及市場細分的必要手段。本研究希望能應用模糊數(shù)學理論和數(shù)據(jù)挖掘領(lǐng)域中的聚類技術(shù),對客戶呼叫行為進行分析,為電信市場細分和營銷策略計劃的制訂提供有效工具。

要分析電信用戶的呼叫行為,需要從用戶通話記錄中找出使用電話多和少,或是電信消費高和低的用戶分群。本研究采用模糊集理論[4]作為技術(shù)基礎(chǔ),只關(guān)心如何能夠從用戶的通話記錄中剖析出有意義的信息,尚有其他許多種分類方法不在我們討論范圍之內(nèi)。某些通話行為特別怪異的電信用戶,需要在后續(xù)研究中加以調(diào)整改進其分類。

2 相關(guān)研究

在本章節(jié)中,我們將針對本論文研究范圍的相關(guān)領(lǐng)域進行探討,第一部分為聚類技術(shù)介紹;第二部分為本文采用的模糊C均值(FCM)聚類算法的原理介紹。

2.1 模糊聚類技術(shù)(Fuzzy Clustering)

2.1.1 聚類分析的基本概念

聚類就是將數(shù)據(jù)對象分組成多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大[1] 。聚類與分類不同,前者是一種無指導的學習,而后者是一種有指導的學習。在分類時對于目標數(shù)據(jù)中存在哪些類,事先已知,只需將每個數(shù)據(jù)點屬于哪一個類識別出來;而聚類事先未知有多少類,以某種度量為標準,將具有相似特征的數(shù)據(jù)對象劃分為一類,同時分離具有不同特征的數(shù)據(jù)對象。聚類需要考察所有的個體才能決定類的劃分,并由算法自動確定。

大多數(shù)對象沒有嚴格的屬性,他們在性態(tài)和類屬方面存在著中介性,具有亦此亦彼的性質(zhì),因此適合進行軟化分。模糊集理論的提出為這種軟劃分提供了有力的分析工具,即模糊聚類分析。

2.1.2 聚類分析的分類

從實現(xiàn)方法上分,模糊聚類分析方法可大致分為四種類型:譜系聚類法、基于等價關(guān)系的聚類方法、圖論聚類法和基于目標函數(shù)的聚類方法等。前三種方法不適用于大數(shù)據(jù)量的情況,難以滿足實時性要求較高的場合,因此在實際中應用并不廣泛。受到普遍歡迎的是第四種方法――基于目標函數(shù)的聚類方法,該方法把聚類分析歸結(jié)成一個帶約束的非線性規(guī)劃問題,通過優(yōu)化求解獲得數(shù)據(jù)集的最有模糊劃分和聚類。設(shè)計簡單、解決問題的范圍廣,還可以轉(zhuǎn)化為優(yōu)化問題而借助經(jīng)典數(shù)學的非線性規(guī)劃理論求解,易于計算機實現(xiàn)。因此,基于目標函數(shù)的模糊聚類算法成為新的研究熱點。

2.2 模糊C均值(Fuzzy C-Means,FCM)聚類算法

模糊C均值(FCM)聚類算法首先由Dunn于1974年提出,并由Bezdek于1981年改進。這種算法能自動對數(shù)據(jù)對象進行分類并求出聚類中心和每個數(shù)據(jù)點的隸屬度,使得非相似性指標的目標函數(shù)達到最小,從而決定每個數(shù)據(jù)點的歸屬。

初始化:給定聚類類別數(shù)c,2≤c≤n,n是數(shù)據(jù)個數(shù),設(shè)定迭代停止閾值ε,指定加權(quán)指數(shù)m;用值在[0,1]區(qū)間的隨機數(shù)初始化隸屬矩陣U,使其滿足約束條件式(1);

步驟一:計算c個聚類中心ci,i=1,…,c;

步驟二:計算目標函數(shù)式(2)。如果J小于ε,或相對于上一次J值的改變量小于ε,則停止;

步驟三:重新計算隸屬矩陣U,返回步驟一。

整個計算過程就是反復修改聚類中心和分類矩陣的過程。該算法的收斂性已經(jīng)得以證明[3]:FCM算法能從任意給定初始點開始沿一個迭代子序列收斂到其目標函數(shù)Jm(U,P)的局部極小點或鞍點。

2.2.2 聚類有效性控制

利用Matlab 2006a提供的模糊邏輯工具箱(Fuzzy Logic Toolbox)中的fcm函數(shù)對通話記錄進行聚類,只需要輸入一個初始變量,即分類數(shù)c,就可以很快得出結(jié)果。但是,關(guān)于初始變量c的給定,不同的c值,會產(chǎn)生不同的聚類結(jié)果;即使是同一c值,有時也會產(chǎn)生不同聚類結(jié)果。這是由于算法結(jié)果一般地依賴于初始值,而初始值的給定在計算過程中是隨機的,有時候會不可避免地陷入局部最優(yōu)而非達到全局最優(yōu),關(guān)于這方面的研究,可以參考文獻[2]。聚類有效性問題一般通過建立有效性函數(shù)來解決。這種函數(shù)用于衡量聚類的緊密度和分離度,以此來判定聚類的有效性。

其中,n為樣本數(shù),中的下標表示FCM算法中的加權(quán)指數(shù)為2,dij表示樣本i與第j類聚類中心的距離。XIE-BENI指標可以解釋為(U,V)的總方差與V的分離性指標的比值。分類效果好時,各類中心間的距離應該最大,即分離性指標比較大。由此當對應最佳類數(shù)n*時,應該最小。

根據(jù)函數(shù)確定最佳類數(shù)n*的步驟如下:

(1) 給定c的范圍是。這是根據(jù)很多研究者的使用經(jīng)驗和一些理論依據(jù)給出的;

(2) 計算當2≤c≤時每個整數(shù)c所對應的V值;

(3) 比較各V的值,取V最小時所對應的c值即為所求。

3 研究設(shè)計

3.1 分析數(shù)據(jù)構(gòu)成

對電信用戶通話行為進行分析,可以利用大量的通話清單記錄經(jīng)過整理出分析特征維度,采用FCM聚類進行分析。分析特征的選擇確定工作可以由專家憑經(jīng)驗完成,也可以由散布矩陣跡、J-M(Jeffries-Matusita)距離和變換散度等參量為類別可分性準則的最佳特征子集的選取方法[2]。一般情況下特征數(shù)目多了會產(chǎn)生維數(shù)災難,但太少的特征將反映不出分析模式的總體信息。為便于實施,本研究采用專家選定的方式確定分析特征。

本文采用的聚類數(shù)據(jù)是隨機選擇了某地電信2006年6月至8月三個月共120個電話的通話特征數(shù)據(jù),考慮到客戶的隱私權(quán),將客戶的姓名及電話號碼略去,賦以識別號ID代之。

這是一個六維的高維度數(shù)據(jù)空間(客戶識別號ID非分析特征,不列為分析維度),特征屬性分別為長途呼叫總次數(shù)、長途呼叫不同被叫號碼個數(shù)、長途平均單次呼叫時長、市話呼叫總次數(shù)、市話被叫次數(shù)以及市話被叫不同主叫號碼數(shù),如表1所示:

3.2 程序及結(jié)果

本文使用Matlab 2006a版中的矩陣運算判定聚類有效性,并用FCM函數(shù)對以上數(shù)據(jù)進行聚類,部分源代碼如下:

load analysisdata.dat

[center,U,obj_fcn] = fcm(analysisdata,4);

maxU = max(U);

index1 = find(U(1,:)==maxU);

……

line(analysisdata(index1, 1), analysisdata(index1, 2), 'linestyle','none','marker', 'o','color','g');

……

plot(center(1,1),center(1,2),'ko','markersize',15,'LineWidth',2)

plot(center(2,1),center(2,2),'kx','markersize',15,'LineWidth',2)

……

運算后得到以下結(jié)果:

對聚類有效性函數(shù)式(3),確定類數(shù)c。

一般地,取m=2,分母權(quán)值均為1,當類數(shù)2≤c≤10時,有效性函數(shù)V取得如下結(jié)果:c=4,V=3765.7414。

可以確定,當c=4時V取得最小值,因此可分為4類,聚類中心矩陣為:

聚類結(jié)果投影在維度“市話呼叫總次數(shù)”、“市話被叫總次數(shù)”上 的示意圖如圖1。

聚類中心點在各維的取值表征了該類的特征,因此客戶分類如表2所示。

3.3 簡單的模式識別

聚類完成后,可以用以下方法進行模式識別驗證:

(1) 按與中心距離的識別

算出聚類中心center后,新樣本可根據(jù)距離判定屬于哪一類,對于一個新樣本xk,如果,則xk屬于cj類。

(2) 按最大隸屬度原則來識別

如果,則xk屬于cj類。

由前面程序輸出可以得到隸屬度矩陣U,U為一個4×120的矩陣,表示120個樣本的在四類的隸屬度。

由于樣本數(shù)較多,截取一段結(jié)果圖示如圖2:

可以看到,矩陣U每一列之和為1,即是每一樣本的各類隸屬度之和為1。取每一列的最大值,最大值在第幾行,該樣本就屬于第幾種類型。

在此簡單抽取兩個樣本查看確認分類是否正確,如樣本:

樣本16屬于第一類“主叫活躍,被叫少”,而樣本89屬于第二類“主叫不活躍,被叫活躍”。經(jīng)過查核某地電信IBSS系統(tǒng)及計費帳務(wù)系統(tǒng),樣本16登記的屬性為“個體商鋪”;樣本89登記的屬性為“住宅”??蛻魧傩缘氖褂昧晳T與聚類結(jié)果相符。

4 結(jié)束語

電信用戶呼叫行為分析中聚類分析是一個新的研究領(lǐng)域,與之相似的研究可以追溯到市場營銷中的市場細分,市場細分與客戶聚類功能相同,都是將產(chǎn)品或服務(wù)的銷售對象進行分類。但兩者是有區(qū)別的,市場細分的分析數(shù)據(jù)來自企業(yè)外部,比如消費者的人口特征、區(qū)域特征、行業(yè)性質(zhì)等等,用的只是一種“普遍適用”的策略,很難真正做到個性化服務(wù)。而客戶通話行為聚類分析的數(shù)據(jù)源自于企業(yè)內(nèi)部掌握的通話記錄,根據(jù)客戶本身的使用行為、消費傾向,保證每個客戶的消費行為的連續(xù)性與一致性,有利于對現(xiàn)有客戶進行管理,如發(fā)現(xiàn)優(yōu)質(zhì)客戶,對不良客戶進行預警等。因此,對企業(yè)有很重要的意義。

應用模糊C均值聚類算法得到比較滿意的客戶聚類結(jié)果,主要體現(xiàn)在:區(qū)分出了優(yōu)質(zhì)客戶和普通客戶;找到了每一類客戶的特征。本文提出用FCM算法作為客戶通話行為(消費行為)聚類的方法,為企業(yè)提供分析的量化依據(jù)。

參考文獻:

[1] HSU T H. An application of fuzzy clustering in group-positioning analysis[J]. Proc Natl Sci, Counc ROC(C),2000,10(2):157-167.

[2] 高新波. 模糊聚類分析及其應用. 西安:西安電子科技大學出版社,2004,1:37-54.

[3] Bezdek J C. A convergence theorem for the fuzzy ISODATA clustering algorithm. IEEE Trans. PAMI, 1980, 1(2):1-8.

[4] Zadeh L A. Fuzzy logic. IEEE Trans. On Control System Magazine, 1988. 83-93.

第7篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞:大數(shù)據(jù):信息安全;個人信息保護

一、引言

當人們歡呼大數(shù)據(jù)時代降臨時,棱鏡門事件就如平地驚雷,炸響了人們對個人信息保護的重視。然而,與國外相比,我國的個人信息保護工作仍停滯不前,行政單位缺乏監(jiān)管,過度收集個人信息:企業(yè)自律性不足,任意獲取公民信息,滿足商業(yè)目的:而普通公民則缺乏個人信息保護意識,變成了“透明人”。隨著這些問題的日益突出,大數(shù)據(jù)時代的個人信息保護研究顯得愈發(fā)重要。

二、大數(shù)據(jù)時代個人信息保護研究的主要內(nèi)容

本文以CNKI中的相關(guān)文獻為基礎(chǔ),從個人信息安全風險、個人信息保護立法、監(jiān)管以及個人隱私保護四個方面介紹個人信息保護的主要研究成果。

(一)大數(shù)據(jù)時代個人信息安全的風險研究

大數(shù)據(jù)技術(shù)的快速發(fā)展給個人信息安全增加風險,但隨著更多研究者的推進,風險也給個人信息安全保護帶來了機遇。本文從法律、監(jiān)管、技術(shù)三方面進行風險研究,探尋保護個人信息的有效方法。

法律風險方面,史為民從立法的角度分析了個人信息安全風險,提議出臺具有權(quán)威性的相關(guān)法律。張毅菁則希望政府借鑒他國經(jīng)驗,引入域外立法機制,構(gòu)建適應我國國情的立法模式。

監(jiān)管風險方面,我國相關(guān)研究者普遍認為我國行政機構(gòu)職權(quán)不夠細化,缺乏明確的監(jiān)管體系。王麗萍等人提出行業(yè)自律問題,認為企事業(yè)單位缺乏自制力,容易侵犯公民個人權(quán)益。

技術(shù)風險方面,李睿等人以信息抓取和數(shù)據(jù)分析技術(shù)為著力點分析相關(guān)的技術(shù)風險。另外,也有學者分析了用戶搜索行為,并從網(wǎng)絡(luò)與現(xiàn)實兩方面闡述個人信息安全受到的影響。

現(xiàn)階段的風險研究雖取得一定成果,但本層面的討論還需進一步發(fā)展,立法方面,我國還需借鑒域外模式,形成一套適應時代的立法體系:監(jiān)管機制方面還要調(diào)到政府、行業(yè)、公民一體化:技術(shù)方面需重點開發(fā)最新防御技術(shù)。

(二)大數(shù)據(jù)時代個人信息保護的立法研究

針對國內(nèi)外發(fā)生的隱私泄漏事件,公民對個人隱私權(quán)愈發(fā)重視,然而相關(guān)法律至今未完善。針對現(xiàn)實情況,眾多學者將研究重點投入到立法研究上,分為:法律研究與權(quán)利研究。

通過回顧,童園園等人認為應從刑法的角度完善個人信息保護法律條款,為個人信息保護提供制度背景。侯富強則提議將“歐美模式”與我國國情相結(jié)合,制定統(tǒng)一立法。

權(quán)利研究主要集中在兩方面:一是隱私權(quán)研究:二是主體權(quán)利研究。連志英等人強調(diào)了隱私權(quán)對我國個人信息保護立法的重要意義。在主體權(quán)利方面,侯富強提出個人信息保護法的立法目的在于保護信息主體的權(quán)利。

立法研究一直是個人信息保護研究的主要方向,但現(xiàn)有研究明顯底氣不足。為了本領(lǐng)域的更好發(fā)展,未來的的研究方向應集中在立法體系的建立,法律內(nèi)容的細化,吸收發(fā)達國家經(jīng)驗,形成成熟的立法機制。

(三)大數(shù)據(jù)時代個人信息保護的監(jiān)管研究

大數(shù)據(jù)的飛速發(fā)展帶來經(jīng)濟利益,但隨之而來的也有信息安全問題。為解決該項問題,本領(lǐng)域研究者提出了一套政府、企業(yè)、公民相結(jié)合的個人信息保護監(jiān)管體系,根據(jù)主體不同,分為行政監(jiān)管、行業(yè)自律與公共監(jiān)督。

從行政監(jiān)管效果來看,李慶峰等人列舉了行政監(jiān)管體系的不足之處,提議整合相關(guān)部門,明確責權(quán)。張毅菁則重點分析政府過度監(jiān)管行為產(chǎn)生的不利影響,呼吁政府加強自我管理,強化法律意識。

在行政監(jiān)管體系研究后,行業(yè)自律受到關(guān)注。侯富強一方面肯定行業(yè)協(xié)會的積極作用,另一方面要求加大企業(yè)監(jiān)管力度。史為民則分析了行業(yè)自律的局限性,提出改善措施,促進行業(yè)對個人信息的保護。

在公共監(jiān)督研究方面,劉雅琦等人認為一個完善的監(jiān)督機制除了行政監(jiān)管與行業(yè)自律,還需公眾的監(jiān)督,只有三者相互配合,才能更好地發(fā)揮監(jiān)管體系的作用,保護好公民的個人信息安全。

雖然監(jiān)管體系發(fā)揮了一定保護作用,但也存在局限性:監(jiān)管機構(gòu)職權(quán)不定、行業(yè)主體自律不足、公民保護意識不強等。為此,政府應加大作為,運用行政手段和法律手段,嚴厲打擊泄漏個人信息行為。

(四)個人隱私保護研究

隨著近幾年個人隱私侵犯現(xiàn)象加劇,個人隱私保護開始受到高度關(guān)注,與個人信息保護研究相比,隱私保護研究在法律、監(jiān)管、技術(shù)層面具有一些新內(nèi)容。

法律研究的目的是為個人隱私保護提供制度依據(jù),維護公民的隱私與尊嚴。例如李睿分析了個人隱私泄漏問題,為個人隱私保護提供法律指導。童圓圓呼吁社會加強對個人隱私權(quán)的重視,并提出幾項保護個人隱私安全的建議。

監(jiān)管研究將個人隱私保護置于監(jiān)管體系內(nèi),降低高額的社會執(zhí)法成本。李慶峰認為公民自身可加強對企業(yè)的監(jiān)督,保護網(wǎng)絡(luò)隱私。王麗萍等人則將目光重點投向行業(yè)自律上。

技術(shù)研究是隱私保護研究的重點。劉曉霞提議將加密、匿名技術(shù)與隱私保護規(guī)則相結(jié)合保護用戶個人隱私。連志英則提出加大安全技術(shù)開發(fā)與資金投入,依仗安全技術(shù)應對高級持續(xù)的技術(shù)攻擊。

個人隱私保護主要從法律、監(jiān)管、技術(shù)三大方向進行研究。法律方向,提出隱私權(quán)與被遺忘權(quán):監(jiān)管方向,強調(diào)了對網(wǎng)絡(luò)隱私的監(jiān)管:在技術(shù)方向,提出開發(fā)加密技術(shù)與匿名技術(shù),這反映了公民對個人隱私的重視。

三、大數(shù)據(jù)時代個人信息保護研究展望

大數(shù)據(jù)時代的個人信息保護研究在理論與應用方面都取得了一定成果,但仍存在較多問題,本文擬從公共監(jiān)管、域外立法模式、隱私權(quán)方面做進一步討論。

(一)公共監(jiān)管研究

當審視現(xiàn)行監(jiān)管機制時,不難發(fā)現(xiàn)政府占據(jù)主導地位,若政府監(jiān)管不力,將導致整個監(jiān)管體系崩盤。為此,政府應發(fā)揮公民個人作用,將個人信息保護責任承擔給每一位公民,形成公共監(jiān)管模式。

(二)域外立法模式研究

通過對現(xiàn)有法律的分析,我國個人信息保護立法還在發(fā)展階段。因此,國內(nèi)相關(guān)學者一方面提出完善法律體系,出臺專門的個人信息保護法,另一方面大力研究國外個人信息保護立法體系,吸收具有可行性的立法方案。

(三)加大隱私權(quán)研究

對于隱私權(quán)的探討,我國一直處于緩慢階段。例如:缺乏系統(tǒng)性的司法解釋、政府內(nèi)部監(jiān)管存在漏洞、行業(yè)自律性差、數(shù)據(jù)挖掘技術(shù)存在爭議等。為此,加大隱私權(quán)研究仍是今后的主要任務(wù)。

第8篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

本課題的研究目的是改變普遍存在于計算機基礎(chǔ)課程傳統(tǒng)教學中,學生單一接收、被動接受的學習方式,使學生親歷知識產(chǎn)生與形成的過程,追求“知識”發(fā)現(xiàn)、“方法”習得與“態(tài)度”形成的有機結(jié)合與高度統(tǒng)一。

(一)計算機基礎(chǔ)課程的現(xiàn)狀

我校從1979年就開設(shè)了算法語言課。在計算機技術(shù)飛速發(fā)展的情況下,計算機課程的內(nèi)容也在不斷擴充。伴隨著計算機文化的形成,授課內(nèi)容涵蓋了數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫和操作系統(tǒng)等基礎(chǔ)學科領(lǐng)域。目前開設(shè)的計算機基礎(chǔ)課程主要有《C程序設(shè)計》《計算機軟件技術(shù)基礎(chǔ)》等,講授程序設(shè)計語言和計算機基礎(chǔ)知識,使學生掌握用計算機解決實際問題的能力。目前的計算機基礎(chǔ)課程大多采用傳統(tǒng)教學模式,完成教學內(nèi)容是課堂的首要教學任務(wù),教師的講授代替了學生主體活動,教師的認知結(jié)果代替了學生認知結(jié)果。在課堂上進行大量的講授和習題訓練,很少開展研究性學習。目前國內(nèi)也已開展相關(guān)課題研究,但理論研究不夠深入,在實踐中也沒有得到充分應用。

(二)創(chuàng)新教學模式的實踐

我們在研究性學習的方法和理論指導下,進行創(chuàng)新教學,情感、知識、技能構(gòu)成了新的教學模式。2010至2012連續(xù)三年,在《計算機軟件技術(shù)基礎(chǔ)》《C程序設(shè)計》等計算機基礎(chǔ)課程中進行研究性學習的教學實踐。

1.改革傳統(tǒng)教學方法,靈活運用現(xiàn)代化教學手段在計算機基礎(chǔ)課程創(chuàng)新教學模式實踐過程中,教學方法的選擇是關(guān)鍵環(huán)節(jié)之一。教師根據(jù)教學內(nèi)容的難易不同,采用不同方法教授。學生自主預習課程內(nèi)容,根據(jù)教師提出的問題在課堂上分析討論。在教學中綜合運用CAI課件等各種現(xiàn)代化教學手段,增強學習的主觀能動性。采用現(xiàn)代化教學手段包括使用現(xiàn)代化的教學設(shè)備、采用新的教學模式等。在教學過程中引入科研活動,引導學生主動思考,探索知識。參加科研活動可以將新知識融入課堂教學,拓寬學生的知識面,增加學習興趣。學生在親身實踐中獲得了知識,提高了解決問題的能力。

2.重視學生自我發(fā)展,指導學生主動探究在計算機基礎(chǔ)課程的教學中,課堂上以小組合作的形式提出問題并討論解決方案。鼓勵學生通過在課下收集資料、分析整理和處理信息等實踐活動來學會學習,學會合作。學生在課堂上充分交流探討,發(fā)表自己的觀點。在課外自主研究,同學間積極合作。教師也要在學生的探究學習過程中,給予恰當?shù)囊龑?,給出學生探究的問題,最后要進行分析總結(jié)。

3.網(wǎng)絡(luò)教學模式由于課堂上班級組織的限制,要實現(xiàn)按層次的分級教學比較困難。嘗試在課外利用網(wǎng)絡(luò)進行分級教學。網(wǎng)絡(luò)教學系統(tǒng)包括分組討論、分組教學、搖控輔導、答題示范等功能,徹底彌補了傳統(tǒng)教學方式的不足。通過網(wǎng)絡(luò)開展教學,在網(wǎng)上學生可以隨時和教師交流溝通;教師利用網(wǎng)絡(luò)完成課外答疑,將教案、課件和習題等放到網(wǎng)絡(luò)上資源共享。學生不出門,就完成了答疑。這種方式深受學生喜愛,效果良好。此外,還可以通過在網(wǎng)上建立班級用戶群,完成網(wǎng)絡(luò)作業(yè)等方式,進行教學和輔導。班級用戶間可進行相互討論、互相答疑。學生網(wǎng)絡(luò)討論、網(wǎng)絡(luò)作業(yè)完成等可計入平時成績。對表現(xiàn)良好的學生給予獎勵,從而激發(fā)學生的自主學習的興趣。

4.反饋信息,及時評價實踐教學期間,在我校理工科多個專業(yè),針對各個學習階段開展問卷調(diào)查,以全面了解學生對研究學習的態(tài)度、收獲等。統(tǒng)計結(jié)果顯示學生的主要收獲是:促進了自主學習、主動學習;學會了利用網(wǎng)絡(luò)收集資料;學到更多課外知識和有利于創(chuàng)新精神與創(chuàng)新能力的培養(yǎng)。2012年度,在本校光電工程學院的探測技術(shù)及儀器、光電信息工程等專業(yè),進行了抽樣調(diào)查。調(diào)查結(jié)果顯示:85%的學生認可并喜歡研究性學習方式;通過采用研究性學習,實踐前后學習興趣和收獲分別提高了28%和37%。實踐結(jié)果表明,學生對計算機基礎(chǔ)課的興趣明顯提高。實踐教學中,教師充分與學生交流,學生參與學習的結(jié)果被及時地反饋回來,同時獲得恰當?shù)脑u價。教師注重激發(fā)并保持學生的學習熱情,幫助學生逐步形成良好的認知結(jié)構(gòu)。

(三)建設(shè)立體化教學資源與實現(xiàn)網(wǎng)絡(luò)化考試管理在實踐中,更新教學內(nèi)容,完善基礎(chǔ)課教材改革。教學內(nèi)容和思想通過主教材體現(xiàn),配合學生用書為學生提供實踐指導。不斷總結(jié)經(jīng)驗,形成綜合理論、設(shè)計、實踐于一體的立體化教學資源系統(tǒng)。為學生提供參考書目、案例教程、習題庫等豐富的學習參考資源。改革考試管理,建立試題豐富、覆蓋范圍廣泛的題庫,用全自動考試系統(tǒng)完成組卷、考試、評分、試卷分析等全部過程,考試過程全部實現(xiàn)網(wǎng)絡(luò)化管理。所有學生考試數(shù)據(jù)一律存儲在數(shù)據(jù)庫中,可以對其數(shù)據(jù)進行深層次的數(shù)據(jù)挖掘,對教學質(zhì)量評估起到輔助決策的作用。除常規(guī)考試外還包括自選題目的論文(包括答辯)、自選題目的項目訓練(包括答辯)等考核方式??荚囘^程實現(xiàn)計算機管理,學生的考試更加公平、公正、透明化、正規(guī)化。

二、實踐結(jié)果

第9篇:數(shù)據(jù)挖掘技術(shù)探討論文范文

關(guān)鍵詞 教育信息化;大數(shù)據(jù)技術(shù);應用

【中圖分類號】G434 【文獻標識碼】A

【論文編號】1671-7384(2014)03-0064-03

隨著網(wǎng)絡(luò)信息技術(shù)的加速發(fā)展和應用,物聯(lián)網(wǎng)、移動互聯(lián)、社交網(wǎng)絡(luò)等大大拓展了互聯(lián)網(wǎng)的疆界和應用領(lǐng)域,數(shù)據(jù)正以前所未有的速度在不斷地增長和累積,大數(shù)據(jù)時代的大幕已經(jīng)開啟。大數(shù)據(jù)在社會經(jīng)濟、政治、文化、生活等各方面產(chǎn)生深遠的影響,將給各行各業(yè)的發(fā)展模式和決策帶來前所未有的革新與挑戰(zhàn)。教育行業(yè)也不例外,教育管理、思維方式、學習行為、教學評估等,無不受到大數(shù)據(jù)的影響。

大數(shù)據(jù)的概念及時代背景

大數(shù)據(jù)是一個正在發(fā)展中的概念。到目前為止,學術(shù)界對于“大數(shù)據(jù)”一詞還沒有準確、統(tǒng)一的定義。著名學者涂子沛在《大數(shù)據(jù)》一書中指出:“大數(shù)據(jù)(BigData)是指那些大小已經(jīng)超出了傳統(tǒng)意義上的尺度,一般的軟件工具難以捕捉、管理和分析的大容量數(shù)據(jù),一般以‘以太節(jié)’為單位。大數(shù)據(jù)之大,并不僅僅在于容量之大,更大的意義在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來‘大知識’、‘大科技’、‘大利潤’和‘大發(fā)展’?!弊钤缣岢觥按髷?shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫全球研究院報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》則對“大數(shù)據(jù)”定義如下:大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”可見,大數(shù)據(jù)就是指蘊涵著巨大價值的、可有效利用的、多樣化的海量數(shù)據(jù)集。

進入2012年以來,世界各國大數(shù)據(jù)的關(guān)注度與日俱增。在2012年1月份的達沃斯世界經(jīng)濟論壇上,大數(shù)據(jù)是主題之一,并特別針對大數(shù)據(jù)了報告BigData,BigImpact:New Possibilities for InternationalDevelopment ,探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好地利用數(shù)據(jù)來產(chǎn)生良好的社會效益。2012年3月,美國奧巴馬政府投資2億美元,正式啟動“大數(shù)據(jù)發(fā)展計劃”,這一計劃是美國政府繼信息高速公路計劃之后在信息科學領(lǐng)域的又一重大舉措。同時,聯(lián)合國一個名為GlobalPulse的倡議項目在2012年5月報告《大數(shù)據(jù)發(fā)展:挑戰(zhàn)與機遇》,闡述大數(shù)據(jù)時代各國特別是發(fā)展中國家在面臨數(shù)據(jù)洪流時的機遇與挑戰(zhàn),并對大數(shù)據(jù)的應用進行了初步的解讀。目前,一些發(fā)達國家、著名研究機構(gòu)以及大集團公司已將大數(shù)據(jù)作為獲取有效信息和知識的重要來源、調(diào)整和部署戰(zhàn)略決策的重要依據(jù),大數(shù)據(jù)技術(shù)則成為信息挖掘、整理和分析的重要工具。

大數(shù)據(jù)時代對人類的數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn),也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間?;ヂ?lián)網(wǎng)時代的數(shù)據(jù)正在迅速膨脹,它決定著組織的未來發(fā)展,隨著時間的推移,人們將越來越意識到數(shù)據(jù)對組織的重要性。對于企業(yè)組織來講,大數(shù)據(jù)的價值體現(xiàn)在兩個方面:分析使用和二次開發(fā)。對大數(shù)據(jù)進行分析能揭示隱藏其中的知識信息,對大數(shù)據(jù)的二次開發(fā)則是通過大數(shù)據(jù)創(chuàng)造出新產(chǎn)品和服務(wù)。例如,F(xiàn)acebook通過結(jié)合大量用戶信息,定制出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式。大數(shù)據(jù)這股洶涌浪潮正在興起,將給各行各業(yè)的發(fā)展模式和決策帶來前所未有的革新與挑戰(zhàn),教育領(lǐng)域同樣不可避免,面臨新的挑戰(zhàn)和機遇。

大數(shù)據(jù)的主要特點

大數(shù)據(jù)時代的數(shù)據(jù)存在著以下幾個主要特點。

規(guī)模巨大。個人和組織面臨著數(shù)據(jù)量的大規(guī)模增長,呈現(xiàn)為海量數(shù)據(jù)。典型個人計算機硬盤的容量為TB量級,一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。而根據(jù)麥肯錫全球研究院(MGI)估計,全球企業(yè)2010年在硬盤上存儲了超過7EB(1EB等于10億GB)的新數(shù)據(jù)。2015年全球移動終端產(chǎn)生的數(shù)據(jù)量將達到6300PB。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標,單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等。此外,各種意想不到的來源都能產(chǎn)生數(shù)據(jù)。

類型多樣。數(shù)據(jù)來自多種渠道,如網(wǎng)絡(luò)日志、社交媒體、互聯(lián)網(wǎng)搜索、手機通話記錄及傳感器網(wǎng)等,內(nèi)容包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。這些實際是多視角的,不僅有正規(guī)的數(shù)據(jù)、媒體新聞數(shù)據(jù)、時效性的數(shù)據(jù),還有帶有個人情感的數(shù)據(jù)。而這些數(shù)據(jù)又打破了之前限定的結(jié)構(gòu)化數(shù)據(jù)范疇,包含著結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份額越來越大。

產(chǎn)生速度快。即數(shù)據(jù)被創(chuàng)建和移動的速度快,時效性要求高,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。在高速網(wǎng)絡(luò)時代,通過基于實現(xiàn)軟件性能優(yōu)化的高速電腦處理器和服務(wù)器,快速創(chuàng)建實時數(shù)據(jù)流已成為流行趨勢。如一天之內(nèi)谷歌公司處理幾十PB的數(shù)據(jù),F(xiàn)acebook新產(chǎn)生約10億張照片、300TB以上的日志,淘寶網(wǎng)進行數(shù)千萬筆交易、產(chǎn)生20TB以上的數(shù)據(jù),新浪微博的約3億用戶可產(chǎn)生上億條微博。

價值密度低。隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,數(shù)據(jù)信息海量,但其價值密度較低。價值密度的高低與數(shù)據(jù)總量的大小成反比,大數(shù)據(jù)中單條數(shù)據(jù)可能無價值,無用數(shù)據(jù)多,但綜合價值大。例如,視頻數(shù)據(jù)中,1小時的視頻中有用的數(shù)據(jù)可能僅有一兩秒鐘,其余的可能是無用的數(shù)據(jù),價值密度相對較低。因此,如何通過強大的數(shù)據(jù)挖掘算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。

存儲要求高。種類多樣的數(shù)據(jù)源,既提供了大量的數(shù)據(jù),又帶來了科學存儲的問題。大數(shù)據(jù)通??蛇_到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應等級的擴展能力。當前互聯(lián)網(wǎng)中的數(shù)據(jù)向著異質(zhì)異構(gòu)、無結(jié)構(gòu)趨勢發(fā)展,新數(shù)據(jù)類型不斷涌現(xiàn),用戶需求呈現(xiàn)出多樣性。目前的存儲架構(gòu)難以解決數(shù)據(jù)的異質(zhì)異構(gòu)、爆炸性增長帶來的存儲問題,靜態(tài)的存儲方案滿足不了數(shù)據(jù)的動態(tài)演化所帶來的挑戰(zhàn)。因而在海量分布式存儲和查詢方面仍然需要進一步研究。

管理復雜。大數(shù)據(jù)的規(guī)模和復雜結(jié)構(gòu)是傳統(tǒng)IT架構(gòu)所面臨的直接挑戰(zhàn),使得傳統(tǒng)的數(shù)據(jù)管理技術(shù)不適合處理海量異構(gòu)數(shù)據(jù)。許多公司已經(jīng)擁有大量的存檔數(shù)據(jù),卻沒有能力來處理它。傳統(tǒng)的關(guān)系數(shù)據(jù)庫無法處理大數(shù)據(jù)的規(guī)模,目前可選擇的方法包括大規(guī)模并行處理架構(gòu)、數(shù)據(jù)倉庫,或類似Greenplum的數(shù)據(jù)庫以及ApacheHadoop解決方案等。

大數(shù)據(jù)在教育領(lǐng)域中的主要應用

1. 革新教育理念和教育思維

隨著大數(shù)據(jù)時代的來臨,教育大數(shù)據(jù)深刻改變著教育理念、教育思維方式。新的時代,教育領(lǐng)域充滿了大數(shù)據(jù),諸如學生、教師的一言一行,學校里的一切事物,都可以轉(zhuǎn)化為數(shù)據(jù)。當每個在校學生都能用計算機終端學習時,包括上課、讀書、寫筆記、做作業(yè)、發(fā)微博、進行實驗、討論問題、參加各種活動等,這些都將成為教育大數(shù)據(jù)的來源。大數(shù)據(jù)比起傳統(tǒng)的數(shù)字具有深刻的含義和價值。例如,對于一張試卷、一次考試,考試得分為90分,它可以是簡簡單單的一個傳統(tǒng)的數(shù)字,但如果換一個角度來分析,把它作為一個數(shù)據(jù)來看待,就可以得到其背后所隱含的許多充滿想象力的數(shù)據(jù)信息:可以是每一大題的得分,每一小題的得分,每一題選擇了什么選項,每一題花了多少時間,是否修改過選項,做題的順序有沒有跳躍,什么時候翻卷子,有沒有時間進行檢查,檢查了哪些題目,修改了哪些題目,等等,這些信息遠遠比一個90分要有價值得多。不單是考試,課堂、課程、師生互動的各個環(huán)節(jié)都滲透了這些大數(shù)據(jù)。教育將不再是靠理念和經(jīng)驗來傳承的社會科學,大數(shù)據(jù)時代的教育將步入實證時代,變成一門實實在在的基于數(shù)據(jù)的實證科學。大數(shù)據(jù)使得教育者的思維方式發(fā)生了深刻變化,傳統(tǒng)的教育大多是教育主管部門和教育者通過教學經(jīng)驗的學習、總結(jié)和繼承來展開的,但是有些經(jīng)驗是不具有科學性的,常識有時會影響人們的判斷。大數(shù)據(jù)時代將可以通過對教育數(shù)據(jù)的分析,挖掘出教學、學習、評估等符合學生實際與教學實際的情況,這樣就可以有的放矢地制定、執(zhí)行教育政策,制定出更符合實際的教育教學策略。

2. 實現(xiàn)個性化教育

大數(shù)據(jù)帶來的一個變化在于實施個性化教育具有了可能性,真正實現(xiàn)從群體教育的方式轉(zhuǎn)向個體教育。利用大數(shù)據(jù)技術(shù),我們可以去關(guān)注每一個學生個體的微觀表現(xiàn),比如,他在什么時候翻開書,在聽到什么話的時候微笑點頭,在一道題上逗留了多久,在不同學科的課堂上提問多少次,開小差的次數(shù)分別為多少,會向多少同班同學發(fā)起主動交流,等等。這些數(shù)據(jù)的產(chǎn)生完全是過程性的,包括課堂的過程、作業(yè)的過程、師生或生生互動的過程,等等,是對即時性的行為與現(xiàn)象的記錄。通過這些數(shù)據(jù)的整合能夠詮釋教學過程中學生個體的學習狀態(tài)、表現(xiàn)和水平。而且這些數(shù)據(jù)完全是在學生不自知的情況下被觀察、收集的,只需要一定的觀測技術(shù)與設(shè)備的輔助,而不影響學生任何的日常學習與生活,因此其采集非常自然、真實,可以獲得學生的真實表現(xiàn)。大數(shù)據(jù)技術(shù)將給教師提供最為真實、最為個性化的學生特點信息,教師在教學過程中可以有針對性地進行因材施教。比如,在課堂學習過程中,哪些學生注意基礎(chǔ)部分,哪些學生注意實踐內(nèi)容,哪些學生完成某一練習,哪些學生可以閱讀推薦書目,等等。不僅如此,當學生在完成教師布置的作業(yè)時,也能通過數(shù)據(jù)分析強化學習。比如,通過電子設(shè)備做作業(yè)時,某一類型的題目有幾次全對,就可以把類似的題目跳過;如果某個類型的題目犯錯,系統(tǒng)則可進行多次強化,這樣不僅提高了學習效率,也減輕了學生的學習負擔。

3. 重新構(gòu)建教學評價方式

在教學評價中利用大數(shù)據(jù)分析,可以通過技術(shù)層面來評價、分析,進而提升教學活動,從依靠經(jīng)驗評價轉(zhuǎn)向基于數(shù)據(jù)評價。教學評價的方式不再是經(jīng)驗式的,而是可以通過大量數(shù)據(jù)的“歸納”,找出教學活動的規(guī)律,更好地優(yōu)化、改進教學過程。比如新一代的在線學習平臺,具有行為記錄和學習誘導的功能。通過記錄學習者鼠標的點擊,可以研究學習者的活動軌跡,發(fā)現(xiàn)不同的人對不同知識點有何不同反應,用了多長時間,以及哪些知識點需要重復,哪些知識點需要深化等。對于學習活動來說,學習的效果體現(xiàn)在日常行為中,哪些知識沒有掌握、哪類問題最易犯錯等成為分析每個學生個體行為的直接依據(jù)。通過大數(shù)據(jù)分析,還可以發(fā)現(xiàn)學生思想、心態(tài)與行為的變化情況,可以分析出每個學生的特點,從而發(fā)現(xiàn)優(yōu)點,規(guī)避缺點,矯正不良思想行為。此外,大數(shù)據(jù)通過技術(shù)手段,記錄教育教學的過程,實現(xiàn)了從結(jié)果評價轉(zhuǎn)向過程性評價。例如,基于網(wǎng)絡(luò)學習平臺或電子課本,能記錄下學生完成作業(yè)情況、課堂言行、師生互動、同學交往等數(shù)據(jù),教師在期末時將這些數(shù)據(jù)匯集起來,有了更加豐富的素材與數(shù)據(jù)依據(jù),可以發(fā)現(xiàn)學生學習成長過程的特點,能對學生的發(fā)展提出建議。同時,這些數(shù)據(jù)也可以促使教師進行教學反思,自己在哪些方面需要改進,從而促進和優(yōu)化教學實施過程。

4. 加強學校基于數(shù)據(jù)的管理