前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的大數(shù)據(jù)分析論文主題范文,僅供參考,歡迎閱讀并收藏。
DSE雜志主編、哈爾濱工業(yè)大學(xué)李建中教授認(rèn)為,現(xiàn)在大數(shù)據(jù)概念過熱,幾乎每個人都在談大數(shù)據(jù),但真正了解大數(shù)據(jù)的人并不多。所以,對于大數(shù)據(jù)到底是什么,應(yīng)該怎樣促進(jìn)大數(shù)據(jù)的實(shí)際應(yīng)用是學(xué)術(shù)界首先要探討的問題。DSE雜志希望成為全世界大數(shù)據(jù)研究者的交流平臺,讓我國大數(shù)據(jù)方面優(yōu)秀的研究成果能夠發(fā)表在國際學(xué)術(shù)期刊上,推動我國的學(xué)術(shù)界走向世界。另外它也為全世界的企業(yè)界和學(xué)術(shù)界搭建了一個橋梁,促進(jìn)大數(shù)據(jù)的研究成果向?qū)嶋H應(yīng)用的轉(zhuǎn)化。
在很多技術(shù)領(lǐng)域,中國的發(fā)展都是在跟隨國外的腳步,但發(fā)展到今天,我們需要在一些領(lǐng)域做出創(chuàng)新,數(shù)據(jù)分析就是其中的一個突破口?,F(xiàn)在國內(nèi)很多領(lǐng)域、尤其銀行領(lǐng)域用的數(shù)據(jù)分析軟件都是國外產(chǎn)品。
對于此次合作,中新賽克CEO凌東勝說道,作為軟件開發(fā)供應(yīng)商,中新賽克希望通過這次合作能夠把學(xué)術(shù)界的研究成果轉(zhuǎn)化到產(chǎn)品的實(shí)際解決方案中去,提升產(chǎn)品的核心競爭力,開發(fā)出領(lǐng)先的數(shù)據(jù)分析軟件,讓國內(nèi)企業(yè)在大數(shù)據(jù)領(lǐng)域真正做強(qiáng)、做大。在2015年,中新賽克將把信息安全領(lǐng)域和銀行領(lǐng)域作為大數(shù)據(jù)產(chǎn)品的主要研發(fā)方向,努力推出優(yōu)秀的產(chǎn)品解決方案。
對于大數(shù)據(jù)從學(xué)術(shù)研究到實(shí)際產(chǎn)品的應(yīng)用,清華大學(xué)計算機(jī)系博士生導(dǎo)師、計算機(jī)系學(xué)術(shù)委員會主任周立柱教授認(rèn)為還存在一些問題需要克服。首先就是要保證數(shù)據(jù)質(zhì)量,目前數(shù)據(jù)噪聲、數(shù)據(jù)不一等問題還有待通過研究來解決;其次是數(shù)據(jù)大了以后,如何利用合適的數(shù)據(jù)模型從復(fù)雜性的數(shù)據(jù)中篩選出目標(biāo)數(shù)據(jù);再次是數(shù)據(jù)分析得出的結(jié)果如何向用戶解釋,背后的基礎(chǔ)是什么。
云計算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)的快速發(fā)展,使得數(shù)據(jù)量以極快的速度增長,大數(shù)據(jù)成為研究熱點(diǎn)。大數(shù)據(jù)的價值產(chǎn)生于分析過程,所以大數(shù)據(jù)挖掘與分析是整個大數(shù)據(jù)處理流程的核心。本文介紹了大數(shù)據(jù)數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、價值密度低、處理速度快的4V特征、以及基于這些特征的大數(shù)據(jù)挖掘與分析需要解決的關(guān)鍵技術(shù)。
關(guān)鍵詞:
大數(shù)據(jù)大數(shù)據(jù)分析大數(shù)據(jù)挖掘可視分析
隨著云計算、物聯(lián)網(wǎng)和互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,各種移動設(shè)備、傳感網(wǎng)絡(luò)、電商網(wǎng)站、社交網(wǎng)絡(luò)時時刻刻都在生成各種各樣類型的數(shù)據(jù),大數(shù)據(jù)時代已經(jīng)到來。大數(shù)據(jù)即數(shù)據(jù)體量巨大、數(shù)據(jù)類型多樣、數(shù)據(jù)的質(zhì)量低、處理速度迅速的數(shù)據(jù)。大數(shù)據(jù)分析的核心是從大量數(shù)據(jù)中獲取有價值的內(nèi)容,更準(zhǔn)確、更深層次的知識,而不是對數(shù)據(jù)簡單的統(tǒng)計和分析。
1大數(shù)據(jù)的定義與特征
大數(shù)據(jù)已經(jīng)進(jìn)入了我們每個人的生活,各行各業(yè)都在討論如何發(fā)展和運(yùn)用大數(shù)據(jù),那么什么是大數(shù)據(jù),大數(shù)據(jù)的特征是什么?大數(shù)據(jù)是指所涉及的數(shù)據(jù)規(guī)模巨大到無法通過目前主流的軟件工具在合理時間內(nèi)擷取、管理、處理、挖掘這些數(shù)據(jù),并整理成為企業(yè)經(jīng)營決策有用的信息。IBM提出大數(shù)據(jù)的4V特征,得到了業(yè)界的廣泛認(rèn)可。第一,數(shù)量(Volume),即數(shù)據(jù)巨大,從TB級別躍升到PB級別;第二,多樣性(Variety),即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包含來自互聯(lián)網(wǎng)的大量視頻、圖片、位置和日志等;第三,速度(Velocity),即處理速度快;第四,價值性(Veracity),即追求高質(zhì)量的數(shù)據(jù)。大數(shù)據(jù)具有4V特征,給人們帶來了新的機(jī)遇與挑戰(zhàn)。
2大數(shù)據(jù)挖掘與分析的意義
在大數(shù)據(jù)處理的過程中,數(shù)據(jù)分析是核心,因?yàn)榇髷?shù)據(jù)的價值全部在數(shù)據(jù)分析過程中產(chǎn)生?;ヂ?lián)網(wǎng)、硬件等技術(shù)迅猛發(fā)展,加深了人們對數(shù)據(jù)分析的需求。如果大數(shù)據(jù)是一種產(chǎn)業(yè),賺錢的重點(diǎn)在于如何提高數(shù)據(jù)的分析能力,通過分析發(fā)現(xiàn)數(shù)據(jù)的更多潛在的價值。在大數(shù)據(jù)時代,數(shù)據(jù)分析是數(shù)據(jù)價值發(fā)現(xiàn)的最重要環(huán)節(jié),也是決策的決定性元素。傳統(tǒng)的數(shù)據(jù)分析主要針對結(jié)構(gòu)化數(shù)據(jù),且已經(jīng)形成一整套非常有效果的分析體系。但是在大數(shù)據(jù)時代,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的快速增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的挑戰(zhàn)和沖擊。大數(shù)據(jù)分析于傳統(tǒng)數(shù)據(jù)分析有哪些區(qū)別呢?
3大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)
大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)實(shí)時處理、大數(shù)據(jù)可視化和應(yīng)用等。
3.1大數(shù)據(jù)采集技術(shù)大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層。智能感知層重點(diǎn)攻克針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術(shù)。基礎(chǔ)支撐層重點(diǎn)攻克提供大數(shù)據(jù)服務(wù)平臺所需的虛擬服務(wù)器、數(shù)據(jù)庫及物聯(lián)網(wǎng)絡(luò)資源等處理技術(shù)。
3.2大數(shù)據(jù)預(yù)處理大數(shù)據(jù)預(yù)處理是指在大數(shù)據(jù)挖掘前期對大數(shù)據(jù)進(jìn)行的一些提前處理。預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等幾種方法(表1)。大數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大,但并沒有增加數(shù)據(jù)價值,相反增多了數(shù)據(jù)噪音,有很多數(shù)據(jù)放在存儲器里就沒再用過。數(shù)據(jù)量的突然增加,各種媒體數(shù)據(jù)被任意碎片化。在應(yīng)對處理大數(shù)據(jù)的技術(shù)挑戰(zhàn)中,大數(shù)據(jù)的降噪與清洗技術(shù)值得高度重視。早期主要是結(jié)構(gòu)化數(shù)據(jù)的挖掘,可從數(shù)據(jù)庫中發(fā)現(xiàn)時序知識、關(guān)聯(lián)知識和分類知識等。在大數(shù)據(jù)時代,數(shù)據(jù)庫已經(jīng)不能滿足人們的需求了。大數(shù)據(jù)中數(shù)據(jù)類型繁多,我們進(jìn)入了一個非結(jié)構(gòu)化數(shù)據(jù)挖掘時代。因此,非結(jié)構(gòu)化數(shù)據(jù)模型是大數(shù)據(jù)預(yù)處理的重要研究方向。
3.3大數(shù)據(jù)管理大數(shù)據(jù)不斷地從復(fù)雜的應(yīng)用系統(tǒng)中產(chǎn)生,并且將會以更多、更復(fù)雜、更多樣化的方式持續(xù)增長。多樣化的物聯(lián)網(wǎng)傳感設(shè)備不斷地感知著海量的具有不同格式的數(shù)據(jù)。物聯(lián)網(wǎng)系統(tǒng)中大數(shù)據(jù)的復(fù)雜化和格式多樣化,決定了物聯(lián)網(wǎng)系統(tǒng)中針對大數(shù)據(jù)的應(yīng)用場景和服務(wù)類型的多樣化,從而要求物聯(lián)網(wǎng)大數(shù)據(jù)管理系統(tǒng)必須采用特定技術(shù)來處理各種格式的大數(shù)據(jù),而現(xiàn)在針對特定數(shù)據(jù)類型和業(yè)務(wù)的系統(tǒng)已經(jīng)無法滿足多樣化需求,因此,設(shè)計新的具有可擴(kuò)展性的系統(tǒng)架構(gòu)已經(jīng)成為大數(shù)據(jù)管理的研究熱點(diǎn)。
3.4大數(shù)據(jù)實(shí)時處理根據(jù)大數(shù)據(jù)速度快的特點(diǎn),時間越長,數(shù)據(jù)的價值也在不斷衰減,因此很多領(lǐng)域需要對數(shù)據(jù)進(jìn)行實(shí)時處理。大數(shù)據(jù)時代,伴隨著各種應(yīng)用場景的數(shù)據(jù)分析從離線轉(zhuǎn)向了在線,實(shí)時處理的需求不斷提高。大數(shù)據(jù)的實(shí)時處理面臨著一些新的挑戰(zhàn),主要體現(xiàn)在數(shù)據(jù)處理模式和算法的選擇及改進(jìn)。
3.5大數(shù)據(jù)可視分析大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動挖掘的同時,融合計算機(jī)的計算能力和人的認(rèn)知能力,利用人機(jī)交互技術(shù)和可視化界面,獲得大規(guī)模復(fù)雜數(shù)據(jù)集的分析能力。在大數(shù)據(jù)時代,大數(shù)據(jù)可視化是必須盡快解決的關(guān)鍵問題,為大數(shù)據(jù)服務(wù)的研究指明了方向。
4結(jié)語
傳統(tǒng)數(shù)據(jù)處理方法已經(jīng)不能滿足大數(shù)據(jù)挖掘與分析的需求。近年來,大數(shù)據(jù)挖掘與分析領(lǐng)域已經(jīng)出現(xiàn)了很多新技術(shù),并成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的堅實(shí)基礎(chǔ)。但是對大數(shù)據(jù)分析的價值尚缺少深入的理解,大數(shù)據(jù)分析中的很多重要技術(shù)還不成熟,還有很多其他關(guān)鍵技術(shù)難題需要去繼續(xù)研究。
參考文獻(xiàn)
[1]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué)博士學(xué)位論文,2013.
[2]程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(09):1889-1908.
[3]任磊,杜一,馬帥等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014,25(09):1909-1936.
[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.
關(guān)鍵詞:信息管理與信息系統(tǒng)專業(yè);實(shí)踐教學(xué)平臺;課程群
1引言
隨著信息技術(shù)不斷發(fā)展,物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)等技術(shù)已經(jīng)在各行各業(yè)中發(fā)揮越來越重要的作用,現(xiàn)代企業(yè)信息管理也利用信息系統(tǒng)轉(zhuǎn)變?yōu)槔孟嚓P(guān)信息技術(shù)進(jìn)行敏捷化、智能化、柔性化、一體化和社會化的商業(yè)模式創(chuàng)新[1-2]。信息管理與信息系統(tǒng)專業(yè)所培養(yǎng)的學(xué)生在知識儲備以及實(shí)踐能力方面有了新的要求,因此專業(yè)建設(shè)需要適時調(diào)整人才培養(yǎng)方式以及課程體系來主動迎合社會對于相關(guān)人才的需求[3]。
信息管理與信息專業(yè)作為一門由管理學(xué)基礎(chǔ)理論與計算機(jī)科學(xué)技術(shù)相結(jié)合的交叉學(xué)科,是一門強(qiáng)調(diào)實(shí)踐性與應(yīng)用性的學(xué)科[4]。信息管理與信息系統(tǒng)專業(yè)的實(shí)踐能力主要是運(yùn)用所學(xué)的專業(yè)課程知識,進(jìn)行信息的設(shè)計開發(fā),實(shí)現(xiàn)資源的充分利用,解決相關(guān)問題。因此,所培養(yǎng)的學(xué)生除了具有信息開發(fā)的能力,還需要具備數(shù)據(jù)分析能力。其中,數(shù)據(jù)分析能力主要是對信息系統(tǒng)數(shù)據(jù)加以挖掘和分析,獲取自身需要的信息[5],對學(xué)生未來從事與專業(yè)相關(guān)的工作有重要影響。
近年來,不少高校的信息管理與信息系統(tǒng)專業(yè)開始推動課程群建設(shè),明確專業(yè)定位,減少不同課程的內(nèi)容重復(fù),加強(qiáng)課程之間的聯(lián)系,從而有效地整合現(xiàn)有的教學(xué)資源[6-7]。由于專業(yè)的特點(diǎn),信息管理與信息系統(tǒng)專業(yè)對實(shí)踐教學(xué)平臺建設(shè)的要求更為迫切,高質(zhì)量、高效率和高水平的實(shí)踐教學(xué)平臺既對課程群建設(shè)提供有力支撐,也是提升學(xué)生實(shí)踐能力和專業(yè)素質(zhì)的重要手段[8-9]。
本文以中國地質(zhì)大學(xué)(武漢)經(jīng)濟(jì)管理學(xué)院信息管理與信息系統(tǒng)專業(yè)往屆畢業(yè)生以及相應(yīng)實(shí)習(xí)企業(yè)的調(diào)研,發(fā)現(xiàn)部分專業(yè)畢業(yè)生的實(shí)踐能力較弱,面對實(shí)際業(yè)務(wù)中出現(xiàn)的問題或者需求,往往是“紙上談兵”,而無法獨(dú)立自主解決。因此,本文依托信管專業(yè)課程群和實(shí)驗(yàn)軟件平臺建設(shè)項(xiàng)目,在整合專業(yè)核心課程,形成專業(yè)課程群的基礎(chǔ)上,進(jìn)行實(shí)踐教學(xué)平臺的建設(shè)。該平臺以培養(yǎng)學(xué)生的信息系統(tǒng)開發(fā)能力與數(shù)據(jù)分析能力為目標(biāo),整合了教學(xué)團(tuán)隊,軟件平臺和企業(yè)等資源,分別形成了課程教學(xué)軟件平臺、實(shí)踐課程資源平臺、專業(yè)實(shí)驗(yàn)室平臺、校外實(shí)習(xí)基地平臺四大實(shí)踐平臺,幫助我校信息管理與信息系統(tǒng)專業(yè)的學(xué)生提升專業(yè)技能和實(shí)踐能力。
2實(shí)踐教學(xué)平臺建設(shè)存在的問題
從中國地質(zhì)大學(xué)(武漢)經(jīng)濟(jì)管理學(xué)院的信息管理與信息系統(tǒng)專業(yè)課程群和實(shí)驗(yàn)軟件平臺建設(shè)項(xiàng)目出發(fā),項(xiàng)目組一方面調(diào)查了2011年-2015年的信息管理與信息系統(tǒng)專業(yè)畢業(yè)生的工作情況,了解學(xué)生的主要就業(yè)行業(yè)、崗位、能力需求等,同時對我院現(xiàn)有的信管專業(yè)實(shí)踐教學(xué)平臺建設(shè)情況進(jìn)行分析總結(jié);另一方面,項(xiàng)目組調(diào)研了國內(nèi)外高校的實(shí)踐教學(xué)平臺建設(shè)情況,了解其他高校的信息管理與信息系統(tǒng)專業(yè)實(shí)踐教學(xué)平臺建設(shè)的進(jìn)展與成效。通過上述兩個方面的系統(tǒng)調(diào)研,項(xiàng)目組充分意識到我院現(xiàn)有的信管專業(yè)實(shí)踐教學(xué)平臺迫切需要加強(qiáng)建設(shè),以增強(qiáng)學(xué)生的專業(yè)實(shí)踐能力。因此,我們比較分析了我校信息管理與信息系統(tǒng)專業(yè)實(shí)踐教學(xué)平臺建設(shè)主要存在以下幾方面的不足:
第一,師生對實(shí)踐教學(xué)的重要性認(rèn)識不足。由于專業(yè)的特點(diǎn),實(shí)踐教學(xué)是信息管理與信息系統(tǒng)專業(yè)本科人才培養(yǎng)的重要組成部分,但少數(shù)師生對實(shí)踐教學(xué)的重要性認(rèn)識不足,還存在著“重知識、輕實(shí)踐”的現(xiàn)象,他們認(rèn)為實(shí)踐教學(xué)環(huán)節(jié)僅僅是課堂理論教學(xué)中可有可無的輔助。所以,在教學(xué)工程中出現(xiàn)了以下現(xiàn)象:一是學(xué)生認(rèn)為實(shí)驗(yàn)課程相比課堂理論知識無關(guān)緊要,造成了實(shí)驗(yàn)課的缺勤較多;二是實(shí)驗(yàn)課在考核中占的比例相對較少,造成學(xué)生對實(shí)驗(yàn)教學(xué)的不夠重視;三是教師相對于理論課對實(shí)驗(yàn)課的要求不高,造成實(shí)驗(yàn)課課堂紀(jì)律渙散。這些現(xiàn)象導(dǎo)致實(shí)踐教學(xué)環(huán)節(jié)不能很好地支撐理論教學(xué),不僅造成理論知識掌握不牢,而且實(shí)踐操作能力也不能得到很好的鍛煉。
第二,軟件平臺對理論課程教學(xué)的支撐不夠。信息管理與信息系統(tǒng)專業(yè)的課程較多,而且要求的軟件也種類繁雜,而該專業(yè)所擁有的軟件不足,設(shè)置的實(shí)踐教學(xué)環(huán)節(jié)的教學(xué)定位未能與課程密切聯(lián)系而造成的軟件平臺對專業(yè)課程教學(xué)缺少強(qiáng)有力的支撐,而且實(shí)踐環(huán)節(jié)的課程設(shè)計未能與其專業(yè)理論課程完全對應(yīng),造成理論課程與實(shí)踐內(nèi)容結(jié)合度不夠。
第三,實(shí)踐教學(xué)方法和手段的新穎性不強(qiáng)。實(shí)踐教學(xué)環(huán)節(jié)的課程功能定位不夠清晰,層次不高,硬件設(shè)施相對落后,難以滿足學(xué)生自主、多元、個性化的學(xué)習(xí)需求,在一定程度上限制了學(xué)生專業(yè)素質(zhì)的提高。同時,有很多實(shí)踐教學(xué)的方法和手段還是原來的方式,未能隨著社會的發(fā)展進(jìn)行更新。例如:關(guān)于數(shù)據(jù)挖掘的實(shí)踐教學(xué)還是學(xué)生在學(xué)習(xí)各種數(shù)據(jù)挖掘及分析方法的基礎(chǔ)上,按照老師的要求和給定的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘等實(shí)踐的練習(xí)。實(shí)踐內(nèi)容不夠新穎,學(xué)生學(xué)習(xí)積極性不高,造成學(xué)生實(shí)踐操作能力不強(qiáng)。隨著物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)等信息技術(shù)的不斷發(fā)展,社會對于信息管理與信息系統(tǒng)專業(yè)的人才要求越來越高,不夠前沿的實(shí)踐教學(xué)方法和手段造成了所培養(yǎng)的人才的實(shí)踐能力不能滿足社會的發(fā)展需求。
第四,理論教學(xué)與企業(yè)實(shí)踐融合度不高。根據(jù)畢業(yè)生的反饋調(diào)查反映,信息管理與信息系統(tǒng)專業(yè)60%以上的畢業(yè)生從事信息系統(tǒng)設(shè)計開發(fā)和維護(hù)、系統(tǒng)實(shí)施、市場開拓、產(chǎn)品研發(fā)等崗位,這些工作均需要學(xué)生掌握最新的IT技術(shù)應(yīng)用和管理知識。同時,學(xué)生普遍反映數(shù)據(jù)處理能力和系統(tǒng)實(shí)現(xiàn)能力需要加強(qiáng)。因此,迫切需要通過“產(chǎn)教協(xié)同”的實(shí)習(xí)基地的建設(shè)將基礎(chǔ)教學(xué)與企業(yè)實(shí)踐相融合,給學(xué)生提供更多的實(shí)踐技能培訓(xùn)和實(shí)習(xí)機(jī)會,提升他們的實(shí)踐能力。
3實(shí)踐教學(xué)平臺的建設(shè)體系
為了優(yōu)化教學(xué)內(nèi)容,理順課程之間的內(nèi)容與聯(lián)系,我們將信息管理與信息系統(tǒng)專業(yè)的核心課程進(jìn)行銜接設(shè)計和集成,進(jìn)一步劃分為相互支撐的三個課程群:信息系統(tǒng)設(shè)計實(shí)現(xiàn)、數(shù)據(jù)分析與優(yōu)化決策與電子商務(wù)運(yùn)營。“信息系統(tǒng)設(shè)計實(shí)現(xiàn)”核心課程群定位于信息系統(tǒng)設(shè)計理論和方法等基礎(chǔ)知識的培養(yǎng),包括《管理信息系統(tǒng)》、《信息系統(tǒng)分析與設(shè)計》、《信息系統(tǒng)項(xiàng)目管理》、《ERP原理與應(yīng)用》四門專業(yè)課以及《專業(yè)教學(xué)實(shí)習(xí)》;“電子商務(wù)運(yùn)營”核心課程群定位于管理決策在商業(yè)管理應(yīng)用方面應(yīng)用實(shí)踐能力的培養(yǎng),包括《電子商務(wù)》、《信息系統(tǒng)戰(zhàn)略與管理》、《企業(yè)電子商務(wù)管理》和《供應(yīng)鏈與物流管理》四門專業(yè)課;“數(shù)據(jù)分析與決策”核心課程群定位于數(shù)據(jù)驅(qū)動的管理決策方面應(yīng)用實(shí)踐能力的培養(yǎng),包括《決策支持系統(tǒng)》、《數(shù)據(jù)挖掘》、《商務(wù)智能》、《R語言與數(shù)據(jù)分析》和《python數(shù)據(jù)分析與機(jī)器學(xué)習(xí)》五門專業(yè)課以及《數(shù)據(jù)分析實(shí)訓(xùn)》。
通過對已有的信管專業(yè)實(shí)踐教學(xué)平臺建設(shè)中存在的問題進(jìn)行分析和總結(jié),依托信息管理與信息系統(tǒng)專業(yè)核心課程群建設(shè),我們構(gòu)建了“課程主導(dǎo)、軟件協(xié)同、配套完善、實(shí)戰(zhàn)訓(xùn)練、需求驅(qū)動、綜合應(yīng)用”的實(shí)踐教學(xué)平臺,主要包括三部分:“課程主導(dǎo)、軟件協(xié)同”的課程教學(xué)軟件平臺,“配套完善”的實(shí)踐課程資源平臺,“實(shí)戰(zhàn)訓(xùn)練”的專業(yè)實(shí)驗(yàn)室平臺,“需求驅(qū)動、綜合應(yīng)用”的校外實(shí)習(xí)基地平臺。
3.1課程教學(xué)軟件平臺建設(shè)
課程教學(xué)軟件平臺建設(shè)是在課程群建設(shè)和已有軟件的基礎(chǔ)上,完善課程教學(xué)軟件建設(shè),形成滿足課程群教學(xué)的軟件平臺。首先要保證信管專業(yè)教學(xué)各個課程群的軟件配備。其次是為教學(xué)提供合理配套的最新軟件工具,避免使用過時的教學(xué)軟件,使用最新最為實(shí)用的軟件,培養(yǎng)學(xué)生與社會接軌,真正成為社會所需的應(yīng)用型人才。
因此,在信息管理與信息系統(tǒng)專業(yè)的培養(yǎng)方案里面確定了三項(xiàng)實(shí)訓(xùn)科目:《建模與系統(tǒng)應(yīng)用實(shí)訓(xùn)》《信息系統(tǒng)設(shè)計與開發(fā)實(shí)訓(xùn)》和《大數(shù)據(jù)分析與處理實(shí)訓(xùn)》。通過這三項(xiàng)實(shí)訓(xùn)內(nèi)容,并與課程內(nèi)容有機(jī)結(jié)合起來,學(xué)生可以將在課程中學(xué)到的知識在實(shí)訓(xùn)中檢驗(yàn),看自身是否已經(jīng)掌握,并且在實(shí)訓(xùn)中補(bǔ)充自己課程知識中忽略的知識點(diǎn)。通過專業(yè)課程對應(yīng)的實(shí)訓(xùn),來提升學(xué)生系統(tǒng)建立、數(shù)據(jù)分析等方面的能力,在實(shí)訓(xùn)中開拓學(xué)生的視野,同時加強(qiáng)學(xué)生的專業(yè)理論知識的學(xué)習(xí)。
3.2實(shí)踐課程資源平臺建設(shè)
信息管理與信息系統(tǒng)專業(yè)具有交叉學(xué)科的特點(diǎn),要求所培養(yǎng)的學(xué)生具備較強(qiáng)的實(shí)踐和動手能力。在構(gòu)建課程教學(xué)軟件平臺基礎(chǔ)上,我們完善實(shí)踐課程與資源建設(shè),發(fā)揮軟件實(shí)驗(yàn)室的作用,更好支撐對學(xué)生實(shí)踐動手能力的培養(yǎng)。
首先,我們完成了“信息系統(tǒng)設(shè)計實(shí)現(xiàn)”課程群的課程案例集“決策支持系統(tǒng)案例集”和“電子商務(wù)運(yùn)營”課程群的課程案例庫“社交商務(wù)案例集”,以及“數(shù)據(jù)分析與決策”課程群的大數(shù)據(jù)分析數(shù)據(jù)集“大數(shù)據(jù)分析數(shù)據(jù)集”。這些案例集在教學(xué)過程中不斷應(yīng)用,根據(jù)學(xué)生的反饋進(jìn)行修改完善。
其次,我們完成了《數(shù)據(jù)清洗與可視化實(shí)驗(yàn)手冊》、《GAMS軟件實(shí)踐應(yīng)用手冊》等實(shí)踐教學(xué)指導(dǎo)書。在進(jìn)行實(shí)踐教學(xué)過程中,我們可以更好地進(jìn)行實(shí)踐教學(xué),提升實(shí)踐教學(xué)的效果。并在此基礎(chǔ)上,我們不斷完善教學(xué)指導(dǎo)體系。
3.3專業(yè)實(shí)驗(yàn)室平臺建設(shè)
專業(yè)實(shí)驗(yàn)室平臺主要是為信管專業(yè)學(xué)生構(gòu)建科研實(shí)訓(xùn)平臺與實(shí)戰(zhàn)環(huán)境,這主要是彌補(bǔ)傳統(tǒng)的專業(yè)實(shí)驗(yàn)課內(nèi)容設(shè)計較為單一、功能定位不夠清晰且較為脫離企業(yè)實(shí)際需求的不足[10]。
因此,為了培養(yǎng)信息管理與信息系統(tǒng)專業(yè)的學(xué)生形成數(shù)據(jù)分析思維,我們指導(dǎo)學(xué)生如何從數(shù)據(jù)采集、清洗到數(shù)據(jù)挖掘多個方面來鍛煉,從而讓他們可以具備足夠的能力滿足大數(shù)據(jù)環(huán)境下知識管理與智能決策的需要。首先,我們建設(shè)了大數(shù)據(jù)實(shí)踐教學(xué)軟件實(shí)驗(yàn)室,構(gòu)建大數(shù)據(jù)實(shí)訓(xùn)科研平臺,從企業(yè)引進(jìn)先進(jìn)的軟硬件平臺,以及相關(guān)數(shù)據(jù)和項(xiàng)目案例,為學(xué)生搭建起接近企業(yè)真實(shí)應(yīng)用的大數(shù)據(jù)實(shí)戰(zhàn)環(huán)境,讓學(xué)生有機(jī)會理解企業(yè)業(yè)務(wù)需求和數(shù)據(jù)分析,通過實(shí)戰(zhàn)訓(xùn)練,解決實(shí)際問題,切實(shí)服務(wù)于教學(xué)與科研。其次,我們結(jié)合實(shí)踐課程資源,指導(dǎo)學(xué)生通過自主設(shè)計、團(tuán)隊合作,完成相關(guān)的實(shí)驗(yàn)項(xiàng)目。最后,信息管理與信息系統(tǒng)專業(yè)教師與學(xué)院的實(shí)驗(yàn)教師一起組建實(shí)驗(yàn)指導(dǎo)教師隊伍,每門課都有相應(yīng)的實(shí)驗(yàn)指導(dǎo)老師負(fù)責(zé)進(jìn)行上課,同時借助企業(yè)的力量來培訓(xùn)實(shí)驗(yàn)指導(dǎo)老師,并以客座教授來引入企業(yè)導(dǎo)師加強(qiáng)實(shí)驗(yàn)指導(dǎo)的師資力量。
3.4校外實(shí)習(xí)基地平臺建設(shè)
校外實(shí)習(xí)基地是企業(yè)和高校溝通的橋梁。通過合作,企業(yè)可以共享高校的人才和相關(guān)的研究設(shè)備,高校也可以參與到企業(yè)的技術(shù)研發(fā)工作中,并提升學(xué)校的科研能力和學(xué)生的就業(yè)能力。通過加強(qiáng)校企合作,樹立以就業(yè)為導(dǎo)向的教學(xué)理念,能夠讓學(xué)生盡快適應(yīng)社會發(fā)展對專業(yè)人才的能力要求。
我校信息管理與信息系統(tǒng)專業(yè)與上海漢得信息技術(shù)有限公司、武漢鵬程信息技術(shù)有限公司和九派(武漢)全媒體股份有限公司等企業(yè)合作建設(shè)了實(shí)習(xí)基地,在校學(xué)生參與企業(yè)的實(shí)際項(xiàng)目中,不僅了解了企業(yè)的環(huán)境和項(xiàng)目情況,而且在參與項(xiàng)目的工程中熟悉了項(xiàng)目規(guī)劃、設(shè)計到研發(fā)實(shí)施的整個流程。學(xué)生通過在實(shí)習(xí)訓(xùn)練基地實(shí)習(xí),學(xué)習(xí)了實(shí)際工作中對信息技術(shù)的要求,并通過在校學(xué)習(xí)彌補(bǔ)與實(shí)際工作中的差距,不斷提升自己的工作能力,成為一個專業(yè)知識與專業(yè)技能“雙過硬”的人才。同時,在學(xué)生的實(shí)訓(xùn)過程中,信息管理與信息系統(tǒng)專業(yè)教師也加強(qiáng)了與企業(yè)相關(guān)人員的交流與溝通,共同探討新的教學(xué)方式,改進(jìn)教學(xué)內(nèi)容和方式,提升教學(xué)水平,為企業(yè)的發(fā)展提供更多的實(shí)踐性人才。
4所取得的成效
我們形成了信息管理與信息系統(tǒng)專業(yè)開放、共享、融合的實(shí)踐教學(xué)平臺,滿足了專業(yè)實(shí)訓(xùn)的需要。該平臺良好地支撐了信息管理與信息系統(tǒng)專業(yè)的實(shí)踐教學(xué),有力地促進(jìn)了該專業(yè)學(xué)生知識、能力、思維和素質(zhì)的全面協(xié)調(diào)發(fā)展,在四個方面體現(xiàn)了學(xué)生實(shí)踐動手能力的提升:
(1)在信息管理與信息系統(tǒng)專業(yè)學(xué)生的畢業(yè)設(shè)計中,學(xué)生對于信息系統(tǒng)實(shí)現(xiàn)完整程度有了明顯的進(jìn)步,數(shù)據(jù)分析的能力也有顯著提升。在畢業(yè)設(shè)計中,信息管理與信息系統(tǒng)專業(yè)更多學(xué)生以數(shù)據(jù)分析作為論文選題,論文質(zhì)量很高,多篇論文獲得校級、湖北省優(yōu)秀論文。
(2)信息管理與信息系統(tǒng)專業(yè)學(xué)生積極申請各類別的大學(xué)生科研計劃、社會實(shí)踐活動,積極參加國家級、省級全國數(shù)學(xué)建模競賽、挑戰(zhàn)杯等各類科技競賽活動,獲得了豐碩成果。例如在數(shù)學(xué)模型競賽和數(shù)據(jù)分析競賽中學(xué)生參與度和獲獎方面取得了極大的進(jìn)步:2018年僅有3位信息管理與信息系統(tǒng)專業(yè)學(xué)生在這兩個方面獲得省部級獎項(xiàng),在2019年有20余位信息管理與信息系統(tǒng)專業(yè)學(xué)生獲得了省部級以上的獎項(xiàng),其中3項(xiàng)國際級獲獎。
(3)信息管理與信息系統(tǒng)專業(yè)學(xué)生實(shí)踐能力的提升,使得他們在實(shí)習(xí)單位更好地走進(jìn)企業(yè)內(nèi)部,能夠運(yùn)用自己所學(xué)的知識去處理實(shí)際工作中遇到的問題,將理論與實(shí)踐結(jié)合,進(jìn)而進(jìn)一步增強(qiáng)自身實(shí)踐能力,提升專業(yè)技能,更好地完成實(shí)習(xí)中的任務(wù)。因此,信息管理與信息系統(tǒng)專業(yè)學(xué)生在就業(yè)方面無論是就業(yè)的質(zhì)量和數(shù)量方面都有了很大的提高。
(4)信息管理與信息系統(tǒng)專業(yè)學(xué)生積極參與“學(xué)術(shù)領(lǐng)航”活動,在學(xué)習(xí)專業(yè)知識的同時,鍛煉科研能力,從理論與科研結(jié)合方面來更好地提升了實(shí)踐能力。因此,信息管理與信息系統(tǒng)專業(yè)學(xué)生一直保持良好的保研情況,基本上報送到985高校繼續(xù)深造。
5總結(jié)
關(guān)鍵詞: 智能數(shù)據(jù)平臺 產(chǎn)學(xué)研 整合思路
一、社會治理智能數(shù)據(jù)平臺的構(gòu)建思路
隨著信息化時代的到來,人們對大數(shù)據(jù)的研究開始日漸加深。研究者開始越來越多地強(qiáng)調(diào)對大數(shù)據(jù)的深層次挖掘,其中這種挖掘使得研究者能有越來越多探討和發(fā)現(xiàn)原來所不存在的事物之間的相關(guān)關(guān)系??梢哉f,大數(shù)據(jù)的出現(xiàn),是“長尾理論”和“黑天鵝”理論的雙重驗(yàn)證――原本被統(tǒng)計學(xué)剔除在外的小概率事件納入其中。但是,值得深思的是,目前對大數(shù)據(jù)的研究仍然過多地集中在理論層面,缺乏實(shí)踐性的探討,更缺乏深層次的具有統(tǒng)籌規(guī)劃方案能力的全方位的探測。因此,在高校研究和社會治理層面,這種非計算機(jī)科學(xué)的社會應(yīng)用,如果能夠行之有效地將大數(shù)據(jù)概念引入實(shí)踐化,就成了擺在社會科學(xué)研究者眼前的重中之重。特別是構(gòu)建一套完整智能數(shù)據(jù)平臺,幫助社會科學(xué)研究者在數(shù)據(jù)收集、數(shù)據(jù)分析和同用戶反饋交流中起到平臺作用,進(jìn)而實(shí)現(xiàn)生產(chǎn)、教學(xué)和科研三位一體的布局戰(zhàn)略。
智能數(shù)據(jù)平臺所實(shí)現(xiàn)的這三個功能既是獨(dú)立的又是相輔相成的。說這三者是獨(dú)立的,原因在于這三個功能個各司其職地完成了相對較為獨(dú)立的任務(wù)。其中,智能數(shù)據(jù)平臺的生產(chǎn)功能為用戶滿足商業(yè)、政府、NGO等社會組織數(shù)據(jù)收集、數(shù)據(jù)分析及滿足市民在各種生活情境中對信息的精確獲取功能。智能數(shù)據(jù)平臺的教學(xué)功能為以學(xué)生為主體,深入細(xì)致地挖掘智能數(shù)據(jù)平臺中生活情境中可能存在的需求。而科研功能則在通過完成軟件的生產(chǎn)和教學(xué)功能的同時,進(jìn)一步拓展了軟件的價值。其中,科研的方向可以有二:第一,科研人員可以根據(jù)特定情境下智能數(shù)據(jù)平臺收集到的數(shù)據(jù)進(jìn)行深入加工和挖掘,在獲得深層次變量關(guān)系的同時,完成滿足社會需求的科研論文和項(xiàng)目。此外,圍繞智能數(shù)據(jù)平臺的功能拓展,也是一項(xiàng)重要的科研功能。三者雖然擁有各自的功能,但是在另外一個層面三者之間也存在不可分離的關(guān)聯(lián)。其中生產(chǎn)功能以需求為導(dǎo)向?yàn)橹悄芷脚_的建設(shè)提出了方向,這種方向性的指引保證教學(xué)過程中能以社會情景、社會組織和社會人的需求為方向進(jìn)行知識傳授。這種以生產(chǎn)為導(dǎo)向的知識傳授正是現(xiàn)代應(yīng)用型技術(shù)人才培養(yǎng)的需要。最后,在教學(xué)中,由于學(xué)生教師以智能數(shù)據(jù)平臺為工具的社會需求解決方案設(shè)計,能夠進(jìn)一步保證教師的科研有明確的方向性和應(yīng)用性。這種應(yīng)用型將會進(jìn)一步影響智能數(shù)據(jù)分析平臺的生產(chǎn)和教師的教學(xué)??梢哉f智能平臺的構(gòu)建是能夠真正地從滿足社會需求方面出發(fā)培養(yǎng)應(yīng)用應(yīng)用技能性人才,提高教師科研能力較好的解決方案。
二、圍繞智能數(shù)據(jù)平臺建設(shè)的產(chǎn)學(xué)研示例探討
圍繞智能數(shù)據(jù)平臺出發(fā)制訂產(chǎn)學(xué)研三位一體的發(fā)展方案不僅能夠有效地拓展應(yīng)用型技術(shù)人才培養(yǎng)的思路,而且能夠提高實(shí)際教學(xué)質(zhì)量,使得教師從原本簡單的知識講解轉(zhuǎn)換到和學(xué)生一起尋找具體社會問題的解決方案。例如,在傳統(tǒng)的社會工作類專業(yè)中,一般都會部署發(fā)展社會學(xué)、西方社會學(xué)、社會組織管理、社會調(diào)查研究方法和數(shù)據(jù)分析技術(shù)這5門課程。按照傳統(tǒng)意義的劃分來看,這5門課程分別對應(yīng)了社會理論和研究方法的課程。從傳統(tǒng)課程的講解體系上來看,這5門課程都是自成一體的,依照教學(xué)大綱對應(yīng)著不同的細(xì)致知識點(diǎn)。但是從構(gòu)建智能數(shù)據(jù)平臺建設(shè)為核心的產(chǎn)學(xué)研研究中,這5門課程便可以有效整合成為一個整體。特別是在以社會情景需求為專題突破口的前提下,這5門課程更是成為統(tǒng)一專題服務(wù)的工具,它們以不同的視角指向了同一目標(biāo)。例如,以“如何了解市民的心理健康程度,保障社會安全”的社會需求為例,教師可以在西方社會學(xué)和發(fā)展社會學(xué)這兩門課程中向?qū)W生引出該主題,同時要求運(yùn)用這兩門課程的知識,明確能夠解決需求的社會理論。學(xué)生在理論的確定過程中,通過與教師和其他同學(xué)的討論明確了理論的本質(zhì)和解決問題的思路,此后將依據(jù)理論界定出關(guān)鍵概念和研究主題與研究假設(shè)。在社會組織管理課程中,學(xué)生將依據(jù)研究主題和假設(shè),明確社會需求可能解決的突破點(diǎn)――選擇和那些具體的社會組織進(jìn)行合作與探討,從數(shù)據(jù)收集和分析的角度科學(xué)化地提出一整套解決方案。在未來的社會調(diào)查研究方法和數(shù)據(jù)分析技術(shù)中,研究者將可以通過已確定研究主題、假設(shè)和社會組織的具體情況進(jìn)行概念操作化和問卷設(shè)計,并將問卷、測量或其他形式的數(shù)據(jù)收集方式置入智能數(shù)據(jù)平臺中。在數(shù)據(jù)分析技術(shù)課程中,學(xué)生將按照已經(jīng)設(shè)定好的研究方案運(yùn)用智能數(shù)據(jù)分析平臺對分析數(shù)據(jù)并輸出報告。最終,這些報告和數(shù)據(jù)結(jié)果將有針對性地提交給對應(yīng)的社會管理組織,在實(shí)踐中評估其對社會需求的解決程度。
參考文獻(xiàn):
[1]陳陽,張梅.大數(shù)據(jù)基礎(chǔ)上抽樣調(diào)查在社會治理中的應(yīng)用探討[J].理論界,2015,11:151-155.
[2]陳陽,魏玉東.大數(shù)據(jù)影響下的政府社會經(jīng)濟(jì)調(diào)查動向探尋[J].遼寧經(jīng)濟(jì),2015,01:76-77.
關(guān)鍵詞:大數(shù)據(jù) 教學(xué) 工科專業(yè) 數(shù)據(jù)挖掘
中圖分類號:G64 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2016)02(a)-0120-04
Abstract:With the advancement of data collection technologies,big data becomes a significant resource in various fields of engineering.It is generally applied both in industrial world and scientific research.To engineering majors,teaching of big data theory and technology should be emphasized either for educating future research staffs or for providing technicians for industry. In this paper,the necessities and key points of teaching big data skill in colleges were discussed after the introduction of the background of big data.It is suggested that mathematic skill of big data should be taught in combination with the corresponding major,and programming skill related to big data should be emphasized.
Key word:Big data;Teaching;Engineering majors;Data mining
信息技術(shù)的快速發(fā)展為數(shù)據(jù)采集提供了越來越多的方法和手段。隨著大量實(shí)時數(shù)據(jù)的連續(xù)積累,傳統(tǒng)的數(shù)據(jù)存儲和挖掘方法逐漸不能適應(yīng)現(xiàn)實(shí)需求,大數(shù)據(jù)的概念隨之被提出來。大數(shù)據(jù)一般指在因數(shù)據(jù)量巨而無法在可容忍的時間內(nèi)用傳統(tǒng)的軟件工具采集、清洗、管理和處理的數(shù)據(jù)集[1]。具體來講,大數(shù)據(jù)的大,首先,體現(xiàn)在容量上,大數(shù)據(jù)不是樣本,而是事件發(fā)生時積累的全部數(shù)據(jù)。其次,體現(xiàn)在速度上,大數(shù)據(jù)一般都意味著實(shí)施連續(xù)的數(shù)據(jù)采集。最后,大數(shù)據(jù)體現(xiàn)在多樣性上,包括文本,圖像,視頻聲音等多種類型。
大量連續(xù)的數(shù)據(jù)集,為更全面深入地認(rèn)識各種問題提供了豐富的素材,也對原有的數(shù)據(jù)處理和挖掘方法提出了挑戰(zhàn)。大數(shù)據(jù)的機(jī)遇和挑戰(zhàn)在互聯(lián)網(wǎng)等相關(guān)領(lǐng)域表現(xiàn)的最為突出,尤其是新興的移動互聯(lián)網(wǎng)領(lǐng)域。無論是網(wǎng)絡(luò)訪問數(shù)據(jù),還是諸如基于移動互聯(lián)網(wǎng)的叫車、導(dǎo)航和餐飲服務(wù),其本身就是大數(shù)據(jù)來源,為企業(yè)和研究人員研究消費(fèi)者行為提供了重要資料。在非信息技術(shù)領(lǐng)域,比如公共交通行業(yè),大數(shù)據(jù)也逐漸成為政府決策和交通模型研究的重要資源。典型的如北京地鐵交通智能卡數(shù)據(jù),日刷卡量達(dá)600萬人,長年的數(shù)據(jù)積累可以被用來研究交通行為、交通政策乃至城市結(jié)構(gòu)的演變。因此,目前在就業(yè)市場上基于大數(shù)據(jù)的分析技能受到越來越多的用人單位的重視,相關(guān)科研機(jī)構(gòu)也越來越需要具備大數(shù)據(jù)相關(guān)分析方法或編程技能的本科生或研究生。
然而目前的課程大綱中,對于大數(shù)據(jù)相關(guān)的理論與方法并沒有給予應(yīng)有的重視。筆者調(diào)研了海淀區(qū)大部分高校,就本科教學(xué)而言,有關(guān)數(shù)據(jù)統(tǒng)計分析與挖掘的教學(xué),主要放在大學(xué)三年級的數(shù)據(jù)基礎(chǔ)模塊,代表性課程為概率論,開課教師多為理學(xué)院老師,帶有通識性教育的特點(diǎn)。就研究生階段而言,大數(shù)據(jù)分析所涉及的基礎(chǔ)理論主要通過數(shù)理統(tǒng)計和數(shù)值分析相關(guān)課程來講授。這些教學(xué)模塊并沒有對大數(shù)據(jù)及其相關(guān)的理論分析與應(yīng)用技術(shù)做充分的強(qiáng)調(diào)。對此,該文在分析大數(shù)據(jù)教學(xué)必要性的基礎(chǔ)上,提出大數(shù)據(jù)教學(xué)的要點(diǎn),為工科專業(yè)培養(yǎng)具備大數(shù)據(jù)思維和技術(shù)處理能力的人才提供參考。
1 工科專業(yè)大數(shù)據(jù)教學(xué)的必要性
隨著信息技術(shù)在各個行業(yè)的應(yīng)用,海量數(shù)據(jù)逐漸被采集和積累,面向大數(shù)據(jù)的統(tǒng)計分析技能需求越來越大。以培養(yǎng)人才為主要目標(biāo)的高校需要跟上產(chǎn)業(yè)的發(fā)展,因而有必要結(jié)合各個專業(yè)的實(shí)際需求開設(shè)大數(shù)據(jù)相關(guān)課程。
1.1 大數(shù)據(jù)已經(jīng)成為各個行業(yè)的重要資源
隨著信息化、自動化程度的提高,各個行業(yè)都開始積累大量連續(xù)且多種形式的數(shù)據(jù)。數(shù)據(jù)的量級是前所未有的。以交通行業(yè)為例,傳統(tǒng)的數(shù)據(jù)采集方法往往采用抽樣調(diào)查的方法,利用問卷獲取居民的出行信息。不僅成本較高,獲取的數(shù)據(jù)量也有限,準(zhǔn)確性難以保證。隨著信息技術(shù)的進(jìn)步,尤其是GPS導(dǎo)航的普及,以及公共交通系統(tǒng)自動售檢票設(shè)備的應(yīng)用,為交通行業(yè)提供了大量實(shí)時連續(xù)的數(shù)據(jù)。再加上監(jiān)控系統(tǒng)、圖像識別等設(shè)備與技術(shù)的應(yīng)用,可以說目前交通行業(yè)已進(jìn)入大數(shù)據(jù)時代。以北京為例,目前公共交通領(lǐng)域都采用自動售檢票系統(tǒng),日地鐵刷卡量達(dá)600萬人,路面公交刷卡量達(dá)1 000萬人。公交系統(tǒng)內(nèi)部監(jiān)控視頻系統(tǒng)每日產(chǎn)生萬T視頻數(shù)據(jù)。同時路面交通6.7萬輛出租車GPS數(shù)據(jù),以及地圖搜索引擎積累的導(dǎo)航數(shù)據(jù),共同構(gòu)成了北京城市交通的大數(shù)據(jù)。
這些數(shù)據(jù)占用了大量的存儲空間,也為我們?nèi)娴胤治鰡栴}提供了寶貴的資源。怎么從如此大規(guī)模的數(shù)據(jù)中挖掘有用信息,引起了行業(yè)人員越來越大的重視。這點(diǎn)從谷歌大數(shù)據(jù)搜索趨勢可以看出。如圖1所示,從2011年開始,大數(shù)據(jù)搜索量開始飛速增長。這說明大數(shù)據(jù)已經(jīng)成為信息化社會數(shù)據(jù)統(tǒng)計和數(shù)據(jù)挖掘的新形式。作為培養(yǎng)創(chuàng)新型人才的基地,高校在這種社會潮流中不能落后。這點(diǎn)不僅要體現(xiàn)在科研上,更要體現(xiàn)在教學(xué)上。因此,開設(shè)大數(shù)據(jù)教學(xué)是大勢所趨。
1.2 企業(yè)需要具備大數(shù)據(jù)處理能力的技術(shù)人才
企業(yè)是大數(shù)據(jù)的擁有者。海量的數(shù)據(jù)為各類企業(yè)監(jiān)測設(shè)備運(yùn)行狀態(tài)、識別目標(biāo)客戶、提升效率和增加利潤提供了潛在途徑[2]。多項(xiàng)研究表明,深入挖掘企業(yè)積累的大數(shù)據(jù),可以優(yōu)化企業(yè)的倉儲、供應(yīng)鏈管理等環(huán)節(jié),降低成本,提高效益,提升顧客的滿意程度[3]。
一旦大數(shù)據(jù)帶來的實(shí)際效益為企業(yè)所充分認(rèn)識,以追求利益最大化為存在目的的企業(yè)就會成為大數(shù)據(jù)挖掘的第一推動力。隨著近幾年大數(shù)據(jù)技術(shù)在經(jīng)濟(jì)效益轉(zhuǎn)化上取得的成果越來越大,更多的企業(yè)開始著手挖掘大數(shù)據(jù),尤其一些互聯(lián)網(wǎng)巨頭,都紛紛成立了大數(shù)據(jù)實(shí)驗(yàn)室。隨著企業(yè)大數(shù)據(jù)相關(guān)業(yè)務(wù)的拓展,其對大數(shù)據(jù)方面的人才需求就越來越大。根據(jù)華盛頓郵報[4],McKinsey環(huán)球研究所估計截止2018年僅美國經(jīng)濟(jì)和商業(yè)領(lǐng)域的大數(shù)據(jù)高級分析人才的市場需求就達(dá)4.4~4.9萬,其他大數(shù)據(jù)分析人才需求量達(dá)400萬。
如此大規(guī)模的市場需求,如果高校不能及時調(diào)整培養(yǎng)方案,增加大數(shù)據(jù)相關(guān)的教學(xué)模塊,就不能滿足社會對這方面人才的需求。所以,從人才市場需求的角度,國內(nèi)大學(xué)有必要盡快開展大數(shù)據(jù)教學(xué)。
1.3 科學(xué)研究需要大數(shù)據(jù)人才
大數(shù)據(jù)挖掘在各個領(lǐng)域的需求,最終會反饋到科研領(lǐng)域。這點(diǎn)從近十年SCI論文檢索數(shù)據(jù)庫Web of Science收錄的大數(shù)據(jù)主題相關(guān)論文數(shù)量可以看出來。筆者檢索了近些年SCI數(shù)據(jù)庫大數(shù)據(jù)主題相關(guān)論文的年收錄量,如圖2所示,以大數(shù)據(jù)為主題的論文在2006年的年收入量是1 000篇左右,而到2014年,年收入量已突破4 500篇。SCI論文數(shù)據(jù)庫代表著高水平的科研成果。以大數(shù)據(jù)為主題的高水平科研成果從2011年開始飛速增長,這點(diǎn)與圖1谷歌搜索服務(wù)提供的大數(shù)據(jù)相關(guān)熱度基本一致。說明全社會對大數(shù)據(jù)的關(guān)注,很快反應(yīng)到了科學(xué)研究領(lǐng)域。
與科研領(lǐng)域大數(shù)據(jù)相關(guān)研究需求與研究成果快速增加的情形相悖的是,國內(nèi)高校在本科和研究生培養(yǎng)過程中對大數(shù)據(jù)挖掘理論與方法的教學(xué)沒有給予足夠重視,缺乏相關(guān)的教學(xué)模塊。以交通運(yùn)輸專業(yè)為例,新入學(xué)的碩士生或博士生,在大數(shù)據(jù)處理方面既缺乏課程培訓(xùn),也缺乏研究經(jīng)驗(yàn),需要團(tuán)隊從零開始傳授交通大數(shù)據(jù)挖掘相關(guān)方法。這種現(xiàn)象在多個專業(yè)都是普遍存在的。因此,從培養(yǎng)科研后備人才的角度,高校有必要開設(shè)大數(shù)據(jù)相關(guān)課程。
2 大數(shù)據(jù)教學(xué)的要點(diǎn)
充分認(rèn)識了大數(shù)據(jù)教學(xué)在工程專業(yè)人才配上上的必要性,下一步就是如何開展好大數(shù)據(jù)教學(xué),使學(xué)生通過大數(shù)據(jù)課程的學(xué)習(xí),掌握大數(shù)據(jù)挖掘相關(guān)的理論與方法,滿足就業(yè)市場與繼續(xù)深造的需求。對此作者走訪旁聽了部分英國大學(xué)大數(shù)據(jù)相關(guān)的課程,也調(diào)研了國內(nèi)部分高校開展的數(shù)據(jù)挖掘方面的課程,總結(jié)了大數(shù)據(jù)教學(xué)的兩個要點(diǎn),以期為大數(shù)據(jù)教學(xué)的推進(jìn)提供參考。
2.1 數(shù)學(xué)基礎(chǔ)課與專業(yè)案例相結(jié)合
大數(shù)據(jù)處理對機(jī)器學(xué)習(xí)相關(guān)的數(shù)學(xué)方法,特別是統(tǒng)計分析理論要求較高。目前大多數(shù)高校都在本科及研究生培養(yǎng)的過程中開設(shè)了概率論及數(shù)理統(tǒng)計相關(guān)課程,然而這些課程一般由理學(xué)院數(shù)學(xué)系的相關(guān)老師講授,具有工科專業(yè)通識教育的特點(diǎn)。這會造成一些突出問題。最主要的是這種模式會弱化案例教學(xué)的作用,過于強(qiáng)調(diào)理論,而理論的應(yīng)用,尤其是理論在各自專業(yè)上的應(yīng)用,不能被很好地強(qiáng)調(diào)。即使包含了案例教學(xué),但是案例往往是抽象的,或者與各個工科專業(yè)沒有關(guān)聯(lián),學(xué)生不能意識到教授的理論知識能否能在本專業(yè)應(yīng)用,應(yīng)用在什么地方,以及如何應(yīng)用。這會從根本上影響學(xué)生的學(xué)習(xí)興趣,進(jìn)而影響到學(xué)習(xí)效果。
因此,有必要借鑒國外先進(jìn)的教學(xué)理念,在大數(shù)據(jù)理論教學(xué)中采用本專業(yè)老師教授大數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)相關(guān)理論。筆者在英國University College London交通中心旁聽了數(shù)據(jù)采集與分析相關(guān)的研究生課程,發(fā)現(xiàn)該課程即由交通中心的老教授主講。其授課內(nèi)容與國內(nèi)研究生數(shù)學(xué)基礎(chǔ)課的數(shù)理統(tǒng)計類似,不過適度弱化了理論部分,增加了大量的交通工程數(shù)據(jù)分析案例。從學(xué)生的課程參與情況,以及參與科研項(xiàng)目過程中對相關(guān)理論的應(yīng)用效果來看,這種教學(xué)模式不僅能讓學(xué)生意識到理論方法在本專業(yè)的價值,還能讓學(xué)生快速掌握應(yīng)用的方法。甚至部分教授采用半節(jié)課理論講解,另外半節(jié)課邀請企業(yè)或政府部門相關(guān)從業(yè)者針對所講理論在實(shí)際中的應(yīng)用進(jìn)行演講。這些教學(xué)模式都值得在大數(shù)據(jù)教學(xué)中加以借鑒。
2.2 著重編程能力的培養(yǎng)
大數(shù)據(jù)對自主編程能力的要求很高。這主要由兩方面決定。其一是數(shù)據(jù)的預(yù)處理,由于大數(shù)據(jù)一般涉及繁蕪叢雜的原始數(shù)據(jù)。這些數(shù)據(jù)存儲格式,字段意義,數(shù)據(jù)類型種類較多,使用現(xiàn)成的統(tǒng)計軟件已不能滿足原始數(shù)據(jù)預(yù)處理要求,而手工處理也不現(xiàn)實(shí),因此一般需要自主編程,針對數(shù)據(jù)的具體問題設(shè)計對應(yīng)的預(yù)處理算法。比如公共汽車網(wǎng)絡(luò)一般包含很多線路和車站,線路和車站的名稱、編碼也存在不盡統(tǒng)一之處。體現(xiàn)在公共汽車刷卡大數(shù)據(jù)上就是字段編碼存在混亂,與GIS數(shù)據(jù)上車站的地理位置不能一一對應(yīng)。對于這種情況,要可視化公交車網(wǎng)絡(luò)客流,必須對刷卡數(shù)據(jù)預(yù)處理。如北京龐大的公交網(wǎng)絡(luò),手工處理不現(xiàn)實(shí),這就需要研究人員自主開發(fā)對應(yīng)模塊完成該工作。其二,海量數(shù)據(jù)對計算復(fù)雜度提出了新的要求。很多情況下不是傳統(tǒng)算法不可行的問題,而是不能在適合的時間內(nèi)處理完大規(guī)模數(shù)據(jù)的問題。以地鐵網(wǎng)絡(luò)客流實(shí)時顯示系統(tǒng)為例,如果路徑選擇算法不能在較短的時間內(nèi)給出結(jié)果,從實(shí)時的角度就其結(jié)果就沒有意義。大數(shù)據(jù)處理需要復(fù)雜度更低的可行算法,甚至在有些情況下需要設(shè)計并行算法,使用多個計算設(shè)備同時計算[5]。
所以,培養(yǎng)具備大數(shù)據(jù)思維和能力的人才,必須強(qiáng)調(diào)編程能力的培養(yǎng)。把編程相關(guān)課程作為大數(shù)據(jù)培養(yǎng)模塊的基礎(chǔ)課程,并體現(xiàn)大數(shù)據(jù)編程的特色。英國紐卡斯?fàn)柎髮W(xué)的Big Data Analytics模塊就是由計算機(jī)相關(guān)專業(yè)的老師開設(shè)。課程大綱中強(qiáng)調(diào)編程能力和算法設(shè)計,并專門教授了并行計算相關(guān)內(nèi)容。
3 結(jié)語
隨著數(shù)據(jù)采集和存儲技術(shù)的進(jìn)步,大數(shù)據(jù)逐漸成為各個行業(yè)尤其是工程相關(guān)專業(yè)的熱點(diǎn)。在這種形勢下,本文研究了工科專業(yè)大數(shù)據(jù)教學(xué)的問題。首先分析了大數(shù)據(jù)在實(shí)踐和科研領(lǐng)域的發(fā)展現(xiàn)狀和未來趨勢,認(rèn)為無論是生產(chǎn)企業(yè),還是科研相關(guān)單位,對大數(shù)據(jù)人才的需求都是迫切和巨大的。因而,從滿足未來人才市場需求的角度,大數(shù)據(jù)教學(xué)的問題必須引起國內(nèi)高校的重視。工科相關(guān)專業(yè)有必要增設(shè)大數(shù)據(jù)培養(yǎng)模塊。基于必要性,總結(jié)國內(nèi)外目前在數(shù)據(jù)處理方面的教學(xué)經(jīng)驗(yàn)和問題,提出了開展大數(shù)據(jù)教學(xué)的要點(diǎn)。其一,大數(shù)據(jù)理論教學(xué)必須與本工科專業(yè)相結(jié)合,側(cè)重案例的相關(guān)性。其二,自主編程能力是大數(shù)據(jù)能力的重要體現(xiàn),因而必須予以重視。目前大數(shù)據(jù)教學(xué)在國內(nèi)還處于起步階段,需要各個專業(yè)的同仁結(jié)合本專業(yè)的特點(diǎn)展開積極的探索,構(gòu)建合適的大數(shù)據(jù)培養(yǎng)模塊,成為本科及研究生培養(yǎng)課程體系的重要一環(huán)。
參考文獻(xiàn)
[1] Snijders,C.,Matzat,U.;Reips,U.-D.“’Big Data”:Big gaps of knowledge in the field of Internet[J].International Journal of Internet Science,2012(7):1-5.
[2] Stefanovic,Nenad.Collaborative Predictive Business Intelligence Model for Spare Parts Inventory Replenishment[J].Computer science and information systems,2015,12(3):911-930.
[3] Hahn,G.J.;Packowski,J.A perspective on applications of in-memory analytics in supply chain management[J].Decision support systems, 2015(76):45-52.
大數(shù)據(jù)技術(shù)的快速發(fā)展促進(jìn)了科研方式的變革,基于數(shù)據(jù)緊密型的科研方式已經(jīng)成為自科研經(jīng)驗(yàn)方式、理論方式、計算機(jī)模擬方式之后的新的發(fā)展模式[1]?,F(xiàn)階段,海量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)給科研帶來了巨大挑戰(zhàn),而且數(shù)據(jù)存儲和共享功能缺乏合理性和有效性,這也給高校圖書館的服務(wù)模式造成不小的影響。在大數(shù)據(jù)時代,高校圖書館應(yīng)該更加重視用戶數(shù)據(jù)安全和服務(wù)質(zhì)量,積極利用先進(jìn)的數(shù)據(jù)分析和處理技術(shù)來提升高校圖書館服務(wù)的智能化和個性化,為高校圖書館的服務(wù)創(chuàng)新創(chuàng)造出有利條件[2]。高校圖書館應(yīng)該借助大數(shù)據(jù)技術(shù),充分了解用戶的服務(wù)需求,并以滿足用戶的服務(wù)需求為目的開展相應(yīng)的服務(wù)。
1 大數(shù)據(jù)時代高校圖書館開展嵌入式知識服務(wù)的內(nèi)容
1.1 用戶需求的分析
在大數(shù)據(jù)環(huán)境下,首先,高校圖書館可以收集和存儲用戶的基本信息,比如:用戶的學(xué)歷、年齡、科研成果、學(xué)習(xí)經(jīng)歷以及工作單位等信息,并詳細(xì)記錄用戶的操作信息及檢索、查詢、收藏以及標(biāo)識等操作行為,可以與用戶查詢資料的內(nèi)容、學(xué)科類別以及相應(yīng)用戶權(quán)限進(jìn)行關(guān)聯(lián),還可以收集用戶具體的信息咨詢、科技前沿以及參考導(dǎo)航等服務(wù)情境[3]。其次,高校圖書館可以分析海量?稻藎?利用基于語義網(wǎng)的技術(shù)來規(guī)范用戶信息資源,并將其轉(zhuǎn)換為能夠被應(yīng)用程序理解和直接調(diào)用的數(shù)據(jù),從而可以更好地感知和預(yù)測用戶行為。最后,高校圖書館利用用戶數(shù)據(jù)作為決策依據(jù),為用戶制訂當(dāng)前目標(biāo)、短期目標(biāo)以及長期目標(biāo),并根據(jù)需求環(huán)境的變化動態(tài)分配硬件和軟件資源,從而讓高校圖書館的服務(wù)融入用戶的科研活動中。
1.2 規(guī)律趨勢的分析預(yù)測
針對某些行業(yè)或者學(xué)科進(jìn)行全面收集信息資源時,在專業(yè)研究成果的基礎(chǔ)上進(jìn)行深入分析,比如對比、推理以及綜合利用等科學(xué)分析手段,或參照專業(yè)學(xué)科發(fā)展規(guī)律,計量學(xué)發(fā)展規(guī)律等[4]。由于學(xué)科的知識特點(diǎn)和發(fā)展規(guī)律各不相同,因此需要運(yùn)用多種分析和處理手段來構(gòu)建不同的學(xué)科模型,從而能夠準(zhǔn)確地預(yù)測學(xué)科發(fā)展規(guī)律以及發(fā)展趨勢。常見的預(yù)測方法有以下幾種:①將大量文獻(xiàn)內(nèi)容進(jìn)行數(shù)據(jù)統(tǒng)計,以歸納總結(jié)出文獻(xiàn)的內(nèi)在規(guī)律,比如齊普夫定律、洛特卡定律以及布拉德福定律等都是常見的基于文獻(xiàn)內(nèi)容的統(tǒng)計方式。②根據(jù)文獻(xiàn)的發(fā)展規(guī)律和趨勢來構(gòu)建數(shù)學(xué)模型,可以達(dá)到預(yù)測文獻(xiàn)發(fā)展規(guī)律的目的,比如普賴斯就專門構(gòu)建了基于指數(shù)增長規(guī)律的數(shù)學(xué)模型。③將其他領(lǐng)域的數(shù)學(xué)規(guī)律和數(shù)學(xué)模型移植到文獻(xiàn)發(fā)展的預(yù)測中,比如物理學(xué)中的半衰期規(guī)律、經(jīng)濟(jì)學(xué)中的人口增長規(guī)律以及生物學(xué)中的成長規(guī)律等。④依據(jù)模糊理論來搜集相似文獻(xiàn)內(nèi)容,存儲在計算機(jī)中,并利用統(tǒng)計技術(shù)進(jìn)行分析和對比數(shù)據(jù),以此幫助科研人員挖掘數(shù)據(jù)關(guān)聯(lián)性。
2 大數(shù)據(jù)分析與情報分析的共性
2.1 看重對數(shù)據(jù)的定量分析
數(shù)據(jù)作為最直觀的資源,已經(jīng)潛移默化地改變了分析決策的方式,如何有效地收集、篩選以及整理各種數(shù)據(jù)資源,并利用合理的方法來挖掘數(shù)據(jù)的潛在價值,已經(jīng)成為評價一個組織是否具有競爭力的重要衡量方式。情報分析學(xué)科同樣十分重視數(shù)據(jù)資源的應(yīng)用,在情況分析研究的初期階段,分析人員主要依靠人員的智力來分析少量數(shù)據(jù)現(xiàn)象,并從中歸納總結(jié)出情報分析的規(guī)律。隨著科學(xué)技術(shù)的快速發(fā)展,學(xué)科之間的關(guān)聯(lián)性和交叉性逐漸加強(qiáng),學(xué)科知識的劃分越細(xì)致,所涉及的內(nèi)容也就越專業(yè)。目前,情報分析更多地依靠先進(jìn)的信息處理技術(shù),利用“機(jī)器學(xué)習(xí)”方式來挖掘數(shù)據(jù)、分析和統(tǒng)計相關(guān)聯(lián)系,還可以利用定量化方式來關(guān)聯(lián)基于關(guān)鍵字的詞匯共現(xiàn),其核心思路就是在計算能力的基礎(chǔ)上利用人工分析判斷數(shù)據(jù)聯(lián)系。因此,利用數(shù)據(jù)來闡述問題已經(jīng)成為情報分析的主要特點(diǎn),在情報分析報告中利用數(shù)據(jù)、公式以及圖表來說明理論的方式也充分體現(xiàn)了數(shù)據(jù)分析技術(shù)在情報分析領(lǐng)域的重要地位。
2.2 關(guān)注多源數(shù)據(jù)融合
大數(shù)據(jù)技術(shù)可以通過各種渠道,并利用各種收集手段來獲取各種數(shù)據(jù)信息,在進(jìn)行集中整理后,形成一種基于不同數(shù)據(jù)格式的統(tǒng)一處理方式,這種處理過程被稱為多源數(shù)據(jù)處理融合技術(shù)[5]。一方面,可以通過不同用戶和不同網(wǎng)絡(luò)途徑來獲取同一個研究方向的內(nèi)容;另一方面,根據(jù)信息數(shù)據(jù)的種類和用途的不同,比如:根據(jù)視頻、音頻及文本等方式進(jìn)行分類,也可以根據(jù)結(jié)構(gòu)化和非結(jié)構(gòu)化等方式進(jìn)行分類,同時也要考慮數(shù)據(jù)的異構(gòu)性。需要注意的是,相同類型的數(shù)據(jù)也有可能分布在不同的站點(diǎn),并由各自的數(shù)據(jù)供應(yīng)商提供,如論文分析研究的數(shù)據(jù)來源就包括中國知網(wǎng)、維普及萬方數(shù)據(jù)庫等[6]。一般情況下,針對前沿領(lǐng)域進(jìn)行情報分析時,只利用一種類型的數(shù)據(jù)是不夠全面的,應(yīng)該從其所涉及的期刊論文、圖書資源、專利以及項(xiàng)目等收集有效信息,進(jìn)行整合處理,這樣才能夠體現(xiàn)出該研究的整體特征。
3 嵌入式知識發(fā)現(xiàn)情報分析服務(wù)的重要環(huán)節(jié)
3.1 知識發(fā)現(xiàn)系統(tǒng)的利用
將文獻(xiàn)分析方式與數(shù)據(jù)挖掘技術(shù)進(jìn)行有機(jī)結(jié)合已經(jīng)成為知識發(fā)現(xiàn)方面的熱門研究內(nèi)容,并且取得了可以直接應(yīng)用的研究成果,這為嵌入式知識發(fā)現(xiàn)情報分析服務(wù)提供了重要的研究方式。不可否認(rèn),選擇和使用合理的知識發(fā)現(xiàn)系統(tǒng)會提高信息數(shù)據(jù)的分析效果,其中比較有代表性的就是充分認(rèn)識到知識發(fā)現(xiàn)系統(tǒng)的優(yōu)勢,評估數(shù)據(jù)分析結(jié)果與用戶的契合程度,從而讓數(shù)據(jù)分析服務(wù)的效果得到用戶的認(rèn)同。比如:一些基于知識發(fā)現(xiàn)的軟件和系統(tǒng)比較適合大型結(jié)構(gòu)化文獻(xiàn)數(shù)據(jù)分析,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)分析出信息的特定發(fā)展規(guī)律[7];還有一些基于主題和科研本身的知識發(fā)現(xiàn)模型,其可以利用文獻(xiàn)資源之間的相關(guān)性挖掘有效信息,并對文獻(xiàn)資料進(jìn)行多角度分析,根據(jù)關(guān)聯(lián)原則描述該學(xué)科領(lǐng)域的發(fā)展趨勢圖;另外還可以利用關(guān)聯(lián)和非關(guān)聯(lián)的知識發(fā)現(xiàn)方法,再結(jié)合相關(guān)語義分析、詞匯頻率統(tǒng)計等技術(shù),最后通過關(guān)鍵詞聚類方式來尋找潛在的知識發(fā)現(xiàn)。
3.2 準(zhǔn)確獲取數(shù)據(jù)
知識發(fā)現(xiàn)可以分析大量數(shù)據(jù)和信息資源,并從中挖掘明顯關(guān)聯(lián)或者非關(guān)聯(lián)的科學(xué)研究的內(nèi)在規(guī)律,情報分析人員可以向科研人員提供相關(guān)情報分析,一般采用的是定量和定性相結(jié)合的分析方法。在進(jìn)行定量分析之前,如果要獲取較為準(zhǔn)確的目標(biāo)數(shù)據(jù),除了要分析數(shù)據(jù)源以及檢索方式之外,還要對數(shù)據(jù)進(jìn)行預(yù)處理,如消除噪聲數(shù)據(jù)、集成數(shù)據(jù)等。大部分的數(shù)據(jù)分析軟件都具有數(shù)據(jù)篩選功能,其中常見的TDA(Threat Discovery Appliance)軟件就可以通過列表功能手工篩選原始數(shù)據(jù)。需要注意的是,當(dāng)自動篩選數(shù)據(jù)時,常常由于數(shù)據(jù)中檢測出偶發(fā)的錯誤或者不同的存儲格式導(dǎo)致篩選失敗,這就無法按照要求構(gòu)建知識圖譜。嵌入式的知識發(fā)現(xiàn)服務(wù)可以將篩選后的數(shù)據(jù)與專業(yè)數(shù)據(jù)分析專家共享,由此可以進(jìn)一步提高數(shù)據(jù)的準(zhǔn)確性,從而得到與研究對象關(guān)聯(lián)緊密的數(shù)據(jù)。
3.3 應(yīng)用綜合分析方法
科技創(chuàng)新活動不僅包括學(xué)科和領(lǐng)域的創(chuàng)新,而且還涉及社會各個方面的創(chuàng)新,所以嵌入式知識發(fā)現(xiàn)服務(wù)需要為決策人員提供情報分析服務(wù),幫助分析對象的社會行為,并為決策人員指明科研決策的發(fā)展方向;此外,還可以根據(jù)用戶的需求,結(jié)合經(jīng)濟(jì)學(xué)、社會學(xué)、管理學(xué)以及情報學(xué)等學(xué)科的分析方法,多方面地展現(xiàn)科技創(chuàng)新在社會環(huán)境中的具體狀況和發(fā)展趨勢。如今,國外已經(jīng)出現(xiàn)了專門提供情報分析服務(wù)的公司,比如美國的麥肯錫公司就對醫(yī)藥領(lǐng)域提供多方面的分析和研究服務(wù)。而國內(nèi)關(guān)于情報分析的研究還處于起步階段,高校圖書館可以借鑒國外成熟的研究成果,比如可以利用波士頓矩陣方法來分析文獻(xiàn)資源之間的關(guān)聯(lián)性。
4 情報分析服務(wù)模型總體設(shè)計
情報分析服務(wù)的主要功能就是針對數(shù)據(jù)進(jìn)行整理和分析,從而挖掘知?R的內(nèi)在關(guān)聯(lián)性。該研究根據(jù)內(nèi)容解析方法來實(shí)施情報分析服務(wù),并專門構(gòu)建一個情報分析的服務(wù)模型。該模型采用了分層結(jié)構(gòu),自上向下共分成三個層次,即界面展示層、知識發(fā)現(xiàn)處理層、數(shù)據(jù)資源層等,具體結(jié)構(gòu)示意圖如圖1所示。
首先是數(shù)據(jù)資源層,其確定研究對象包括三個步驟:確定分析目的、確定研究范圍、搜集情報等內(nèi)容。其次是知識發(fā)現(xiàn)處理層,它主要包括三個方面的內(nèi)容:①制定編碼標(biāo)準(zhǔn),并借助計算機(jī)輔助工具來構(gòu)建專屬詞典,其主要分為專業(yè)術(shù)語詞典、停止詞詞典、同義詞詞典等。②編碼部分,可以將文本文件轉(zhuǎn)換為計算機(jī)可識別的文本向量。③數(shù)據(jù)分析部分,可以利用相似度算法和聚類算法來處理文本向量,從而實(shí)現(xiàn)情報自動聚類和串并功能。最后是界面展示層,主要功能為針對數(shù)據(jù)進(jìn)行分析。
4.1 數(shù)據(jù)資源層設(shè)計
數(shù)據(jù)資源層為情報分析提供海量的數(shù)據(jù)資源,從各個數(shù)據(jù)源中收集數(shù)據(jù)并集成在情報員數(shù)據(jù)庫中。眾所周知,數(shù)據(jù)庫的性能會直接影響情報分析服務(wù)模式的處理效率。目前,比較成熟的數(shù)據(jù)庫種類主要有兩種:關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫。經(jīng)過幾十年的發(fā)展,關(guān)系型數(shù)據(jù)庫技術(shù)相對比較成熟,其中的行和列的關(guān)系非常明確,主要采用表型結(jié)構(gòu)存儲數(shù)據(jù),用戶比較容易接受。但是,隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展,關(guān)系型數(shù)據(jù)庫的弊端也逐漸顯現(xiàn)出來:①針對海量數(shù)據(jù)進(jìn)行查詢和存儲操作,海量數(shù)據(jù)信息時刻充斥在互聯(lián)網(wǎng)上,如果關(guān)系型數(shù)據(jù)庫還是采用表型存儲海量數(shù)據(jù),這時的存儲是以億為單位。當(dāng)利用SQL(Structured Query Language)語言查詢或者針對多張表進(jìn)行關(guān)聯(lián)查詢時,其查詢效率是非常低的。②數(shù)據(jù)庫的擴(kuò)展性較差。當(dāng)處理海量數(shù)據(jù)時,數(shù)據(jù)的結(jié)構(gòu)非常復(fù)雜,修改數(shù)據(jù)庫的表結(jié)構(gòu)是非常耗時的,因此復(fù)雜的數(shù)據(jù)結(jié)構(gòu)的處理效率無法達(dá)到用戶的要求。③數(shù)據(jù)庫的讀寫效率。針對動態(tài)的信息,每秒的讀寫次數(shù)要達(dá)到上萬次以上,而關(guān)系型數(shù)據(jù)庫的讀寫速度無法達(dá)到這種要求。
4.2 知識發(fā)現(xiàn)處理層設(shè)計
知識發(fā)現(xiàn)處理層的主要功能是針對數(shù)據(jù)資源層的數(shù)據(jù)進(jìn)行深度的分析和挖掘,它可以利用內(nèi)容分析方法進(jìn)行數(shù)據(jù)分析和情報編碼,具體的功能模塊圖如圖2所示。知識發(fā)現(xiàn)處理層主要包括四個功能模塊:情報自動聚類處理模塊、情報串并處理模塊、文本預(yù)處理模塊、文本向量表示模塊。
4.3 界面展示層設(shè)計
界面展示層主要包括兩個部分:知識圖譜展示功能和人機(jī)交互功能。知識圖譜展示功能形象展現(xiàn)出情報數(shù)據(jù)資源的分析結(jié)果,是針對情報數(shù)據(jù)資源分析的拓展,它可以準(zhǔn)確表達(dá)現(xiàn)象層面的具體信息,并通過更進(jìn)一步的分析來找出隱藏在情報中的規(guī)律,從而協(xié)助情報分析人員更好地處理情報。人機(jī)交互功能是利用操作界面來實(shí)現(xiàn)用戶和軟件之間的信息交流,更好地幫助用戶控制軟件。
【關(guān)鍵詞】大數(shù)據(jù)時代;煤炭企業(yè);物資管理;應(yīng)用
1引言
煤炭作為現(xiàn)代人類社會賴以生存的重要資源,對人們的生活產(chǎn)生了重大的影響,也對社會的變革起到推動作用。雖然現(xiàn)階段煤炭企業(yè)已經(jīng)加大對煤炭物資管理方面的重視,但是還遠(yuǎn)遠(yuǎn)沒有達(dá)到現(xiàn)代社會的管理標(biāo)準(zhǔn)。結(jié)合當(dāng)前階段我國煤炭行業(yè)的發(fā)展?fàn)顩r來看,國內(nèi)的大型煤炭公司一直采用“粗放分散”式的企業(yè)管理模式。而面對現(xiàn)今環(huán)境下煤炭市場的多變形勢,企業(yè)不僅要解決兼并重組的問題,而且要重新改革現(xiàn)有的管理模式。針對這些問題,企業(yè)需要以大數(shù)據(jù)技術(shù)的使用為企業(yè)管理創(chuàng)新的突破口。將大數(shù)據(jù)思維與現(xiàn)代企業(yè)管理方法進(jìn)行有機(jī)結(jié)合,是煤炭企業(yè)需要重點(diǎn)關(guān)注以及亟待解決的問題。
2大數(shù)據(jù)應(yīng)用于煤炭企業(yè)物資管理的意義
結(jié)合現(xiàn)代煤炭企業(yè)的發(fā)展來看,很大一部分煤炭企業(yè)正面臨以下的問題:行業(yè)差距明顯、企業(yè)地域分散明顯、企業(yè)內(nèi)部管理層級過多、產(chǎn)品線眾多等。為使企業(yè)更好地發(fā)展,企業(yè)管理人員應(yīng)該積極尋找解決問題的辦法,盡快解決影響企業(yè)發(fā)展的因素,從而保證企業(yè)的長遠(yuǎn)發(fā)展。此時,大數(shù)據(jù)技術(shù)的使用便是一個非??茖W(xué)有效的辦法,借助于大數(shù)據(jù)獨(dú)有的特點(diǎn),企業(yè)可以構(gòu)建一個科學(xué)合理的物資分析模型。該模型可以采用以下三個評測維度,即:物資價值、通用性、流通性。大數(shù)據(jù)可以將這三個評估標(biāo)準(zhǔn)結(jié)合到統(tǒng)一分析模型中,做到物資分析的“三位一體”,在實(shí)際分析過程中,分析人員可以對物資數(shù)據(jù)進(jìn)行清洗加工,通過專業(yè)化的數(shù)據(jù)分析模式,企業(yè)可以將物資進(jìn)行細(xì)致地分類,并且可以結(jié)合物資的實(shí)際優(yōu)劣情況對其進(jìn)行合理的分配和使用。物資的分類與管理中,企業(yè)可以使用具體的標(biāo)注為物資進(jìn)行分類,比如:“B-”至“A++”,或是設(shè)定其對應(yīng)的由低到高優(yōu)先使用級別。如此一來,企業(yè)在面對物資需求以及物資調(diào)控等指令時,可以高效快速地回應(yīng),這不僅為企業(yè)的物資合理分配提供了合理的解決方案,同時,也大大縮減了人力成本,大數(shù)據(jù)技術(shù)的使用為企業(yè)管理模式的創(chuàng)新創(chuàng)造了巨大的發(fā)展空間以及改革機(jī)遇[2]。
3物資管理面臨的挑戰(zhàn)
3.1物資管理行業(yè)差異大
結(jié)合當(dāng)前企業(yè)發(fā)展報告來看,我國煤炭行業(yè)已經(jīng)結(jié)束為期十年的黃金發(fā)展期,所以,各大煤炭企業(yè)正在尋找其他能源方向的突破口。原本以煤炭能源為主要發(fā)展的煤炭企業(yè)正在逐步轉(zhuǎn)變自己的產(chǎn)業(yè)方向,比如,煤礦建設(shè)、裝備制造業(yè)、煤炭發(fā)電、物流運(yùn)輸?shù)?。企業(yè)將這些與企業(yè)發(fā)展相關(guān)的產(chǎn)業(yè)逐步進(jìn)行合作并購,以期將公司打造成一個覆蓋全產(chǎn)業(yè)鏈的綜合型能源公司。但是,面對各能源管理方面的差異,煤炭企業(yè)如何實(shí)現(xiàn)這個目標(biāo)還需要進(jìn)行繼續(xù)的探索[3]。
3.2物資管理地域分散
隨著煤炭企業(yè)逐步向綜合型能源企業(yè)靠近,企業(yè)所整合的資源類別以及兼并的資源公司也隨之增多,伴隨著資源種類的不斷豐富、企業(yè)員工的不斷增多,企業(yè)所需要管理的地理范圍也在逐漸擴(kuò)大。根據(jù)我國礦業(yè)的分布情況來看,礦產(chǎn)資源豐富的企業(yè)分散在我國的各個地區(qū),由此就會帶來物資運(yùn)輸方面的問題。由于各個礦區(qū)之間的距離各不相同,所以企業(yè)管理者在調(diào)配物資時會受到地理?xiàng)l件的制約[4]。
3.3物資管理層級多
煤炭企業(yè)的原有管理模式一直偏向于“粗放分散”,同時也就造成員工管理方面的不足。員工已經(jīng)習(xí)慣于原有的管理模式,面對全新的改革管理措施將很難適應(yīng),甚至出現(xiàn)“水土不服”,這種情況也是企業(yè)管理者進(jìn)行統(tǒng)一集中式管理所顧慮的因素之一[5]。
4大數(shù)據(jù)應(yīng)用于物資管理的具體措施
4.1利用大數(shù)據(jù)構(gòu)建合理化物資管理模型
通過分析研究物資管理系統(tǒng)中一定時間段內(nèi)的物資小類的單價、使用單位數(shù)量、采購量、消耗量和庫存現(xiàn)有量等數(shù)據(jù),建立以物資價值、通用性、流通性“三位一體”的數(shù)據(jù)分析維度,對物資管理進(jìn)行系統(tǒng)分析。對此以下將詳細(xì)介紹個分析維度的具體內(nèi)容:①以單價十萬元為衡量標(biāo)準(zhǔn)。某段時間內(nèi)該種物資的購買單價如果在十萬元之內(nèi),那么操作人員就可以把這種物資歸類為B類;如果某段時間內(nèi)該種物資的購買單價等于十萬元或是高于十萬元,那么操作人員就可以把這種物資歸類為A類。②以通用性為衡量維度,通用性維度以物資小類使用單位(二級企業(yè))數(shù)量2家為界限,進(jìn)行流通性指標(biāo)標(biāo)識,對系統(tǒng)中一定時間段內(nèi)同一物資小類使用單位數(shù)量>2家的進(jìn)行“+”號標(biāo)識(結(jié)合價值維度,物資類別可進(jìn)一步分為A+和B+兩種);對系統(tǒng)中一定時間段內(nèi)同一物資小類使用單位數(shù)量≤2家的進(jìn)行“-”號標(biāo)識,上述“+”和“-”分別代表物資通用性的強(qiáng)弱。③以流通度為判斷維度,企業(yè)庫存供給率=單一企業(yè)庫存物資小類現(xiàn)有量一單一企業(yè)物資小類一定時間段內(nèi)采購量/單一企業(yè)物資小類一定時間段內(nèi)消耗量。此時,企業(yè)可以提供的庫存最大供給率就是該類物資提供商所擁有的最大供給率。如果該類物資的最大供給率大于零,同時最小供給率小于零,那么就可以視該物資具有高流通性;如果該類物資的最大供給率小于零,同時最小供給率大于零,那么就可以視該物資具有低流通性[6]。
4.2應(yīng)用大數(shù)據(jù)進(jìn)行物資管理的具體路徑
利用大數(shù)據(jù)可以有效完成數(shù)據(jù)管理以及數(shù)據(jù)分析工作。以下是大數(shù)據(jù)技術(shù)的具體分析路徑:①剔除無關(guān)因素的干擾,將一段時間內(nèi)的物資數(shù)據(jù)進(jìn)行整合分析,將無關(guān)的干擾因素剔除;②重點(diǎn)要素分級處理,根據(jù)數(shù)據(jù)資源的不同優(yōu)先級,對數(shù)據(jù)進(jìn)行優(yōu)先處理的劃分,形成系統(tǒng)化的數(shù)據(jù)處理體系;③分析補(bǔ)充修正,由于物資的數(shù)據(jù)資源可能會出現(xiàn)一定的漏洞,所以分析人員一定要時刻關(guān)注數(shù)據(jù)的變化,及時發(fā)現(xiàn)數(shù)據(jù)處理系統(tǒng)存在的問題,提高物資管理系統(tǒng)的準(zhǔn)確性。
5結(jié)語
綜上所述,大型煤炭企業(yè)需要充分利用大數(shù)據(jù)的優(yōu)勢進(jìn)行企業(yè)管理結(jié)構(gòu)方面的改革,大數(shù)據(jù)技術(shù)的使用可以為企業(yè)帶來科學(xué)、準(zhǔn)確的物資評判結(jié)果,企業(yè)可以借助這些分析結(jié)果進(jìn)行企業(yè)發(fā)展方向以及戰(zhàn)略資源的調(diào)配,為企業(yè)的發(fā)展節(jié)省大量成本支出??梢哉f,大數(shù)據(jù)應(yīng)用于煤炭企業(yè)的物資管理可以為企業(yè)的發(fā)展奠定良好的基礎(chǔ)。
【參考文獻(xiàn)】
【1】何向欣.基于大數(shù)據(jù)分析的煤炭企業(yè)物資管理研究[J].企業(yè)改革與管理,2018(11):66-67.
【2】譚章祿,馬營營,袁慧.煤炭大數(shù)據(jù)平臺建設(shè)的關(guān)鍵技術(shù)及管理協(xié)同架構(gòu)[J].工礦自動化,2018,44(06):16-20.
【關(guān)鍵詞】SDL 數(shù)據(jù)挖掘 大數(shù)據(jù) R語言 系統(tǒng)設(shè)計
1 前言
隨著信息化時代的發(fā)展,各領(lǐng)域中的數(shù)據(jù)急劇增長和信息量的不斷擴(kuò)大,使得大數(shù)據(jù)挖掘方法與工具的研究和開發(fā)的重要性與日俱增。R軟件是一款集成了數(shù)據(jù)操作、統(tǒng)計和可視化功能的優(yōu)秀的開源軟件,R軟件具備高效的數(shù)據(jù)處理和存儲功能,擅長數(shù)據(jù)矩陣操作,提供了大量適用于數(shù)據(jù)分析的工具,在眾多數(shù)據(jù)挖掘領(lǐng)域中有比較出色的應(yīng)用。但由于R語言本身并不支持用于并行存儲計算數(shù)據(jù)的分布式文件系統(tǒng),所以與海量數(shù)據(jù)結(jié)合的數(shù)據(jù)挖掘系統(tǒng)處于不成熟階段,且其不具有商業(yè)軟件在封裝方面的優(yōu)點(diǎn),導(dǎo)致各類集成R語言的數(shù)據(jù)挖掘系統(tǒng)在系統(tǒng)架構(gòu)上層次不清,各功能模塊之間定義模糊,給程序員在對API進(jìn)行編程時帶來麻煩。
SDL(specification and description language)是一種基于擴(kuò)展有限狀態(tài)機(jī)和抽象數(shù)據(jù)類型的形式化描述語言,定義在ITU的建議書Z.100 中。SDL 自身的特性除了非常適合通信協(xié)議的形式化描述和實(shí)現(xiàn),也適用于描述系統(tǒng)的活動和信息交互的行為。為了減少系統(tǒng)的開發(fā)成本,降低出錯率,提高開發(fā)效率和軟件的質(zhì)量,本文提出了一種基于SDL語言描述集成了R語言的大數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)設(shè)計的解決方案主要是圍繞大數(shù)據(jù)的存儲訪問和R語言算法的嵌入兩個技術(shù)難點(diǎn)來實(shí)現(xiàn)的,通過Hadoop集群的搭建實(shí)現(xiàn)了分布式文件的存儲管理和訪問,但Hadoop本身基于Java語言實(shí)現(xiàn),并不支持R語言,所以本文在系統(tǒng)中設(shè)計Java語言與R語言對象轉(zhuǎn)換的功能模塊,通過調(diào)用Java類庫來解釋執(zhí)行R語言描述的數(shù)據(jù)挖掘算法,從而實(shí)現(xiàn)目標(biāo)系統(tǒng)的功能。
TeleLogic TAU 是用于分析、設(shè)計、運(yùn)行和測試實(shí)時系統(tǒng)的軟件工具,其最大特點(diǎn)在于SDL和MSC的形式化,能幫助用戶在設(shè)計初期就使用仿真,對設(shè)計進(jìn)行確認(rèn)和驗(yàn)證,保證系統(tǒng)的每一個細(xì)節(jié)正確運(yùn)行。完整的客戶化代碼生成器還可將規(guī)格編譯成可執(zhí)行代碼,將錯誤數(shù)量降至最低,使用戶將更多的精力用于系統(tǒng)設(shè)計。因此本文將采用TeleLogic TAU作為SDL開發(fā)工具來實(shí)現(xiàn)集成R語言的大數(shù)據(jù)挖掘系統(tǒng)的設(shè)計。
2 目標(biāo)系統(tǒng)說明
2.1 目標(biāo)系統(tǒng)實(shí)現(xiàn)的功能
(1)用戶無需了解R語言的編程過程,通過系統(tǒng)前端圖形化界面進(jìn)行交互。
(2)用戶可以實(shí)現(xiàn)密鑰登錄系統(tǒng)。
(3)系統(tǒng)提供多種算法供用戶選擇,并且可以設(shè)置參數(shù)。
(4)經(jīng)過數(shù)據(jù)分析后返回的結(jié)果可以在用戶界面上實(shí)現(xiàn)文本顯示和圖形化顯示兩種顯示方式。
2.2 系統(tǒng)流程
(1)用戶輸入用戶名和密碼登錄系統(tǒng)
(2)用戶選擇算法種類,并選擇設(shè)置參數(shù),確認(rèn)。
(3)系統(tǒng)管理模塊生成R語言代碼,經(jīng)轉(zhuǎn)換模塊生成嵌入了R語言的Java代碼,向計算模塊發(fā)出開始數(shù)據(jù)處理的信號。
(4)計算模塊根據(jù)算法內(nèi)容執(zhí)行對數(shù)據(jù)的分析操作,發(fā)送完成信號到管理模塊。
(5)管理模塊提示用戶處理完成,用戶選擇結(jié)果的文本顯示或可視化顯示。
2.3 系統(tǒng)設(shè)計難點(diǎn)及解決方案
由于R語言本身不支持分布式文件系統(tǒng),所以系統(tǒng)需要一種在R語言執(zhí)行正確執(zhí)行Java代碼的機(jī)制?;贖adoop計算框架的集成原理,HDFS的靜態(tài)功能全部由后端類庫和架構(gòu)本身實(shí)現(xiàn),而系統(tǒng)的難點(diǎn)在于實(shí)現(xiàn)一個在R環(huán)境下利用Java虛擬機(jī)加載Java類并調(diào)用其方法的執(zhí)行系統(tǒng)。
針對上述難點(diǎn),提出以下解決方案,設(shè)計一個轉(zhuǎn)換功能模塊,可以實(shí)現(xiàn)在Java代碼中解釋R語言腳本并執(zhí)行;在R環(huán)境下可利用Java虛擬機(jī)加載Java類并調(diào)用其方法;可將R對象自動轉(zhuǎn)換為Java對象;可將Java對象自動轉(zhuǎn)換為R對象的類型。
3 設(shè)計與實(shí)現(xiàn)
3.1 信號量
3.2 各模塊功能
3.2.1 System級定義
用環(huán)境代表用戶,用戶可以向系統(tǒng)輸入用戶名及密碼、選擇算法、設(shè)置參數(shù)以及退出系統(tǒng)等信號,系統(tǒng)可以向環(huán)境輸出文本顯示和圖形化顯示的信號。功能塊dataming完成R語言和Java語言的代碼的轉(zhuǎn)換以及數(shù)據(jù)處理的任務(wù)。
3.2.2 Block級定義
dataming功能塊由4個process組成。manage是管理進(jìn)程,進(jìn)程集名后的(1,1)表示該進(jìn)程集將在系統(tǒng)初始化時靜態(tài)創(chuàng)建一個進(jìn)程實(shí)例,并且系統(tǒng)在運(yùn)行過程中最多允許存在的該進(jìn)程集的實(shí)例個數(shù)也是1,用戶的輸入選擇等與系統(tǒng)的所有交互行為都要經(jīng)過manage進(jìn)程;user_database進(jìn)程比較輸入的用戶名和密碼與數(shù)據(jù)庫的匹配結(jié)果,根據(jù)結(jié)果向manage進(jìn)程返回接收/拒絕信號;convert進(jìn)程和compute進(jìn)程分別負(fù)責(zé)代碼轉(zhuǎn)換和數(shù)據(jù)處理及顯示:converter進(jìn)程接到manage進(jìn)程發(fā)送的RtoJ信號后,把靜態(tài)的R語言腳本用Java類加載,并向compute進(jìn)程發(fā)送信號compute執(zhí)行算法代碼,處理完成后compute進(jìn)程向manage進(jìn)程發(fā)送完成信號,并接收結(jié)果顯示方式的信號,把結(jié)果輸出到環(huán)境。
4 仿真測試
把設(shè)計輸入到TAU 提供的SDL/ GR 的編輯器,經(jīng)過分析和編譯生成仿真代碼。用MSC跟蹤的仿真結(jié)果見圖4所示,用戶輸入已經(jīng)設(shè)好的用戶名“user123”和密碼“123”成功登錄系統(tǒng),選擇算法1并設(shè)置參數(shù)2,經(jīng)過代碼轉(zhuǎn)換和數(shù)據(jù)處理,系統(tǒng)向用戶提示選擇結(jié)果顯示方式,用戶選擇顯示圖形結(jié)果后,系統(tǒng)將圖形顯示的信號發(fā)送到前端,通過驗(yàn)證,MSC圖是正確的,并且結(jié)果與預(yù)期相符合。
5 結(jié)束語
本文介紹了SDL形式化語言的特點(diǎn)以及應(yīng)用場景,并使用TeleLogic TAU工具基于SDL語言對集成了R語言的海量數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了分析與設(shè)計,實(shí)現(xiàn)了系統(tǒng)設(shè)計目標(biāo)的各項(xiàng)基本功能,使用戶不用掌握R語言的語法,只需通過操作界面選擇相關(guān)算法,并設(shè)置相關(guān)參數(shù)就可以得到文本形式和圖形化顯示的海量數(shù)據(jù)的分析結(jié)果。通過對部分模塊的仿真實(shí)現(xiàn),驗(yàn)證了設(shè)計的正確性。
參考文獻(xiàn)
[1]陳榮鑫. R軟件的數(shù)據(jù)挖掘應(yīng)用[J]. 重慶工商大學(xué)學(xué)報(自然科學(xué)版),2011, Vol.28 NO.6 : 602-607.
[2]曹杰. 基于JVM的R語言海量數(shù)據(jù)統(tǒng)計集成框架研究[D]. 碩士學(xué)位論文, 華中科技大學(xué), 2012.
關(guān)鍵詞:學(xué)習(xí)分析;教育大數(shù)據(jù);可視化技術(shù);學(xué)習(xí)行為;CMI;DDDM
一、引言
互聯(lián)網(wǎng)、云計算和大數(shù)據(jù)等技術(shù)的發(fā)展推動著教育信息化的發(fā)展。在基礎(chǔ)教育領(lǐng)域,國家提出了基礎(chǔ)教育資源公共平臺的具體落實(shí)措施,以實(shí)現(xiàn)優(yōu)質(zhì)資源共建共享、優(yōu)質(zhì)資源班班通,最終通過信息化的手段促成教育的公平。2011年,高等教育領(lǐng)域出現(xiàn)的了一種新型的MOOC課程模式[1-2]。隨后,這種模式成為許多大學(xué)認(rèn)真研究的新事物,無論是在校學(xué)習(xí)者還是社會公眾,都可以獲得各類開放式的網(wǎng)絡(luò)優(yōu)質(zhì)課程資源。由此可見,在線教育正在逐步掀起一股新的革命的浪潮,成為一種必然和必要的學(xué)習(xí)模式。同時,在線教育資源產(chǎn)生的海量數(shù)據(jù)也為學(xué)習(xí)分析和教育數(shù)據(jù)挖掘研究提供了基礎(chǔ),引發(fā)我們對教育更深層次的研究和思考。
二、概述
2.1 教育大數(shù)據(jù)現(xiàn)狀2.1.1 國內(nèi)現(xiàn)狀分析。2012年,國內(nèi)開始有相關(guān)論文開始研究教育大數(shù)據(jù)。至今,大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用研究進(jìn)入了起步階段。隨著我國社會在近幾年的快速發(fā)展,信息技術(shù)與教育領(lǐng)域已經(jīng)開始融合,教育事業(yè)的發(fā)展勢必是離不開信息技術(shù)的,信息技術(shù)同時也能夠促進(jìn)教育事業(yè)的不斷改革。早在2013年,國內(nèi)掀起了基于大數(shù)據(jù)技術(shù)促進(jìn)教育改革和創(chuàng)新的研究熱潮。同時將信息技術(shù)應(yīng)用于教育事業(yè)中也是廣大教育者的期望,在2014年的3月,我國的教育部辦公廳就印發(fā)了《2014年教育信息化工作要點(diǎn)》中指出了要加強(qiáng)信息技術(shù)在教育事業(yè)中的應(yīng)用,我國也自此加強(qiáng)了對于教育大數(shù)據(jù)的研究,不斷地發(fā)現(xiàn)數(shù)據(jù)、挖掘數(shù)據(jù)、利用數(shù)據(jù),為的就是將信息技術(shù)更好的應(yīng)用于教育事業(yè)。2.1.2 國外現(xiàn)狀分析。在國外,已經(jīng)出現(xiàn)一些企業(yè)成功的教育大數(shù)據(jù)進(jìn)行了成功的商業(yè)化。在美國,IBM聯(lián)合一所學(xué)校進(jìn)行了大數(shù)據(jù)合作。以及專門運(yùn)用預(yù)測性分析幫助提高學(xué)習(xí)成績的公司、“夢盒學(xué)習(xí)公司”、“紐頓”公司也已經(jīng)成功的利用教育大數(shù)據(jù)成功的了屬于自己公司的利用大數(shù)據(jù)的適應(yīng)性學(xué)習(xí)的系統(tǒng)。不僅是在美國,在加拿大的“渴望學(xué)習(xí)”也已經(jīng)推出了信息的大數(shù)據(jù)的服務(wù)項(xiàng)目。由以上的國外的研究中就可以看出,大數(shù)據(jù)教育在國外的研究較于國內(nèi)相比還是比較領(lǐng)先的,所以我國應(yīng)該不斷地汲取在國外的這些研究經(jīng)驗(yàn),進(jìn)而不斷地提高國內(nèi)的研究水平。2.2 學(xué)習(xí)分析的歷史。利用數(shù)據(jù)考核、分析和評估教學(xué)和和學(xué)習(xí)存在的歷史已經(jīng)非常的悠久了,另外學(xué)習(xí)分析技術(shù)在CMI等計算機(jī)網(wǎng)絡(luò)等技術(shù)領(lǐng)域同時也是存在了很長的時間。由此就可以看出來,學(xué)習(xí)分析技術(shù)也可以看成是DDDM以及CMI的一種繼承、延伸和發(fā)展。(一)CMI。CM可以說是第一代教育數(shù)據(jù)應(yīng)用系統(tǒng),CMI是為個別化教學(xué)程序所提供支持的管理信息系統(tǒng),它最為顯著的功能就是確定和滿足為學(xué)習(xí)者在學(xué)習(xí)過程中所產(chǎn)生的各種各樣的學(xué)習(xí)需求,并且為學(xué)習(xí)者提供個性化的符合學(xué)習(xí)者需求的學(xué)習(xí)資料,更加方便與學(xué)習(xí)者的學(xué)習(xí)。在Brudner(1968)的報告中,認(rèn)為CMI系統(tǒng)中所存儲的數(shù)據(jù)共計六類,分別是:(1)學(xué)生的學(xué)術(shù)記錄、考試成績集的個性記錄;(2)學(xué)生每日的活動記錄;(3)學(xué)生的學(xué)習(xí)目標(biāo)及學(xué)習(xí)程序;(4)測試答案文檔及測試文檔;(5)教學(xué)目錄及學(xué)習(xí)指南;(6)有關(guān)的預(yù)測及分析數(shù)據(jù)。(二)DDDM。DDDM就是利用計算機(jī)的計算能力從而進(jìn)行數(shù)據(jù)的分析,并且提供決策的支持的思想,隨著社會的不斷發(fā)展,計算機(jī)的計算能力也越來越強(qiáng)。根據(jù)Wayman(2005)的觀點(diǎn),在目前的學(xué)校領(lǐng)域中,一般來說提供數(shù)據(jù)的信息系統(tǒng)大致應(yīng)該有三個種類,即學(xué)生信息系統(tǒng)、學(xué)習(xí)評估系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)這三種,這三類的功能各有所側(cè)重,向?qū)W生信息系統(tǒng)就是記錄學(xué)生在日常的學(xué)習(xí)過程中的出勤率、等情況;學(xué)習(xí)評估系統(tǒng)就是根據(jù)學(xué)習(xí)者的學(xué)習(xí)情況、出勤率等方面對學(xué)生進(jìn)行學(xué)習(xí)評估和分析;數(shù)據(jù)倉庫系統(tǒng)就是為學(xué)生和教師訪問各種類型的歷史數(shù)據(jù)提供接口,方面學(xué)生和教師查閱資料。2.3 學(xué)習(xí)分析的概念。學(xué)習(xí)分析技術(shù)就是對學(xué)生生成的海量的學(xué)習(xí)數(shù)據(jù)加以解釋和分析,并且評估學(xué)生的學(xué)術(shù)進(jìn)展情況,以發(fā)現(xiàn)學(xué)習(xí)者潛在的學(xué)習(xí)問題,加以改正。一般來說學(xué)習(xí)分析技術(shù)分為五大環(huán)節(jié),即數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)表示、服務(wù)應(yīng)用。數(shù)據(jù)采集就是對學(xué)習(xí)者的相關(guān)數(shù)據(jù)以及學(xué)習(xí)資源數(shù)據(jù)進(jìn)行采集;數(shù)據(jù)存儲、分析、表示就是將采集到的學(xué)習(xí)者的數(shù)據(jù)進(jìn)行存儲、分析;服務(wù)應(yīng)用就是將學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù)進(jìn)行評估,對未來的進(jìn)展情況進(jìn)行預(yù)測。學(xué)習(xí)分析是大范圍收集學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù)并加以分析,從而評價學(xué)習(xí)者的當(dāng)前學(xué)習(xí)情況、預(yù)測其未來的學(xué)習(xí)表現(xiàn),并查找潛在問題。數(shù)據(jù)來源包括學(xué)習(xí)者的顯,包括學(xué)習(xí)課程、完成作業(yè)和測試的情況,也包括其它隱性表現(xiàn),包括網(wǎng)絡(luò)社交行為和其它不作為學(xué)習(xí)表現(xiàn)直接評估的活動。2.4 學(xué)習(xí)分析必要性。在大數(shù)據(jù)背景下的在線學(xué)習(xí),將產(chǎn)生大量的過程性和結(jié)果性的數(shù)據(jù),學(xué)習(xí)分析成為一種必要,主要體現(xiàn)在以下三個方面:2.4.1管理者的角度。即實(shí)現(xiàn)管理者大規(guī)模的管理需求。在線學(xué)習(xí)的大規(guī)模性主要體現(xiàn)為資源多、用戶多、互動交流多、數(shù)據(jù)巨大。如何充分發(fā)掘和利用這些數(shù)據(jù),使數(shù)據(jù)的價值最大性發(fā)揮?如何進(jìn)行大規(guī)模的評估評價?如何進(jìn)行大規(guī)模的趨勢預(yù)判?這些都是管理者所面臨的問題,通過開展在線學(xué)習(xí)深入分析,能夠讓管理者做到心中有數(shù)。2.4.2教師的角度。即教師獲得教學(xué)反饋的需要。在線學(xué)習(xí)模式下,教師與學(xué)習(xí)者的互動性顯得更加容易,學(xué)習(xí)者可以在線對課程進(jìn)行評價,向教師提問題、考試和作業(yè)?;谠诰€學(xué)習(xí)平臺對學(xué)習(xí)過程的記錄,教師可以準(zhǔn)確了解學(xué)習(xí)者在學(xué)習(xí)過程中普遍存在的問題,并通過教學(xué)反思以不斷改進(jìn)教學(xué)方法。2.4.3學(xué)習(xí)者的角度。即學(xué)習(xí)者學(xué)習(xí)個性化的需求。在線學(xué)習(xí)為每個學(xué)習(xí)者提供靈活的學(xué)習(xí)環(huán)境,無限制的空間和無限制的時間。每個學(xué)習(xí)者都在創(chuàng)造自己的大數(shù)據(jù)。在學(xué)習(xí)分析的支撐下,平臺可以了解學(xué)習(xí)者成長的軌跡,學(xué)習(xí)的現(xiàn)狀,學(xué)習(xí)者的學(xué)習(xí)規(guī)律, 可實(shí)現(xiàn)學(xué)習(xí)資源的個性化推送、學(xué)習(xí)質(zhì)量分析,利于學(xué)習(xí)能力的提高、學(xué)習(xí)興趣的培養(yǎng)、提供個性化的服務(wù)。
三、學(xué)習(xí)分析的實(shí)現(xiàn)
3.1 學(xué)習(xí)分析關(guān)鍵技術(shù)3.1.1 大數(shù)據(jù)分析。大數(shù)據(jù)分析技術(shù)將隱藏于海量學(xué)習(xí)數(shù)據(jù)中的信息和知識挖掘出來,以圖形化的方式直觀展現(xiàn)出來,根據(jù)分析結(jié)果還可以做出前瞻性的判斷。大數(shù)據(jù)分析利用回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等),多種分析的方法來確定能夠?qū)W(xué)習(xí)者的交互行為以及成績等因素產(chǎn)生的影響并且構(gòu)建架構(gòu)模型[3]。大數(shù)據(jù)分析利用數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、對象連接、相似性連接等挖掘和融合技術(shù),實(shí)現(xiàn)學(xué)習(xí)者興趣分析、網(wǎng)絡(luò)行為分析、情感語義分析等,提煉出有價值信息。3.1.2 可視化技術(shù)??梢暬夹g(shù)是將數(shù)據(jù)轉(zhuǎn)換為圖形圖像的處理技術(shù),它涉及到計算機(jī)輔助設(shè)計、視覺和人機(jī)交互技術(shù)。應(yīng)用可視化技術(shù),可以在大量高位的學(xué)習(xí)信息中發(fā)現(xiàn)數(shù)據(jù)中所隱含的內(nèi)在規(guī)律。數(shù)據(jù)可視化技術(shù)一般過程可劃分為數(shù)據(jù)預(yù)處理、映射、繪制和顯示。數(shù)據(jù)預(yù)處理涉及數(shù)據(jù)格式標(biāo)準(zhǔn)化、數(shù)據(jù)變換和數(shù)據(jù)壓縮/解壓縮。映射完成數(shù)據(jù)建模,是核心。繪制完成幾何數(shù)據(jù)轉(zhuǎn)換成圖像的過程。顯示模塊按照用戶的指令進(jìn)行圖像輸出,實(shí)現(xiàn)人機(jī)交互[4]。3.1.3 個性化推送。個性化推送顧名思義就是根學(xué)習(xí)者的學(xué)習(xí)特點(diǎn)以及學(xué)習(xí)的方式自主的進(jìn)行推送能夠滿足學(xué)習(xí)者需求和個性化需求的學(xué)習(xí)資源和路徑。大數(shù)據(jù)可以通過分析學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù)、分析過學(xué)習(xí)者更加適合哪一種課程和知識,從而向?qū)W習(xí)者推薦相關(guān)的課程和知識,使得學(xué)習(xí)者能夠提高對于學(xué)習(xí)的興趣,進(jìn)而提高學(xué)習(xí)者學(xué)習(xí)的效率。3.2 學(xué)習(xí)分析典型應(yīng)用。對于學(xué)習(xí)分析來說,它的對象就是學(xué)習(xí)者及其學(xué)習(xí)的環(huán)境,最終的目的就是要發(fā)現(xiàn)問題并解決問題,進(jìn)而優(yōu)化學(xué)習(xí)者的學(xué)習(xí)[5]。可以是全部學(xué)習(xí)者的整體分析,也可以是針對某個學(xué)習(xí)者的個體分析。3.2.1 整體分析3.2.1.1 人群特征分析。從學(xué)習(xí)者的地域分布(國家、地區(qū)等)、學(xué)歷(博士、碩士、本科、中學(xué)、中學(xué)以下等)、性別(男、女)、年齡等多個方面進(jìn)行統(tǒng)計分析,從而獲得各種維度類型的學(xué)習(xí)者的數(shù)量、比率和差異分析。3.2.1.2 用戶類型分析。采集學(xué)習(xí)者注冊后的學(xué)習(xí)數(shù)據(jù),將從未進(jìn)行任何課程學(xué)習(xí)、考試、在線交流等學(xué)習(xí)活動的學(xué)習(xí)者定義為注冊者。將僅注冊課程并未完成任意課程的學(xué)習(xí)者定義為一般學(xué)習(xí)者。將注冊課程并完成任意課程的學(xué)習(xí)者,或取得任意課程考試成績證書的學(xué)習(xí)者定義為積極學(xué)習(xí)者。3.2.1.3 課程質(zhì)量分析。通過課程通過率、學(xué)習(xí)者的評價數(shù)據(jù)、課程訪問次數(shù)、課程訪問實(shí)效性等多方面的綜合分析,評估課程的質(zhì)量,便于課程的及時修訂、教學(xué)策略調(diào)整和教學(xué)過程優(yōu)化。同時,便于及時地了解到學(xué)習(xí)者對于哪一些學(xué)習(xí)資源的關(guān)注程度更高,對于哪一種學(xué)習(xí)資源的關(guān)注程度比較少,進(jìn)而有利于對于學(xué)習(xí)資源的優(yōu)化,通過這樣對于學(xué)習(xí)者關(guān)注的學(xué)習(xí)資源進(jìn)行加深,對于學(xué)習(xí)者關(guān)注程度較低的學(xué)習(xí)資源可以適當(dāng)?shù)臏p少。3.2.2 個體分析3.2.2.1 知識結(jié)構(gòu)分析。采集學(xué)習(xí)者與資源平臺的交互數(shù)據(jù),如課程完成度、測試成績、課程訪問次數(shù)等,構(gòu)造學(xué)習(xí)者的知識結(jié)構(gòu)圖,如某個知識點(diǎn)已通過測試可以判定該知識點(diǎn)已掌握,某個知識點(diǎn)還未學(xué)習(xí)完成、多次訪問并未通過測試,說明學(xué)習(xí)者可能還未完全消化這個知識點(diǎn)[6]。3.2.2.2 學(xué)習(xí)行為分析。根據(jù)學(xué)習(xí)者的注冊時間、最后登錄時間、登錄頻率、注冊課程的數(shù)量、課程視頻和課件的訪問次數(shù)、測試次數(shù)、獲得證書數(shù)量、交流互動次數(shù)、下載的課程、標(biāo)注的課程等數(shù)據(jù),對學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行分析,比如可以分析學(xué)習(xí)者的興趣愛好、學(xué)習(xí)態(tài)度等,同時可針對學(xué)習(xí)者提供相應(yīng)的合適學(xué)習(xí)資源,提高學(xué)習(xí)者的學(xué)習(xí)效率和學(xué)習(xí)興趣。3.2.2.3 學(xué)習(xí)路徑分析過。通過對于學(xué)習(xí)者的課程瀏覽情況分析以及學(xué)習(xí)路徑的分析可以充分的了解到學(xué)習(xí)者在學(xué)習(xí)的過程中的各種靜態(tài)以及動態(tài)的信息。另外通過其他的角度對于學(xué)習(xí)者的學(xué)習(xí)路徑,及學(xué)習(xí)者在學(xué)習(xí)過程中瀏覽課程頁面中所產(chǎn)生的一些數(shù)據(jù)信息進(jìn)行分析[7]。3.2.2.4 學(xué)習(xí)效果分析。通過學(xué)習(xí)者的測試考試結(jié)果,再結(jié)合學(xué)習(xí)者知識結(jié)構(gòu)和學(xué)習(xí)行為的分析,建立個性化的診斷。比如,某個學(xué)習(xí)者成績低于所有學(xué)習(xí)者成績的平均水平,可以借助數(shù)據(jù)分析,是因?yàn)橹R結(jié)構(gòu)的欠缺,還是因?yàn)閷W(xué)習(xí)行為不積極而造成的。如果是知識結(jié)構(gòu)的問題,可以向?qū)W習(xí)者推送薄弱知識點(diǎn)內(nèi)容。如果是學(xué)習(xí)不積極,可以推送學(xué)習(xí)提醒,對學(xué)習(xí)者進(jìn)行個性化的指導(dǎo)。
四、總結(jié)
大數(shù)據(jù)時代的教育資源學(xué)習(xí)分析,能夠充分地尊重學(xué)生之間的差異性,根據(jù)不同學(xué)生不同的特點(diǎn)以及學(xué)習(xí)需求,幫助學(xué)生制定個性化的學(xué)習(xí)計劃,并且對于學(xué)習(xí)者的各種的學(xué)習(xí)行為以及學(xué)習(xí)的額特點(diǎn)進(jìn)行記錄和跟蹤,最終通過數(shù)據(jù)的比對和分析,預(yù)測學(xué)習(xí)者的未來成績。同樣,學(xué)習(xí)分析作為教育領(lǐng)域的一個興新的研究方向,需要解決的問題還很多,但是筆者相信學(xué)習(xí)分析的前景是非常的美好的,隨著我國對于學(xué)習(xí)分析的研究深入以及問題的不斷解決,關(guān)注學(xué)習(xí)分析問題的社會大眾也會越來越多,所以,學(xué)習(xí)分析在不久的將來一定會得到良好的發(fā)展以及廣泛的應(yīng)用。
參考文獻(xiàn)
[1]李曼麗,張羽,葉賦桂,等.解碼MOOC[M].北京:清華大學(xué)出版社,2013:85-99.
[2]楊勁松,謝雙媛,朱偉文,方小楠.MOOC:高校知識資源整合與共享新模式[J].高等工程教育研究,2014(2):85.
[3]李艷燕,馬韶茜,黃榮懷.學(xué)習(xí)分析技術(shù):服務(wù)學(xué)習(xí)過程設(shè)計和優(yōu)化[J].開放教育研究,2012(5):18-24.
[4]陳為.數(shù)據(jù)可視化[M].北京:電子工業(yè)出版社,2013:124-399.
[5]李鳳英,齊宇歆,薛慶水.大數(shù)據(jù)視域下的虛擬學(xué)習(xí)社區(qū)安全研究[J].遠(yuǎn)程教育雜志,2013(4):76-82.
[6]曹梅.知識發(fā)現(xiàn)在網(wǎng)絡(luò)教學(xué)系統(tǒng)中的應(yīng)用研究進(jìn)展[J].開放教育研究,2008(12):89-93.
級別:統(tǒng)計源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級別:省級期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級別:省級期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級別:統(tǒng)計源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級別:省級期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫