數(shù)據(jù)挖掘技術(shù)分析論文范文

時(shí)間:2023-04-03 16:22:47

導(dǎo)語:如何才能寫好一篇數(shù)據(jù)挖掘技術(shù)分析論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

數(shù)據(jù)挖掘技術(shù)分析論文

篇1

關(guān)鍵詞 技術(shù)情報(bào)分析;數(shù)據(jù)挖掘

中圖分類號(hào)TP392 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2013)92-0211-02

1 概述

在面對(duì)海量的情報(bào)信息資源時(shí),如何高效、準(zhǔn)確的開展分析工作,為管理決策人員提供支持,已成為當(dāng)今科技工作的重要組成部分。可以說,情報(bào)分析方法和相關(guān)工具的合理使用決定了情報(bào)獲取的準(zhǔn)確性和有效性,并將直接影響制定戰(zhàn)略決策的有效性和科學(xué)性。

技術(shù)情報(bào)分析系統(tǒng)主要進(jìn)行與技術(shù)相關(guān)科技論文、專利、互聯(lián)網(wǎng)情報(bào)數(shù)據(jù)的分析,實(shí)現(xiàn)分析方法、算法、分析結(jié)果的表現(xiàn)形式以及分析報(bào)告自動(dòng)生成等技術(shù)。該情報(bào)分析系統(tǒng)除了基本的維度統(tǒng)計(jì)分析外,更多的側(cè)重于利用知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘等技術(shù)進(jìn)行情報(bào)數(shù)據(jù)的深度處理與分析。通過情報(bào)分析系統(tǒng)開發(fā)設(shè)計(jì),結(jié)合數(shù)據(jù)挖掘等技術(shù)的合理使用,使得系統(tǒng)使用者能夠快速、有效、全面地獲取技術(shù)的情報(bào)信息。

2 系統(tǒng)的設(shè)計(jì)與功能描述

2.3 數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)

2.3.1數(shù)據(jù)文本特征表示

在進(jìn)行文本挖掘時(shí),對(duì)文本特征進(jìn)行處理,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本向結(jié)構(gòu)化轉(zhuǎn)換。情報(bào)分析系統(tǒng)采用向量空間模型(Vector Space Model,VSM)進(jìn)行文本的表示,并利用倒排文檔頻率TFIDF進(jìn)行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎(chǔ)。

2.3.2關(guān)聯(lián)算法

在挖掘論文專利作者之間、機(jī)構(gòu)之間、國(guó)家之間的研究?jī)?nèi)容關(guān)聯(lián)性上,采用了基于文本挖掘的關(guān)聯(lián)算法。通過對(duì)技術(shù)關(guān)鍵詞的共生關(guān)系(Terms Co-occurrences)計(jì)算來識(shí)別、確定一組文獻(xiàn)內(nèi)部所包含的技術(shù)組(群)。

2.3.3 層次結(jié)構(gòu)可視化算法

情報(bào)分析系統(tǒng)中關(guān)于論文和專利的引證分析、專利同族分析采用了層次結(jié)構(gòu)可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結(jié)構(gòu)在雙曲空間進(jìn)行布局,然后映射到歐式空間的龐萊卡圓盤進(jìn)行顯示。歐式空間中兩個(gè)相同大小的區(qū)域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越小;反之,雙曲空間中兩個(gè)大小相同的區(qū)域離原點(diǎn)越近在龐萊卡圓盤中所占用的空間越大。

4 結(jié)論

本文提出運(yùn)用數(shù)據(jù)挖掘方法實(shí)現(xiàn)對(duì)大量數(shù)據(jù)的分析和判斷,可有效幫助科技情報(bào)機(jī)構(gòu)和人員提高綜合情報(bào)分析能力和決策的質(zhì)量。同時(shí),該方法可按照不同需要進(jìn)行功能拓展,實(shí)現(xiàn)向更多的技術(shù)情報(bào)領(lǐng)域延伸。

參考文獻(xiàn)

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(PAKDD),IOS Press出版, 2007.

[2]樂明揚(yáng).公安情報(bào)分析中的數(shù)據(jù)挖掘應(yīng)用研究.信息與電腦.2012(8).

[3]蒲群瑩.基于數(shù)據(jù)挖掘的競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型[J].情報(bào)雜志.2005,1.

篇2

關(guān)鍵詞:文本 時(shí)態(tài) 關(guān)聯(lián)規(guī)則 垂直數(shù)據(jù) 有效時(shí)間

引言

現(xiàn)代化的企業(yè)搜集了大量時(shí)態(tài)文本數(shù)據(jù),但信息超載和無結(jié)構(gòu)化,使得企業(yè)決策部門無法有效利用現(xiàn)存的信息,時(shí)態(tài)數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。目前有關(guān)時(shí)態(tài)關(guān)聯(lián)規(guī)則算法已較多,但是如果運(yùn)用到時(shí)態(tài)文本關(guān)聯(lián)規(guī)則的挖掘中則時(shí)間復(fù)雜度都太高。所以本文將對(duì)時(shí)態(tài)文本關(guān)聯(lián)規(guī)則挖掘進(jìn)行研究。

1.時(shí)態(tài)文本預(yù)處理

1.1時(shí)態(tài)文本處理

在挖掘時(shí)態(tài)文本關(guān)聯(lián)規(guī)則之前,需要先對(duì)文本進(jìn)行預(yù)處理,對(duì)英文而言需進(jìn)行Stemming處理[5],中文的情況則不同,因?yàn)橹形脑~和詞之間沒有固定的間隔,需進(jìn)行分詞處理。

對(duì)于本文研究的是醫(yī)學(xué)病毒論文數(shù)據(jù)庫,是一個(gè)英文數(shù)據(jù)庫,文本預(yù)處理的具體內(nèi)容如下:

①英文大寫換小寫(都以小寫字母表示,方便文本識(shí)別);②刪除空白記錄;③將論文信息中的標(biāo)題和摘要進(jìn)行(可以提高關(guān)鍵詞的比重,增加提取文本向量的精度);④處理時(shí)間DP列,只保留年份數(shù)字,方便提取有效時(shí)間;⑤對(duì)于記錄太多的庫,適當(dāng)拆分表格(否則在程序處理時(shí)會(huì)內(nèi)存溢出);⑥根據(jù)文本內(nèi)容提取合適的停用詞表,對(duì)文本內(nèi)容進(jìn)行去停用詞處理。

1.2 時(shí)態(tài)文本表示

在對(duì)時(shí)態(tài)文本進(jìn)行清理后,需將其進(jìn)行表示。在文本處理時(shí)我們已提取論文的發(fā)表時(shí)間,所以將時(shí)間和文本分列處理,然后將文本單獨(dú)表示。本文采用向量空間模型(VSM,Vector Space Model)進(jìn)行表示[6]。

2.時(shí)態(tài)關(guān)聯(lián)規(guī)則算法概述

以前的算法不能有效應(yīng)用到時(shí)態(tài)文本數(shù)據(jù)庫中,主要原因有:1)這些算法計(jì)算時(shí)時(shí)間復(fù)雜度仍太高。2)沒有考慮每個(gè)獨(dú)立文本項(xiàng)各自存在的有效時(shí)間;3)每個(gè)項(xiàng)目缺少一個(gè)合理的可以浮動(dòng)的支持度數(shù)。所以本文根據(jù)時(shí)態(tài)事件模型及Apriori原則,本文在快速更新算法思想上產(chǎn)生新的算法:SPFM(Segment-Progressive-Filter-Miner)

該算法主要包括三步:1.數(shù)據(jù)庫不斷更新;2.對(duì)數(shù)據(jù)庫按不同時(shí)間段進(jìn)行劃分;3.對(duì)每個(gè)時(shí)間段的事務(wù)集挖掘頻繁項(xiàng)集。拆分后的數(shù)據(jù)庫,每個(gè)階段部分有不同的支持度閾值,我們按不同的支持度閾值進(jìn)行計(jì)算來產(chǎn)生候選項(xiàng)集。

SPFM算法主要有三個(gè)特點(diǎn):1)算法預(yù)處理時(shí)將文本數(shù)據(jù)轉(zhuǎn)換成垂直數(shù)據(jù)格式,可大大提高程序效率;2)在挖掘時(shí)態(tài)數(shù)據(jù)庫的頻繁項(xiàng)集時(shí),通過更新不同時(shí)間粒度的支持度數(shù)來確定頻繁項(xiàng)集,并判斷頻繁項(xiàng)集在時(shí)間粒度上的連續(xù)性;3)如2)所述,時(shí)態(tài)數(shù)據(jù)庫是和時(shí)間粒度有關(guān)的,那么從時(shí)態(tài)數(shù)據(jù)庫挖掘出的關(guān)聯(lián)規(guī)則也應(yīng)該是和時(shí)間粒度有關(guān)的,即存在“有效時(shí)間”,本算法引入一種判斷機(jī)制,使得發(fā)現(xiàn)的有效時(shí)間是由頻繁項(xiàng)集本身決定的,最終我們獲得的是一組浮動(dòng)的“有效時(shí)間”。

3.實(shí)驗(yàn)測(cè)試

為了測(cè)試SPFM的算法性能,用Visual C++進(jìn)行編程。對(duì)象為醫(yī)學(xué)病毒論文數(shù)據(jù)庫中1970~2010年間約50萬條的記錄,每條記錄的屬性包括fileno(論文標(biāo)號(hào))、TI(標(biāo)題)、AB(摘要)、DP(發(fā)表時(shí)間)等。以“年”作為時(shí)間粒度,將數(shù)據(jù)庫劃分為40個(gè)階段部分。minsup為0.5‰,minconf為35%,然后進(jìn)行頻繁項(xiàng)集的挖掘,并確定每個(gè)頻繁項(xiàng)集的有效時(shí)間,依次循環(huán)直至2010年為止。

比如rous(含鐵血黃素)和sarcoma(1979年、1981年、1983年),都是強(qiáng)關(guān)聯(lián)規(guī)則,且COS判斷值為0.8165>0.5,說明該規(guī)則有意義,這兩者在1979~1983年是一個(gè)共同研究熱點(diǎn),它們之間有可能存在一些密切的聯(lián)系,在醫(yī)學(xué)上也可以深入研究。

通過對(duì)醫(yī)學(xué)文本數(shù)據(jù)庫的挖掘,我們挖掘出上百條時(shí)態(tài)文本關(guān)聯(lián)規(guī)則,從這些規(guī)則當(dāng)中我們能得到近40年學(xué)者們對(duì)病毒研究的規(guī)律以及病毒的發(fā)展規(guī)律,這些規(guī)律會(huì)是對(duì)以往病毒研究的較好總結(jié),也會(huì)有助于更有效地治療已產(chǎn)生的病毒。

在文本數(shù)據(jù)挖掘技術(shù)已經(jīng)日漸成熟的背景下,把時(shí)態(tài)數(shù)據(jù)與文本挖掘聯(lián)合起來,可將時(shí)態(tài)文本數(shù)據(jù)挖掘應(yīng)用于醫(yī)學(xué)、經(jīng)營(yíng)、管理等各個(gè)方面,通過對(duì)海量的時(shí)態(tài)文本數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,為管理者做決策提供參考數(shù)據(jù);還能為新的經(jīng)營(yíng)模式提供目標(biāo)和思路,減少盲目性,以獲得更大利益。

4.結(jié)束語

本文提出了對(duì)醫(yī)學(xué)病毒論文數(shù)據(jù)庫中的時(shí)態(tài)文本如何進(jìn)行預(yù)處理,需先將時(shí)間和文本分為不同的列,將文本表示為向量空間模型。然后確實(shí)頻繁項(xiàng)集的有效時(shí)間,將文本數(shù)據(jù)轉(zhuǎn)換成垂直數(shù)據(jù)格式,再通過新的算法挖掘頻繁項(xiàng)集,最后對(duì)時(shí)態(tài)文進(jìn)行強(qiáng)關(guān)聯(lián)規(guī)則的挖掘。該實(shí)驗(yàn)是對(duì)時(shí)態(tài)文本進(jìn)行預(yù)處理后再進(jìn)行關(guān)聯(lián)規(guī)則挖掘的,最后驗(yàn)證了該算法的有效性。

參考文獻(xiàn):

[1] 潘定.持續(xù)時(shí)態(tài)數(shù)據(jù)挖掘及其實(shí)現(xiàn)機(jī)制[M].北京:經(jīng)濟(jì)科學(xué)出版社,2008:36

作者簡(jiǎn)介:

張春燕(1987- ),女,碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘;

篇3

關(guān)鍵詞 大數(shù)據(jù);CiteSpace;教育

中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:B

文章編號(hào):1671-489X(2016)18-0069-03

Abstract The advent of the era of big data has brought new vitality

and challenges for educational research. This paper uses bibliometric visualization software Cite Space to analyze thesis with key words data and education from CNKI based on Co-occurrence analysis of keywords, explore the hot issues in the field of educational research, summarize the research status and trends.

Key words big data; CiteSpace; education

1 引言

近年來,教育領(lǐng)域研究者開始關(guān)注大數(shù)據(jù)背景下的教育管理模式轉(zhuǎn)變、教育決策研究等內(nèi)容,大量基于大數(shù)據(jù)背景的教育領(lǐng)域研究論文逐年增加。以“大數(shù)據(jù)”“教育”為主題關(guān)鍵詞在CNKI中國(guó)知網(wǎng)進(jìn)行搜索,僅選擇SCI、EI、中文核心、CSSCI四類來源期刊截止到2015年12月出版的文獻(xiàn),共檢索到417條數(shù)據(jù),從2010年開始呈現(xiàn)出逐年上升的趨勢(shì)。對(duì)這些文章進(jìn)行瀏覽和篩選,選擇與本研究主題相關(guān)的論文,共247篇。對(duì)這247篇文章的關(guān)鍵詞信息進(jìn)行研究,分析大數(shù)據(jù)的出現(xiàn)對(duì)教育領(lǐng)域研究熱點(diǎn)及發(fā)展趨勢(shì)的影響。

2 教育領(lǐng)域熱點(diǎn)問題研究知識(shí)圖譜

CiteSpace軟件是一款引文可視化分析軟件,著眼于分析科學(xué)知識(shí)中蘊(yùn)含的潛在信息,通過可視化的手段呈現(xiàn)科學(xué)知識(shí)的結(jié)構(gòu)、規(guī)律和分布情況[1],能對(duì)文獻(xiàn)進(jìn)行作者分析、關(guān)鍵詞共現(xiàn)分析、機(jī)構(gòu)分析、作者共被引分析、文獻(xiàn)共被引分析等。關(guān)鍵詞共現(xiàn)分析是一種內(nèi)容分析技術(shù),通過分析在同一個(gè)文本主題中的款目對(duì)(單詞或名詞短語對(duì))共同出現(xiàn)的形式,確認(rèn)文本所代表的學(xué)科領(lǐng)域中相關(guān)主題的關(guān)系,進(jìn)而探索分析學(xué)科領(lǐng)域的發(fā)展,發(fā)現(xiàn)學(xué)科的研究熱點(diǎn)和研究趨勢(shì)[2]。

使用CiteSpace軟件對(duì)下載的文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)分析,生成圖1所示關(guān)鍵詞共現(xiàn)知識(shí)圖譜,分析大數(shù)據(jù)的出現(xiàn)對(duì)教育領(lǐng)域研究熱點(diǎn)和趨勢(shì)的影響。關(guān)鍵詞出現(xiàn)的頻次由圓圈代表的節(jié)點(diǎn)反映,圓圈越大,表明關(guān)鍵詞出現(xiàn)次數(shù)越多,最大圓圈代表的關(guān)鍵詞是“大數(shù)據(jù)”。

根據(jù)圖1得到表1所示文獻(xiàn)關(guān)鍵詞、被引頻次、中心性等指標(biāo)數(shù)據(jù)。中心性代表共現(xiàn)程度的高低,中心性越強(qiáng),表明該關(guān)鍵詞與其他關(guān)鍵詞共同出現(xiàn)的幾率就越大,也就表示該關(guān)鍵詞在共現(xiàn)網(wǎng)絡(luò)中的影響力越大。從知識(shí)理論角度分析,頻次和中心性高的關(guān)鍵詞一般是某一段時(shí)期內(nèi)研究者共同關(guān)注的問題,也就是研究的熱點(diǎn)和前沿。表1中,“大數(shù)據(jù)”是頻次最高也是中心性最高的關(guān)鍵詞;“學(xué)習(xí)分析”頻次為23,中心性為0.22;“數(shù)據(jù)挖掘”頻次為13,中心性為0.15,等等這些都是熱門的研究主題。

3 大數(shù)據(jù)背景下教育領(lǐng)域的熱點(diǎn)研究

依據(jù)圖1和表1所示結(jié)果,將大數(shù)據(jù)背景下教育領(lǐng)域的熱點(diǎn)研究總結(jié)為以下幾個(gè)方面。

學(xué)習(xí)分析和數(shù)據(jù)挖掘 教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在教育領(lǐng)域的新型應(yīng)用,主要目標(biāo)為知識(shí)發(fā)現(xiàn)、決策支持和推薦等。學(xué)習(xí)分析是測(cè)量、搜集、分析和報(bào)告學(xué)生及其相關(guān)的學(xué)習(xí)環(huán)境的數(shù)據(jù),用以理解和優(yōu)化學(xué)習(xí)過程和學(xué)習(xí)環(huán)境[3]。

教育數(shù)據(jù)挖掘?qū)W⒂诩夹g(shù)層面,側(cè)重教育數(shù)據(jù)模型和模式的抽取,強(qiáng)調(diào)挖掘結(jié)果的自動(dòng)化反饋;學(xué)習(xí)分析更注重研究有利于改善學(xué)習(xí)的干預(yù)措施。

2012年,美國(guó)教育部了報(bào)告《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》[4],提出“數(shù)據(jù)驅(qū)動(dòng)學(xué)校,分析變革教育”的大數(shù)據(jù)時(shí)代已經(jīng)來臨,要綜合運(yùn)用教育數(shù)據(jù)挖掘和學(xué)習(xí)分析,構(gòu)建教育模型,探索教育變量,為教育教學(xué)提供有效支持。

在CNKI中以“學(xué)習(xí)分析”和“教育數(shù)據(jù)挖掘”為關(guān)鍵詞進(jìn)行檢索,得到圖2所示的文獻(xiàn)數(shù)量趨勢(shì)圖。如圖2所示,2010年以前的文獻(xiàn)數(shù)量很少,但2010年之后開始呈指數(shù)式增長(zhǎng);2016年1―2月份刊登的相關(guān)主題期刊論文已有5篇,可以預(yù)計(jì)本年度,學(xué)習(xí)分析和數(shù)據(jù)挖掘仍將是大數(shù)據(jù)背景下教育領(lǐng)域的研究重點(diǎn)和熱點(diǎn)之一。

在線教育――興起與變革 以“在線教育”和“大數(shù)據(jù)”為關(guān)鍵詞進(jìn)行搜索,得到圖3所示文獻(xiàn)數(shù)量趨勢(shì)圖。目前在線學(xué)習(xí)的發(fā)展趨勢(shì)主要有如下表現(xiàn)。

1)移動(dòng)學(xué)習(xí)是大方向:隨著無線網(wǎng)絡(luò)的覆蓋,移動(dòng)終端特別是手機(jī)用戶的增多,移動(dòng)學(xué)習(xí)逐漸發(fā)展起來。

2)免費(fèi)是大趨勢(shì):目前在線學(xué)習(xí)存在各式各樣的免費(fèi)現(xiàn)象,如免費(fèi)試用、前期付費(fèi)后期免費(fèi)等形式。

3)細(xì)化管理是要求:任何一種在線學(xué)習(xí)方式,都離不開資源開發(fā)、管理和優(yōu)化等工作,需要設(shè)定管理要求,細(xì)化規(guī)則。

4)實(shí)現(xiàn)互動(dòng)是必然:交互功能是在線學(xué)習(xí)軟件必然要設(shè)計(jì)的功能,大多數(shù)在線學(xué)習(xí)使用者表示學(xué)習(xí)過程中希望能有更多的互動(dòng)交流。

5)個(gè)性化學(xué)習(xí)是亮點(diǎn):學(xué)習(xí)分析和教育數(shù)據(jù)挖掘的出現(xiàn),使得在線學(xué)習(xí)存儲(chǔ)的大量數(shù)據(jù)能夠被更快速分析和使用,學(xué)習(xí)者可以隨時(shí)掌握學(xué)習(xí)狀況,開發(fā)商也可以掌握學(xué)習(xí)者的興趣點(diǎn)、學(xué)習(xí)特征等,為學(xué)習(xí)者推薦或制訂個(gè)性化的學(xué)習(xí)方案。

教育信息化 我國(guó)的教育信息化主要包含兩層含義:一是把提高信息素養(yǎng)納入教育目標(biāo),培養(yǎng)適應(yīng)信息社會(huì)的人才;二是把信息技術(shù)手段有效應(yīng)用于教育,注重教育信息資源的開發(fā)與利用。教育信息化的核心是教學(xué)信息化,要求在教育過程中較全面地運(yùn)用現(xiàn)代信息技術(shù),促進(jìn)教育改革,適應(yīng)信息化社會(huì)提出的新要求,深化教育改革,實(shí)施素質(zhì)教育。隨著大數(shù)據(jù)時(shí)代的來臨,教育信息化也在不斷進(jìn)步,未來的教育信息化將在教育云平臺(tái)上進(jìn)行展現(xiàn),現(xiàn)有的教育網(wǎng)、校園網(wǎng)將全面升級(jí),實(shí)現(xiàn)互聯(lián)網(wǎng)、電信網(wǎng)、廣電網(wǎng)等跨平臺(tái)使用并支持移動(dòng)設(shè)備。

在CNKI中以“教育信息化”和“大數(shù)據(jù)”為關(guān)鍵詞進(jìn)行檢索,2013年共有3篇學(xué)術(shù)論文,2015年共有10篇,研究主題包括大數(shù)據(jù)時(shí)代的信息化教學(xué)、教師培訓(xùn)、課程資源建設(shè)、教育輿情監(jiān)控等。

教育決策 以“教育決策”為關(guān)鍵詞搜索到上千篇學(xué)術(shù)論文,以“教育決策”和“大數(shù)據(jù)”為關(guān)鍵詞,2013年以來共有8篇論文。大數(shù)據(jù)將在教育決策中發(fā)揮越來越重要的作用已成為共識(shí),但如何利用大數(shù)據(jù)進(jìn)行決策是目前面臨的難題,如何解決這個(gè)難題也是研究者重點(diǎn)關(guān)注的領(lǐng)域。教育決策離不開數(shù)據(jù),大數(shù)據(jù)背景下的數(shù)據(jù)更加復(fù)雜、凌亂,呈現(xiàn)碎片化的特征,并且摻雜一些虛假數(shù)據(jù),如何收集、選擇數(shù)據(jù),是第一步需要做的事情。大數(shù)據(jù)對(duì)于教育決策的價(jià)值在于為教育服務(wù),將數(shù)據(jù)轉(zhuǎn)化為支持決策的信息,需要數(shù)據(jù)分析者具備綜合、全面的數(shù)據(jù)分析素質(zhì)和能力。大數(shù)據(jù)的核心是預(yù)測(cè),隨著教育信息化和在線學(xué)習(xí)的持續(xù)發(fā)展,數(shù)據(jù)呈爆炸式增長(zhǎng),需要對(duì)數(shù)據(jù)進(jìn)行整合、分析,發(fā)現(xiàn)新知識(shí),為教育優(yōu)化服務(wù)。

4 數(shù)據(jù)推動(dòng)決策

傳統(tǒng)決策過程主要依靠決策者的經(jīng)驗(yàn),主觀性較強(qiáng),或多或少存在一些不足,難以充分發(fā)現(xiàn)教育過程中的潛在問題,無法真正有效地優(yōu)化教學(xué)、提高學(xué)生表現(xiàn)。信息化推動(dòng)了人類發(fā)展,逐漸成為人類生活必不可少的重要部分;信息化技術(shù)普及的同時(shí),也產(chǎn)生前所未有的海量數(shù)據(jù)。大數(shù)據(jù)時(shí)代的來臨,顛覆了傳統(tǒng)數(shù)據(jù)分析方法;大數(shù)據(jù)背景

下,利用數(shù)據(jù)挖掘方法發(fā)現(xiàn)問題、支持決策具有多方面的意義。

1)優(yōu)化教學(xué)、提高教育質(zhì)量。教師若能充分利用學(xué)生學(xué)習(xí)數(shù)據(jù),分析學(xué)生學(xué)習(xí)過程,可以更加快速、便捷、有效地了解學(xué)生,發(fā)現(xiàn)不足之處并及時(shí)反饋,提供改進(jìn)意見等[5]。

2)為學(xué)校管理者制訂更加合理的教學(xué)計(jì)劃和方案提供決策支持。基于數(shù)據(jù)的教育決策能夠?yàn)楣芾碚咛峁└訙?zhǔn)確、合理的決策支持。基于數(shù)據(jù)的教育決策能夠提供從數(shù)據(jù)到?jīng)Q策,實(shí)施決策后產(chǎn)生的數(shù)據(jù)再到?jīng)Q策的一種良性循環(huán)過程[6]。

3)幫助地區(qū)甚至是國(guó)家級(jí)決策者進(jìn)行科學(xué)判斷。數(shù)據(jù)推動(dòng)決策具有相當(dāng)明顯的優(yōu)勢(shì),能為決策者提供全方位的視角。大數(shù)據(jù)分析得到的結(jié)果具有全面性、多視角性、參考性強(qiáng)等特點(diǎn),能夠更好地為決策者提供決策支持。

5 結(jié)語

上文所分析出的教育領(lǐng)域熱點(diǎn)研究問題,都緊緊圍繞“數(shù)據(jù)推動(dòng)決策”這一主題,學(xué)習(xí)分析和教育挖掘是分析方法和技術(shù);在線教育是數(shù)據(jù)來源;教育信息化是信息化大數(shù)據(jù)環(huán)境;教育決策則是根據(jù)數(shù)據(jù)制定決策并運(yùn)用于教育教學(xué)。可見,利用數(shù)據(jù)推動(dòng)決策已成為教育領(lǐng)域在大數(shù)據(jù)背景下最為重要的研究問題之一。

參考文獻(xiàn)

[1]陳悅,陳超美,胡志剛.引文空間分析原理與應(yīng)用:Cite Space實(shí)用指南[M].北京:科學(xué)出版社,2014.

[2]潘黎,王素.近十年來教育研究的熱點(diǎn)領(lǐng)域和前沿主題:基于八種教育學(xué)期刊2000-2009年刊載文獻(xiàn)關(guān)鍵詞共現(xiàn)知識(shí)圖譜的計(jì)量分析[J].教育研究,2011(2):47-53.

[3]Siemens G. Learning and Knowledge Analytics-Knewton-the future of education?[EB/OL].[2011-04-17].http:///?p=126.

[4]Enhancing Teaching and Learning through Educational Data Mining and Learning Analytics[DB/OL].[2012-10-12].http://ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.

篇4

關(guān)鍵詞:推薦系統(tǒng);云計(jì)算;數(shù)據(jù)挖掘;個(gè)性化

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10,3969/J.issn.1003-6970.2013.03.001

本文著錄格式:[1]郭平,劉波,沈岳,農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述[J].軟件,2013,34(3):1-6

0 引言

隨著物聯(lián)網(wǎng)、云計(jì)算、下一代互聯(lián)網(wǎng)等新一代信息技術(shù)的快速發(fā)展和信息內(nèi)容的日益增長(zhǎng),“信息過載”問題愈來愈嚴(yán)重,推薦系統(tǒng)(recommender systems)被認(rèn)為可以有效的緩解此難題,幫助用戶從海量數(shù)據(jù)中發(fā)現(xiàn)感興趣信息,滿足個(gè)性化需求。

近年來,我國(guó)在農(nóng)業(yè)個(gè)性化知識(shí)服務(wù)服務(wù)領(lǐng)域從本體論、語義網(wǎng)、知識(shí)工程角度開展了廣泛的研究,成果主要體現(xiàn)在三個(gè)方面:以搜索引擎為代表的知識(shí)檢索系統(tǒng),需回答大量預(yù)設(shè)問題進(jìn)行知識(shí)推理的專家系統(tǒng),特定領(lǐng)域應(yīng)用系統(tǒng),它們?cè)诟髯缘膱?chǎng)合都發(fā)揮了積極作用。然而知識(shí)檢索系統(tǒng)不能滿足用戶個(gè)性化需求,專家系統(tǒng)的應(yīng)用很難普及,特定領(lǐng)域應(yīng)用開發(fā)成本高和重用難度大。物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)提供知識(shí)服務(wù)云實(shí)現(xiàn)物理世界的“感知控”,知識(shí)服務(wù)云的研究主要集中在制造和圖書情報(bào)領(lǐng)域,云環(huán)境下的農(nóng)業(yè)個(gè)性化知識(shí)服務(wù)的研究尚處于起步階段,主要集中在服務(wù)模式的構(gòu)建與展望。

本文是對(duì)科技部科技支撐課題“農(nóng)村農(nóng)業(yè)信息化關(guān)鍵技術(shù)集成與示范”(2011BAD21803)與“農(nóng)村物聯(lián)網(wǎng)綜合信息服務(wù)科技工程”(2012BAD35800)研究成果的總結(jié),也是對(duì)農(nóng)業(yè)云推薦系統(tǒng)研究的升華。

1 農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送的提出

1.1 農(nóng)業(yè)信息資源特點(diǎn)

我國(guó)自“十一五”時(shí)期以來,農(nóng)業(yè)農(nóng)村信息化發(fā)展取得了顯著成效,主要表現(xiàn)在農(nóng)業(yè)農(nóng)村信息化基礎(chǔ)設(shè)施不斷完善、業(yè)務(wù)應(yīng)用深入發(fā)展、物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)中逐步推廣應(yīng)用等方面。從中央到省,市、縣建立了“三農(nóng)”綜合信息服務(wù)平臺(tái),涉農(nóng)企業(yè)、組織和科研院所也積極搭建了各具特色的農(nóng)業(yè)信息服務(wù)平臺(tái),目前正向鄉(xiāng)鎮(zhèn)村發(fā)展。農(nóng)村信息員隊(duì)伍及以農(nóng)業(yè)綜合信息服務(wù)站和農(nóng)業(yè)合作社為代表的農(nóng)村信息服務(wù)機(jī)構(gòu)發(fā)展迅速,“三電合一”、“農(nóng)民信箱”、“農(nóng)村熱線”等信息服務(wù)模式應(yīng)用深入。云計(jì)算利用海量的存儲(chǔ)能力把農(nóng)業(yè)信息資源形成高度集成和虛擬化的計(jì)算資源一“農(nóng)業(yè)知識(shí)聚合云”,支持用戶在任意位置、使用各種終端方便獲取信息,但由于農(nóng)業(yè)領(lǐng)域生態(tài)區(qū)域性和過程復(fù)雜性及農(nóng)業(yè)區(qū)域發(fā)展不平衡和農(nóng)民文化的多層次性也帶來了“信息過載”、“資源隱晦”“資源迷向”等問題。

1.2 農(nóng)業(yè)云環(huán)境下大數(shù)據(jù)自組織區(qū)域推送

物聯(lián)網(wǎng)和云計(jì)算背后是大數(shù)據(jù),在云計(jì)算模式下,用戶不確定的、智能的交互,個(gè)性化需求更加多元化,信息交互行為更加頻繁;在大量用戶通過社會(huì)標(biāo)注達(dá)成共識(shí)的過程中,逐漸形成不同社區(qū),涌現(xiàn)出群體智能,形成“農(nóng)業(yè)用戶興趣社交云”。利用云的海量存儲(chǔ)、群體涌現(xiàn)智能、強(qiáng)大的計(jì)算能力和物聯(lián)網(wǎng)感知控優(yōu)勢(shì),可以提供面向用戶復(fù)雜分析計(jì)算,實(shí)現(xiàn)業(yè)務(wù)重點(diǎn)由面向應(yīng)用和資源的傳統(tǒng)信息服務(wù),轉(zhuǎn)變?yōu)榛趯?duì)海量農(nóng)業(yè)知識(shí)進(jìn)行動(dòng)態(tài)劃分,有目的、主動(dòng)、定制、自組織推送給有需求的農(nóng)業(yè)用戶,為農(nóng)業(yè)用戶提供實(shí)時(shí)性、個(gè)性化知識(shí)服務(wù),指導(dǎo)農(nóng)業(yè)生產(chǎn)過程。

首先以Hadoop+MapReduce+HBaSe分布式框架為處理平臺(tái),對(duì)“農(nóng)業(yè)用戶興趣社交云”,融合用戶興趣偏好和社交網(wǎng)絡(luò)進(jìn)行建模,將這些多元用戶信息充分融入推送系統(tǒng)會(huì)更好產(chǎn)生推薦結(jié)果;將推薦對(duì)象“農(nóng)業(yè)知識(shí)聚合云”按農(nóng)業(yè)知識(shí)高維性、多樣性、多層次性特征分類聚類為各種知識(shí)塊靜態(tài)和動(dòng)態(tài)元數(shù)據(jù);通過智能算法推薦和社會(huì)網(wǎng)絡(luò)推薦為用戶發(fā)現(xiàn)個(gè)性化內(nèi)容;根據(jù)用戶的地理位置、用戶服務(wù)的評(píng)價(jià)以及云基礎(chǔ)服務(wù)提供商信息將預(yù)測(cè)值最高的服務(wù)推送給用戶實(shí)現(xiàn)與物理世界的互動(dòng)(如圖1)。

從以上分析可知,農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送的關(guān)鍵技術(shù)有用戶興趣模型、推薦對(duì)象模型,推薦算法、數(shù)據(jù)挖掘四個(gè)部分,以下分別對(duì)這幾項(xiàng)技術(shù)進(jìn)行論述。

1.2.1 用戶興趣模型

用戶興趣建模是個(gè)性化服務(wù)技術(shù)的基礎(chǔ)和核心,包括數(shù)據(jù)收集、模型表示、模型學(xué)習(xí)與模型更新。用戶興趣建模的方法有很多,常用的有向量空間模型、神經(jīng)網(wǎng)絡(luò)、遺傳算法、用戶一項(xiàng)目評(píng)價(jià)矩陣、基于案例的表示、基于本體論的表示、基于加權(quán)關(guān)鍵詞的表示,基于社會(huì)網(wǎng)絡(luò)的表示等。幾乎每種表示形式都是以一種私有形式進(jìn)行知識(shí)表示,此外一些表示技術(shù)還依賴于模型學(xué)習(xí),如廣泛使用的基于向量空間模型的表示與TF-IDF學(xué)習(xí)技術(shù)聯(lián)系在一起。表示形式的私有性和對(duì)學(xué)習(xí)技術(shù)的依賴性阻礙了用戶模型在系統(tǒng)間的共享,這種共享對(duì)于減少用戶建模工作量,提高推薦算法啟動(dòng)效率具有重要意義。因此開發(fā)獨(dú)立于模型學(xué)習(xí)技術(shù)的通用用戶模型表示技術(shù)是目前研究中熱點(diǎn),基于語義網(wǎng)和社交網(wǎng)絡(luò)的用戶模型在這方面表現(xiàn)了優(yōu)勢(shì)。

用戶的興趣或需求會(huì)隨時(shí)間、情景發(fā)生變化,結(jié)合長(zhǎng)期和短期興趣及興趣的變化用戶興趣建模的重點(diǎn),目前的更新機(jī)制很難及時(shí)跟蹤用戶興趣的變化,有更好的學(xué)習(xí)效率和動(dòng)態(tài)變化適應(yīng)能力的建模是未來的重要研究方向,國(guó)內(nèi)外大量的文獻(xiàn)對(duì)此展開了研究,遺忘函數(shù)、時(shí)間窗、用戶興趣的漂移特性等被提出。

在湖南農(nóng)業(yè)云中,基于呼叫中心、互聯(lián)網(wǎng),手機(jī)報(bào)、手機(jī)短信,電視廣播等用戶在多應(yīng)用系統(tǒng)中形成的興趣偏好和社交網(wǎng)絡(luò)特征,提出“農(nóng)業(yè)用戶興趣社交云”建模思路:以圖論模型表示用戶“興趣圖”數(shù)據(jù)和“社交圖”數(shù)據(jù),根據(jù)經(jīng)典的局域世界演化理論,綜合考慮實(shí)際情況中用戶之間的多重關(guān)系和關(guān)系的強(qiáng)弱程度,以用戶之間相似度為節(jié)點(diǎn)連接概率因素,生成動(dòng)態(tài)多維網(wǎng)絡(luò),進(jìn)行用戶數(shù)據(jù)的挖掘和更新;結(jié)合農(nóng)業(yè)本體,在多維社交網(wǎng)絡(luò)的基礎(chǔ)上,將基于農(nóng)業(yè)本體的區(qū)域用戶興趣融合在云計(jì)算平臺(tái)上進(jìn)行處理。

1.2.2 推薦對(duì)象模型

推薦本質(zhì)上是將推薦對(duì)象的特征與用戶的興趣偏好進(jìn)行推薦計(jì)算,所以推薦對(duì)象的描述和用戶的描述密切相關(guān)。推薦系統(tǒng)應(yīng)用不同領(lǐng)域,它推薦的對(duì)象也就各不相同,目前,湖南農(nóng)業(yè)云主要是文本性數(shù)據(jù);不同的對(duì)象,特征也不相同,目前沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來進(jìn)行統(tǒng)一描述,主要有基于內(nèi)容、分類、聚類的方法。

基于內(nèi)容的方法是從對(duì)象本身抽取信息表示對(duì)象,常見的是向量空間模型,使用最廣泛的是加權(quán)關(guān)鍵詞矢量方法進(jìn)行特征選取,使用TFIDF計(jì)算每個(gè)特征的權(quán)值。向量空間模型對(duì)模型中的特征詞進(jìn)行權(quán)重估計(jì)(TF-IDF)過程中不考慮特征詞之間的相關(guān)性,直接用特征詞作為維度構(gòu)建文檔向量,降低了文檔向量對(duì)文檔概念表達(dá)的準(zhǔn)確性以及對(duì)不同類型文檔的區(qū)分能力。

基于分類的方法是把推薦對(duì)象放入不同類別,把同類文檔推薦給對(duì)該類文檔感興趣的用戶。主要有兩種,一種是基于知識(shí)工程的方法,使專家的類別知識(shí)直接編碼為分類規(guī)則,正確率和召回率高,但工作量大;近期研究最多的是另一種一機(jī)器學(xué)習(xí),根據(jù)訓(xùn)練樣本集建立分類器,方法有很多,常見的有概率分類、貝葉斯回歸分析、決策樹分類器、決策規(guī)則分類器、Rocchio分類器、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(jī)(SVM)、分類器融合、Boosting分類器、k最近鄰方法(KNN)等。

研究文本聚類的最初目的是為了提高信息檢索的查全率和查準(zhǔn)率,近年來,文本聚類用于自動(dòng)產(chǎn)生文本的多層次的類,并利用這些新生成的類對(duì)新文本進(jìn)行效率較好的歸類,已經(jīng)提出了大量的文本聚類算法。傳統(tǒng)的聚類算法在處理高維和海量文本時(shí)效率不很理想。針對(duì)這樣的問題,將聚類分析與計(jì)算智能理論,并行計(jì)算、云計(jì)算等相結(jié)合,設(shè)計(jì)出高效的并行聚類算法,己經(jīng)成為一個(gè)比較流行的研究思路。

在湖南農(nóng)業(yè)知識(shí)云數(shù)據(jù)模型中,將能更好反映特征詞相關(guān)性的超圖模型引入,將文檔中提取的特征項(xiàng)表示為圖中節(jié)點(diǎn),特征詞條之間的關(guān)系構(gòu)成圖中邊,用邊上權(quán)值表示相關(guān)聯(lián)特征項(xiàng)之間共現(xiàn)程度。通過對(duì)文本圖模型K最近鄰劃分實(shí)現(xiàn)降維降噪的粗粒度數(shù)據(jù)切片;對(duì)切片后數(shù)據(jù)反映用戶興趣如地域、時(shí)間、訴求等多維度特征的智能聚類,實(shí)現(xiàn)細(xì)粒度的聚合與分割。

“農(nóng)業(yè)知識(shí)聚合云”模型算法建立在基于MapReduce處理的大規(guī)模圖上,得到各種知識(shí)塊靜態(tài)和動(dòng)態(tài)元數(shù)據(jù)。

1.2.3 推薦算法

推薦算法是整個(gè)推薦系統(tǒng)中核心部分,大量的論文和著作都關(guān)注了這個(gè)方面。目前,基本包括以下幾種:基于內(nèi)容過濾推薦、協(xié)同過濾推薦、基于關(guān)聯(lián)推薦、基于知識(shí)推薦、基于效用推薦、基于網(wǎng)絡(luò)結(jié)構(gòu)推薦、基于聚類推薦、基于社會(huì)網(wǎng)絡(luò)分析推薦、混合型推薦等。通過對(duì)眾多推薦算法進(jìn)行比較分析,各種算法都有優(yōu)缺點(diǎn)(如表1):

各種推薦方法都有各自的優(yōu)缺點(diǎn),在實(shí)際問題中采用多種策略進(jìn)行混合推薦,主要有兩種混合思路:推薦結(jié)果混合和推薦算法混合。目前大部分的推薦算法都是混合推薦算法,主要還是以協(xié)同理論為核心,再配合其他算法的優(yōu)點(diǎn)或交叉學(xué)科的理論來改善推薦的質(zhì)量。另外基于社會(huì)網(wǎng)絡(luò)個(gè)性化推薦算法研究是一個(gè)趨勢(shì),基于社會(huì)網(wǎng)絡(luò)的推薦是協(xié)同過濾的延伸,通過考察結(jié)點(diǎn)之間(用戶和用戶之間或產(chǎn)品之間)的相關(guān)性和結(jié)點(diǎn)之間的信任度可以獲得比一般協(xié)同推薦更高推薦效果,如文獻(xiàn)提出將社會(huì)網(wǎng)絡(luò)關(guān)系結(jié)合到推薦算法中。縱觀國(guó)內(nèi)外在推薦算法上的研究,主要集中在基于用戶顯性評(píng)分?jǐn)?shù)據(jù)的協(xié)同過濾算法上,對(duì)基于非顯性評(píng)分行為數(shù)據(jù)場(chǎng)景下的研究卻顯得有點(diǎn)不足。目前在擴(kuò)展性問題上學(xué)術(shù)研究不是很具有針對(duì)性,主要集中在通過各種交叉學(xué)科中的方法來對(duì)用戶進(jìn)行聚類或?qū)π袨閿?shù)據(jù)進(jìn)行降維、壓縮等縮短推薦的項(xiàng)目集或減少計(jì)算量,從而提升算法的性能;有關(guān)基于云平臺(tái)上的推薦算法研究目前主要集中于協(xié)同過濾算法MapReduce化。而實(shí)際應(yīng)用中,己出現(xiàn)利用分布式集群解決算法擴(kuò)展性方法,如Google News的推薦算法就是部署在分布式環(huán)境下,從而滿足海量數(shù)據(jù)下的推薦服務(wù)。

根據(jù)農(nóng)業(yè)云大數(shù)據(jù)自組織區(qū)域推送實(shí)際情況將推薦結(jié)果和推薦算法混合,提出“三層推薦”策略:在豐富的知識(shí)塊云元數(shù)據(jù)基礎(chǔ)上,將知識(shí)塊屬性和用戶興趣行為基于頻繁模式的知識(shí)關(guān)聯(lián)撮合推薦;通過復(fù)雜網(wǎng)絡(luò)聚類算法識(shí)別一個(gè)用戶多個(gè)社區(qū)興趣,融合“興趣圖”和“社交圖”協(xié)同過濾推薦,突破算法推薦的局限性,讓用戶信任的朋友圈子為其發(fā)現(xiàn)和推薦內(nèi)容,取得社交推薦的時(shí)效性和算法推薦的長(zhǎng)尾性之間的互補(bǔ),從而針對(duì)每個(gè)社區(qū)成員提供精準(zhǔn)個(gè)性化推薦;根據(jù)基礎(chǔ)設(shè)施服務(wù)供應(yīng)商、用戶所在的地理位置以及用戶對(duì)服務(wù)可用性評(píng)價(jià)值的相似性等,將大量用戶云終端聚類為一定數(shù)量的社區(qū),提高云端推送服務(wù)的有效性,最終形成通過大眾參與,支持云間變換,集電信網(wǎng)、廣播電視網(wǎng)、互聯(lián)網(wǎng)合一的自組織區(qū)域推送,較有效地處理一般推薦算法中存在的稀疏性、冷啟動(dòng)以及大規(guī)模實(shí)時(shí)計(jì)算的問題。

1.2.4 云計(jì)算下個(gè)性化數(shù)據(jù)挖掘

數(shù)據(jù)挖掘采用了多種領(lǐng)域中的思想,包括來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)、假設(shè)檢驗(yàn)以及人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。隨著數(shù)據(jù)挖掘的不斷發(fā)展,也采用了包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號(hào)處理、可視化、信息檢索、云計(jì)算、并行計(jì)算等技術(shù)。與傳統(tǒng)的數(shù)據(jù)挖掘相比,云計(jì)算下的個(gè)性化數(shù)據(jù)挖掘的目標(biāo),就是通過云計(jì)算中心,向用戶提供針對(duì)其即時(shí)演化需求的數(shù)據(jù)挖掘SaaS(Software as aService,軟件即服務(wù))服務(wù),其基礎(chǔ)問題主要為:對(duì)于用戶不同的數(shù)據(jù)挖掘需求以及針對(duì)用戶特點(diǎn)進(jìn)行個(gè)性推薦的建模和表征;數(shù)據(jù)挖掘算法適應(yīng)云計(jì)算的并行分布式化;使數(shù)據(jù)挖掘的結(jié)果和算法能夠支持云間變換并形成一種面向用戶、即時(shí)組合的、變粒度的云服務(wù),其中數(shù)據(jù)挖掘的云服務(wù)化是研究的難點(diǎn)。

(1)云計(jì)算下個(gè)性推薦的建模和表征

云下的個(gè)性推薦建模和表征與傳統(tǒng)上個(gè)性化推薦明顯的不同在于海量異構(gòu)大數(shù)據(jù)和用戶間群體涌現(xiàn)的社交網(wǎng)絡(luò),它們本質(zhì)上形成了多個(gè)頂點(diǎn)的大規(guī)模圖。云計(jì)算可以為大規(guī)模個(gè)性化提供技術(shù)支撐,云服務(wù)本身也有大規(guī)模個(gè)性化定制應(yīng)用需求,目前研究?jī)烧呓Y(jié)合的文獻(xiàn)還很少,張澤華從計(jì)算資源的角度基于復(fù)雜系統(tǒng)理論對(duì)云計(jì)算聯(lián)盟體系結(jié)構(gòu)進(jìn)行建模,并基于蟻群優(yōu)化算法和復(fù)雜系統(tǒng)理論進(jìn)行了負(fù)載均衡研究;郭昱就有效處理客戶需求信息該如何選擇與分布云計(jì)算平臺(tái)中的關(guān)鍵節(jié)點(diǎn)問題,提出了基于云計(jì)算的大規(guī)模定制客戶需求模型。趙東杰對(duì)復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘與群體智能有效結(jié)合進(jìn)行了探索研究。農(nóng)業(yè)云大數(shù)據(jù)自組織推送通過“農(nóng)業(yè)知識(shí)聚合云”分解的靜態(tài)、動(dòng)態(tài)知識(shí)元數(shù)據(jù)和“農(nóng)業(yè)用戶興趣社交云”形成的興趣圖、社交圖基于用戶行為和知識(shí)元數(shù)據(jù)的關(guān)聯(lián)撮合,通過人工智能和社交圈子幫助用戶發(fā)現(xiàn)內(nèi)容,實(shí)現(xiàn)搜索和推薦的無縫結(jié)合,為智能個(gè)性化推薦實(shí)現(xiàn)“內(nèi)容找人”愿景。

(2)算法并行分布式與高性能計(jì)算

對(duì)于大規(guī)模數(shù)據(jù)的處理,典型系統(tǒng)結(jié)構(gòu)大致分為三類:基于MapReduce模型的分布式并行處理系統(tǒng)、基于BSP模型的分布式并行處理系統(tǒng)和分布式圖數(shù)據(jù)庫系統(tǒng)。數(shù)據(jù)挖掘算法現(xiàn)在的發(fā)展趨勢(shì)是基于云計(jì)算的并行數(shù)據(jù)挖掘,它的同一個(gè)算法可以分布在多個(gè)節(jié)點(diǎn)上,多個(gè)算法之間是并行的,多個(gè)資源實(shí)行按需分配,而且分布式計(jì)算模型采用云計(jì)算模式,數(shù)據(jù)用DFS或者HBASE,編程模式采用MapReduce這種方式。Bhaduri等整理了一個(gè)十分詳盡的并行數(shù)據(jù)挖掘算法文獻(xiàn)目錄,包含了關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類、流數(shù)據(jù)挖掘四大類分布式數(shù)據(jù)挖掘算法,同時(shí)還包括分布式系統(tǒng)、隱私保護(hù)等相關(guān)的研究工作。

2 基于云計(jì)算推薦系統(tǒng)研究的重點(diǎn)、難點(diǎn)與熱點(diǎn)

2.1 云環(huán)境下用戶偏好獲取安全與可信問題

推薦系統(tǒng)中,用戶數(shù)據(jù)集的數(shù)量和質(zhì)量問題,影響用戶模型的精確度、可用性,導(dǎo)致問題的根本原因在于用戶對(duì)隱私和安全的考慮。而云環(huán)境下,數(shù)據(jù)的安全與隱私是用戶非常關(guān)心的問題。既能得到準(zhǔn)確用戶信息而提高推薦系統(tǒng)性能,又能有效保護(hù)用戶信息同時(shí)檢測(cè)并能預(yù)防推薦攻擊(一些不法的用戶為了提高或降低某些對(duì)象的推薦概率,惡意捏造用戶評(píng)分?jǐn)?shù)據(jù)而達(dá)到目的)將是未來推薦系統(tǒng)的一個(gè)重要研究方向。

2.2 模型過擬合問題

過擬合現(xiàn)象是指系統(tǒng)推薦給用戶的對(duì)象與用戶剛剛看過的不是太相似或者太不相關(guān)。過擬合(過學(xué)習(xí))的問題本質(zhì)上來自于數(shù)據(jù)的不完備性,這在實(shí)際應(yīng)用中是無法完全避免的。在于興趣偏好獲取方式或隱私等原因使用戶沒有對(duì)足夠多類別的對(duì)象進(jìn)行評(píng)價(jià)。目前解決的主要方法是引入隨機(jī)性,使推薦算法收斂到全局最優(yōu)或者逼近全局最優(yōu),關(guān)于既要保證推薦的多樣性,又不能與用戶看過的對(duì)象重復(fù)或毫不相關(guān)這一問題的研究是推薦系統(tǒng)研究的一個(gè)難點(diǎn)和重點(diǎn)。

2.3 稀疏性與冷啟動(dòng)問題

稀疏性和冷啟動(dòng)問題困擾推薦系統(tǒng)很長(zhǎng)時(shí)間了,前者的解決辦法主要過濾和降維。目前針對(duì)冷啟動(dòng)問題提出了一些解決方法,主要分為兩大方面,一是直接利用傳統(tǒng)協(xié)同過濾的評(píng)分?jǐn)?shù)據(jù)結(jié)合特定的方法進(jìn)行解決,二是新用戶或新項(xiàng)目的內(nèi)容屬性信息與傳統(tǒng)的協(xié)同過濾評(píng)分?jǐn)?shù)據(jù)相結(jié)合的方法進(jìn)行改善冷啟動(dòng)問題。稀疏性與冷啟動(dòng)問題一直是推薦系統(tǒng)研究的一個(gè)難點(diǎn)和重點(diǎn)。

2.4 數(shù)據(jù)挖掘的結(jié)果和算法智能服務(wù)化

將數(shù)據(jù)挖掘算法融入針對(duì)海量用戶的使用記錄和計(jì)算資源間協(xié)作進(jìn)行優(yōu)化組合,利用這些特性通過大眾參與的交互作用,提高云間服務(wù)的智能性、有效性將是大數(shù)據(jù)時(shí)代推薦系統(tǒng)研究的一個(gè)制高點(diǎn)。將數(shù)據(jù)挖掘任務(wù)及其實(shí)現(xiàn)算法服務(wù)化,通過SaaS方式向云計(jì)算中心索取所需的相應(yīng)的數(shù)據(jù)挖掘,這可能是目前突破數(shù)據(jù)挖掘?qū)S密浖褂瞄T檻過高、普通大眾難以觸及、企業(yè)用戶使用成本太大、挖掘算法和結(jié)果難以實(shí)時(shí)得到評(píng)價(jià)和相應(yīng)修改等問題的最有希望的解決方案之一,也是數(shù)據(jù)挖掘走向互聯(lián)網(wǎng)大眾、走向?qū)嵱没闹匾囊徊健?/p>

2.5 大數(shù)據(jù)處理與增量計(jì)算問題

目前對(duì)大數(shù)據(jù)的研究仍處于一個(gè)非常初步的階段,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)給傳統(tǒng)的數(shù)據(jù)分析帶來巨大挑戰(zhàn),尤其算法如何快速高效地處理推薦系統(tǒng)海量和稀疏的數(shù)據(jù)成為迫在眉睫的問題。當(dāng)產(chǎn)生新的數(shù)據(jù)時(shí),算法的結(jié)果不需要在整個(gè)數(shù)據(jù)集上重新進(jìn)行計(jì)算,而只需考慮增量部分,對(duì)原有的結(jié)果進(jìn)行微調(diào),快速得到準(zhǔn)確的新結(jié)果,是增量計(jì)算的理想狀態(tài)。但一般而言,隨著信息量的增多,算法的誤差會(huì)累積變大,最終每過一段時(shí)間還是需要利用全局?jǐn)?shù)據(jù)重新進(jìn)行計(jì)算。一個(gè)特別困難的挑戰(zhàn)是如何設(shè)計(jì)一種能夠保證其誤差不會(huì)累積的算法,也就是說其結(jié)果與利用全部數(shù)據(jù)重新計(jì)算的結(jié)果之間的差異不會(huì)單調(diào)上升,要達(dá)到這種程度,還有很長(zhǎng)的路要走。

結(jié)束語:

隨著新一代信息技術(shù)的快速發(fā)展和信息內(nèi)容的日益增長(zhǎng),搭載在云計(jì)算平臺(tái)的自組織區(qū)域推送具有它天然的優(yōu)勢(shì):云的海量存儲(chǔ)使得推薦系統(tǒng)能有效獲取訓(xùn)練數(shù)據(jù);云的分布式計(jì)算能力提供了較高的響應(yīng)能力;海量用戶的使用記錄和計(jì)算資源問大眾參與的交互涌現(xiàn),最終形成自組織優(yōu)化組合的智能個(gè)性化云推送。因此,農(nóng)業(yè)云自組織區(qū)域推送具有重要的研究意義和廣闊的應(yīng)用前景,對(duì)云環(huán)境下其他領(lǐng)域的個(gè)性化推送應(yīng)用具有借鑒意義,但目前存在大量問題需要進(jìn)行深入細(xì)致的研究。

參考文獻(xiàn)

[1]孟祥武,胡勛,王立才,張玉潔,移動(dòng)推薦系統(tǒng)及其應(yīng)用[J],軟件學(xué)報(bào),2013,24(1):91-108

[2]楊濤,基于本體的農(nóng)業(yè)領(lǐng)域知識(shí)服務(wù)若干關(guān)鍵技術(shù)研究[D],上海:復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院博士論文,2011,1-50

[3]楊曉蓉,分布式農(nóng)業(yè)科技信息共享關(guān)鍵技術(shù)研究與應(yīng)用[D],北京:中國(guó)農(nóng)業(yè)科學(xué)院博士學(xué)位論文,2011,3-35

[4]趙春江,農(nóng)業(yè)智能系統(tǒng)[M],北京:科學(xué)出版社,2009,1-210,

[5]何清,物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J],智能系統(tǒng)學(xué)報(bào),2012,7(3):1-5,

[6]黃衛(wèi)東,于瑞強(qiáng),共享學(xué)習(xí)模式下知識(shí)服務(wù)云平臺(tái)的構(gòu)建研究[J],電信科學(xué),2011,12:6-11

[7]丁靜,楊善林,羅賀,丁帥,云計(jì)算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J],計(jì)算機(jī)科學(xué),2012,39(6):217-219,237

[8]鄧仲華,錢劍紅,陸穎雋,國(guó)內(nèi)圖書情報(bào)領(lǐng)域云計(jì)算研究分析[J],信息資源管理學(xué)報(bào),2012,2:10-16

[9]胡安瑞,張霖,陶飛,羅永亮,基于知識(shí)的云制造資源服務(wù)管理[J]同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,40(7):1093-1101

[10]程功勛,劉麗蘭,林智奇,俞濤,面向用戶偏好的智能云服務(wù)平臺(tái)研究[J],中國(guó)機(jī)械工程,2012,23(11):1318-1323,1336

[11]劉波,方逵,沈岳,可重構(gòu)的農(nóng)業(yè)知識(shí)服務(wù)模式研究[J]農(nóng)機(jī)化研究,2011,36(11):66-70

[12]趙星,廖桂平,史曉慧,陳誠,李文圃,物聯(lián)網(wǎng)與云計(jì)算環(huán)境下的農(nóng)業(yè)信息服務(wù)模式構(gòu)建[J],農(nóng)機(jī)化研究,2012,4:142-147

[13]郭永田,中國(guó)農(nóng)業(yè)農(nóng)村信息化發(fā)展成效與展望[J],電子政務(wù),2012,02-03:99-106

[14]李道亮,中國(guó)農(nóng)業(yè)農(nóng)村信息化發(fā)展報(bào)告(2011)[M],北京:電子工業(yè)出版,2012,87-150

[15]錢平,鄭業(yè)魯,農(nóng)業(yè)木體論研究與應(yīng)用[M],北京:中國(guó)農(nóng)業(yè)科學(xué)技術(shù)出版社,2006,1-100

[16]吳麗花,劉魯,個(gè)性化推薦系統(tǒng)用戶建模技術(shù)綜述[J],情報(bào)學(xué)報(bào),2006,25(2):55-62

[17]李珊,個(gè)性化服務(wù)中用戶興趣建模與更新研究[J],情報(bào)學(xué)報(bào),2010,29(1):67-71

[18]王國(guó)霞,劉賀平,個(gè)性化推薦系統(tǒng)綜述[J],計(jì)算機(jī)工程與應(yīng)用,2012,48(7):66-76

[19]王巧容,趙海燕,曹健,個(gè)性化服務(wù)中的用戶建模技術(shù)[J],小型微型計(jì)算機(jī)系統(tǒng),2011,32(1):39-46

軟件雜志歡迎推薦投稿:http:///

[20]張華清,動(dòng)態(tài)多維社會(huì)網(wǎng)絡(luò)中個(gè)性化推薦方法研究[D],濟(jì)南:山東師范大學(xué)碩士學(xué)位論文,2012,16-31

[21]丹,面向跨系統(tǒng)個(gè)性化服務(wù)的用戶建模方法研究[J]_情報(bào)雜志,2012,31(6):156-161

[22]鄧夏瑋,基于社交網(wǎng)絡(luò)的用戶行為研究[D],北京:北京交通大學(xué)碩士學(xué)位論文,2012,4-43

[23]馬堯,基于多維用戶特征建模的個(gè)性化社交搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D],廣州:華南理工大學(xué)碩士學(xué)位論文,2012,12-55

[24]陳恩紅,徐童,田繼雷,楊禹,移動(dòng)情景感知的個(gè)性化推薦技術(shù)[J],中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2013,9(3):19-24

[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487

[26]南智敏,錢松榮,引入漂移特性的用戶興趣模型優(yōu)化研究[J],微型電腦應(yīng)用,2012,28(3):30-32

[27]郭新明,弋改珍,混合模型的用戶興趣漂移算法[J],智能系統(tǒng)學(xué)報(bào),2010,5(2):181-184

[28]程顯毅,朱倩,文本挖掘原理[M],北京:科學(xué)出版社,2010,9-45 [29]李濤,推薦系統(tǒng)中若干關(guān)鍵問題研究[D],南京:南京航空航天大學(xué)博士學(xué)位論文,2009,31-80

[30]姜倫,模糊聚類算法及其在中文文本聚類中的研究與實(shí)現(xiàn)[D],哈爾濱:哈爾濱理工大學(xué)碩士學(xué)位論文,2010,18-48

[31]馮汝偉,謝強(qiáng),丁秋林,基于文本聚類與分布式Lucene的知識(shí)檢索[J],計(jì)算機(jī)應(yīng)用,2013,33(1):186-188

[32]陶紅,周永梅,高尚,一種基于語義相似度的群智能文本聚類的新方法[J]計(jì)算機(jī)應(yīng)用研究,2012,29(2):482-532

[33]孟海東,劉小榮,基于聚類分析的圖模型文檔分類[J]計(jì)算機(jī)應(yīng)用與軟件,2012,29(1):117-174,229

[34]饒君,張仁波,東呈曉,吳斌,基于MapReduce的大規(guī)模圖挖掘并行計(jì)算模型[J],應(yīng)用科技,2012,39(3):56-60

[35]于戈,谷峪,鮑玉斌,王志剛,云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J],計(jì)算機(jī)學(xué)報(bào),2011,34(10):1753-1767

[36]呂善國(guó),吳效葵,曹義親,基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J]_實(shí)驗(yàn)室研究與探索,2012,31(7):278-280,368

[37]周佳,羅鐵堅(jiān),一種基于內(nèi)容關(guān)聯(lián)的學(xué)術(shù)資源協(xié)同推薦算法[J],中國(guó)科學(xué)院研究生院學(xué)報(bào),2013,30(1):117-123

[38]唐曉波,張昭,基于混合圖的在線社交網(wǎng)絡(luò)個(gè)性化推薦系統(tǒng)研究[J]情報(bào)理論與實(shí)踐,2013,36(2):91-95

[39]王立才,孟祥武,張玉潔,上下文感知推薦系統(tǒng)[J],軟件學(xué)報(bào),2012,23(1):1-20

[40]劉建國(guó),周濤,汪秉宏,個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J],自然科學(xué)通報(bào),2009,19(1):1-15

[41]許海玲,吳瀟,李曉東,閻保平,互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]軟件學(xué)報(bào),2009,20(2):350-362

[42]孫冬婷,何濤,張福海,推薦系統(tǒng)中的冷啟動(dòng)問題研究綜述[J],計(jì)算機(jī)與現(xiàn)代化,2012,5:59-63

[43]張亮,基于聚類技術(shù)的推薦算法研究[D],成都:電子科技大學(xué)碩士學(xué)位論文,2012,7-18

[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.

[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.

[46]周源,基于云計(jì)算的推薦算法研究[D],成都:電子科技大學(xué)碩士學(xué)位論文,2012,26-64

[47]呂雪驥,基于云計(jì)算平臺(tái)的智能推薦系統(tǒng)研究[D],合肥:安徽大學(xué)碩士學(xué)位論文,2012,25-43

[48]劉晨,改進(jìn)的聚類挖掘算法對(duì)網(wǎng)絡(luò)自助出版“長(zhǎng)尾”文本的推薦應(yīng)用[D],上海:復(fù)旦大學(xué)碩士學(xué)位論文,2011,10-19

[49]陳桂生,張海粟,劉玉超,云計(jì)算下的個(gè)性化數(shù)據(jù)挖掘服務(wù)[EB/OL],[2011-2-28]中國(guó)人工智能學(xué)會(huì)通訊,http://www,/contents/50/119,html

[50]張澤華,云計(jì)算聯(lián)盟建模及實(shí)現(xiàn)的關(guān)鍵技術(shù)研究[D],昆明:云南大學(xué)博士學(xué)位論文,2012,26-114

[51]郭昱,吳清烈,基于云計(jì)算的大規(guī)模定制客戶需求響應(yīng)模型及其節(jié)點(diǎn)的選擇與分布[J],系統(tǒng)工程理論與實(shí)踐,2011,31(增刊2):1-6

[52]趙東杰,張海粟,韓言妮,楊海濤,何宇,基于網(wǎng)絡(luò)化數(shù)據(jù)挖掘的群體智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.

[53]AnandRajaraman,Jeffrey David Ullman著,王斌譯,互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M],北京:人民郵電出版社,2012,1-253

[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/

[55]楊健,汪海航,王劍,俞定國(guó),云計(jì)算安全問題研究綜述[J],小型微型計(jì)算機(jī)系統(tǒng),2012,33(3):472-479

篇5

關(guān)鍵詞:LIMS,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘

 

1 引言

食用菌實(shí)驗(yàn)室管理系統(tǒng)LIMS以食用菌研發(fā)數(shù)據(jù)管理為核心,系統(tǒng)利用數(shù)據(jù)倉庫技術(shù)將菌種、營(yíng)養(yǎng)環(huán)境參數(shù)、試驗(yàn)方案、研發(fā)人員、海量實(shí)驗(yàn)數(shù)據(jù)等信息進(jìn)行抽取清洗和存儲(chǔ),采用數(shù)據(jù)挖掘技術(shù)對(duì)以上各類數(shù)據(jù)進(jìn)行分析。目的在于整合應(yīng)用HACCP控制體系,對(duì)產(chǎn)品研發(fā)過程進(jìn)行智能化監(jiān)控。通過對(duì)工廠化研發(fā)食用菌產(chǎn)品的各項(xiàng)關(guān)鍵技術(shù)、風(fēng)險(xiǎn)評(píng)估、比較執(zhí)行度等參數(shù)進(jìn)行管理和監(jiān)控,實(shí)現(xiàn)食用菌產(chǎn)品研發(fā)管理流程過程管理目標(biāo)。

美國(guó)試驗(yàn)與材料學(xué)會(huì)(ASTM)在概念模型中將LIMS的功能分成了3個(gè)級(jí)別。三個(gè)不同等級(jí)在全局功能、數(shù)據(jù)庫結(jié)構(gòu)、數(shù)據(jù)采集和分析、實(shí)驗(yàn)報(bào)告、實(shí)驗(yàn)室管理以及系統(tǒng)管理方面都有明確規(guī)定的描述。

國(guó)內(nèi)真正構(gòu)建和全面應(yīng)用LIMS的實(shí)驗(yàn)室還不多,且大部分偏重于管理,其功能與LIMS國(guó)際標(biāo)準(zhǔn)存在較大差別,系統(tǒng)通用性與專業(yè)性無法平衡,不能滿足食用菌實(shí)驗(yàn)室研發(fā)數(shù)據(jù)管理的需要。國(guó)內(nèi)部分單位開發(fā)的食用菌方面的軟件可以幫助實(shí)驗(yàn)室處理一般數(shù)據(jù)和轉(zhuǎn)換格式,但缺少對(duì)食用菌實(shí)驗(yàn)室的實(shí)驗(yàn)流程、實(shí)驗(yàn)資源、研發(fā)數(shù)據(jù)、實(shí)驗(yàn)結(jié)果等全方位信息進(jìn)行管理分析的網(wǎng)絡(luò)化LIMS。

2 相關(guān)技術(shù)介紹

目前關(guān)于農(nóng)作物研發(fā)實(shí)驗(yàn)數(shù)據(jù)分析領(lǐng)域主要分成兩類:具有人工智能特點(diǎn)的推理機(jī)系統(tǒng)和一般的信息系統(tǒng)。前者通常需要預(yù)先建立知識(shí)庫,然后在此基礎(chǔ)上創(chuàng)建知識(shí)原型系統(tǒng)。這樣的專家系統(tǒng)存在很多不足,一方面它們僅能羅列一些簡(jiǎn)單知識(shí),而且隨著專家知識(shí)的不斷積累,增加或者修改庫中的知識(shí)都會(huì)引起知識(shí)大爆炸和推理時(shí)的邏輯混亂,使得產(chǎn)生錯(cuò)誤的結(jié)論而失去了專家系統(tǒng)的意義。一般的信息系統(tǒng)系統(tǒng)則只能提供咨詢服務(wù)和信息查詢,沒有數(shù)據(jù)分析和建模的功能。將數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)用到食用菌LIMS中,實(shí)現(xiàn)實(shí)驗(yàn)參數(shù)的電子化管理和監(jiān)控,幫助發(fā)現(xiàn)食用菌實(shí)驗(yàn)數(shù)據(jù)內(nèi)部的規(guī)律性聯(lián)系,解決實(shí)驗(yàn)過程管理和決策優(yōu)化輔助問題。

數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對(duì)應(yīng)[1]。數(shù)據(jù)倉庫的典型技術(shù)包括:數(shù)據(jù)的抽取轉(zhuǎn)換和裝載,數(shù)據(jù)的存儲(chǔ)和管理,數(shù)據(jù)挖掘和呈現(xiàn)等等。

2.1 數(shù)據(jù)的抽取轉(zhuǎn)換和裝載

用于數(shù)據(jù)挖掘的原始數(shù)據(jù)源可能是多個(gè)數(shù)據(jù)庫或數(shù)據(jù)倉庫,而這些數(shù)據(jù)源的結(jié)構(gòu)和規(guī)則可能是不同的,這將導(dǎo)致原始數(shù)據(jù)非常雜亂和不可用,即使在同一個(gè)數(shù)據(jù)庫中,也很可能存在重復(fù)的和不完整的數(shù)據(jù)信息,為了使這些數(shù)據(jù)能夠符合數(shù)據(jù)挖掘的要求,提高效率和得到清晰的結(jié)果,必須進(jìn)行數(shù)據(jù)的預(yù)處理[2]。ETL過程就是對(duì)原始數(shù)據(jù)進(jìn)行抽取轉(zhuǎn)換清洗等預(yù)處理,按照預(yù)定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)裝載至數(shù)據(jù)倉庫中。

2.2 數(shù)據(jù)的存儲(chǔ)和管理

數(shù)據(jù)倉庫在數(shù)據(jù)存儲(chǔ)和管理上有三個(gè)明顯的技術(shù)特征:首先,系統(tǒng)要求對(duì)大量數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。其從,要求能夠解決并發(fā)處理的問題,也就是說能夠?qū)⒂脩舻恼?qǐng)求進(jìn)行均衡分擔(dān)。第三個(gè)問題是針對(duì)決策支持查詢的優(yōu)化。第四個(gè)問題是支持多維分析的查詢模式。數(shù)據(jù)倉庫專家們發(fā)現(xiàn),關(guān)系數(shù)據(jù)庫若采用“星型模式”來組織數(shù)據(jù)就能很好地解決多維分析的問題[3]。因此面向決策支持?jǐn)U充的并行關(guān)系數(shù)據(jù)庫在這四個(gè)個(gè)方面都有不錯(cuò)的表現(xiàn),是非常成熟的管理系統(tǒng),大多數(shù)廠商提供的數(shù)據(jù)倉庫解決方案也都采用此類系統(tǒng)[3]。

2.3 數(shù)據(jù)呈現(xiàn)和挖掘

數(shù)據(jù)呈現(xiàn)技術(shù)主要集中在多維分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面。食用菌分析應(yīng)用中一個(gè)很重要的任務(wù)就是找出食用菌培育各困素之問可能存在的相關(guān)性,利用分類決策樹、關(guān)聯(lián)規(guī)則、時(shí)間序列算法來創(chuàng)建分析模型[4]。通過前臺(tái)分析工具,將查詢報(bào)表、統(tǒng)計(jì)分析、多維聯(lián)機(jī)分析和數(shù)據(jù)發(fā)掘的結(jié)論展現(xiàn)在用戶面前。

3系統(tǒng)設(shè)計(jì)

3.1 功能設(shè)計(jì)及模塊詳述

系統(tǒng)包括如下業(yè)務(wù)功能模塊:試驗(yàn)方案管理、研發(fā)過程管理、食用菌CCP管理、風(fēng)險(xiǎn)管理、發(fā)菌管理、出菇管理、基本信息管理模塊。如圖1所示。

圖1 功能結(jié)構(gòu)圖

現(xiàn)針對(duì)上述結(jié)構(gòu)圖,分別對(duì)功能模塊作詳細(xì)描述。

(1)試驗(yàn)方案管理

該模塊用于工廠化研發(fā)食用菌產(chǎn)品試驗(yàn)方案的管理。每個(gè)試驗(yàn)方案創(chuàng)建時(shí),系統(tǒng)會(huì)自動(dòng)分配方案的唯一標(biāo)志號(hào),為以后查詢、修改方案提供方便。試驗(yàn)方案中的詳細(xì)數(shù)據(jù)項(xiàng)可為系統(tǒng)其他模塊如發(fā)菌管理、出菇管理、智能決策、警提供數(shù)據(jù)來源。

HACCP定義數(shù)據(jù)包括:

(2)研發(fā)過程管理

該模塊以食用菌研發(fā)周期為基礎(chǔ),對(duì)食用菌研發(fā)管理的各個(gè)流程全程記錄,準(zhǔn)確的實(shí)現(xiàn)產(chǎn)品溯源,提高產(chǎn)品研發(fā)過程的質(zhì)量管理。通過與HACCP系統(tǒng)有效整合應(yīng)用,用戶能夠?qū)ο到y(tǒng)所定義的食用菌的栽培過程中的每個(gè)特性值進(jìn)行采集、分析,實(shí)現(xiàn)對(duì)企業(yè)技術(shù)中心各部門、各試驗(yàn)實(shí)施環(huán)節(jié)運(yùn)行情況的監(jiān)測(cè)。具體包括數(shù)據(jù)采集、曲線圖表、歷史查詢、報(bào)表統(tǒng)計(jì)、報(bào)警監(jiān)視、培養(yǎng)料配置、帶裝滅菌、接種管理、發(fā)菌期管理、出菇管理、采收管理等

(3)菌種生產(chǎn)管理

菌種生產(chǎn)管理用于食用菌菌種生產(chǎn)計(jì)劃和菌種生產(chǎn)的過程管理,輔助實(shí)現(xiàn)菌種規(guī)范化、標(biāo)準(zhǔn)化生產(chǎn),有效提高菌種質(zhì)量。

其中菌種生產(chǎn)計(jì)劃HACCP數(shù)據(jù)定義包括:母種、原種、栽培種培養(yǎng)基的選擇、配制,包括配方選擇和培養(yǎng)基配制記錄,其中涉及日期、培養(yǎng)料級(jí)別、配方原料種類、數(shù)量、總數(shù)量(瓶/kg)、制備負(fù)責(zé)人、驗(yàn)收結(jié)果、驗(yàn)收人、對(duì)不合格的處理措施)等主要內(nèi)容。

滅菌消毒操作HACCP數(shù)據(jù)包括:滅菌方式的選擇,如常壓滅菌/高壓蒸汽滅菌。不同的焙養(yǎng)基選擇不同的壓力指標(biāo)、滅菌時(shí)間、滅菌形成溫度。滅菌消毒記錄表:涉及日期/滅菌設(shè)備號(hào)/物品名/數(shù)量/操作人/檢驗(yàn)結(jié)果/檢驗(yàn)人。論文參考。

菌種培養(yǎng)作HACCP數(shù)據(jù)包括:涉及日期、菌種名、種類、數(shù)量、培養(yǎng)室編號(hào)、檢驗(yàn)依據(jù)、檢查情況等。

(4)風(fēng)險(xiǎn)管理

本模塊在檢測(cè)各項(xiàng)關(guān)鍵技術(shù)因素的基礎(chǔ)上,比較執(zhí)行情況與其原始方案的差異,從而進(jìn)行合理的技術(shù)風(fēng)險(xiǎn)評(píng)估,推算出與之相關(guān)的研發(fā)栽培措施,及時(shí)調(diào)配研發(fā)人員,體現(xiàn)了強(qiáng)大的交互功能。

① 風(fēng)險(xiǎn)評(píng)估:將已識(shí)別的技術(shù)風(fēng)險(xiǎn)因素,通過執(zhí)行情況與原始方案的差異比較,利用一定評(píng)估方法計(jì)算出風(fēng)險(xiǎn)的大小,并分析風(fēng)險(xiǎn)因素的敏感性(或稱影響度),最終以風(fēng)險(xiǎn)評(píng)估報(bào)告的形式呈現(xiàn)給用戶。

②應(yīng)對(duì)方案:根據(jù)風(fēng)險(xiǎn)的大小即可確定技術(shù)風(fēng)險(xiǎn)的嚴(yán)重性,根據(jù)嚴(yán)重性風(fēng)險(xiǎn)排序,即可制訂風(fēng)險(xiǎn)應(yīng)對(duì)方案,決定下一步任務(wù),及時(shí)調(diào)配技術(shù)人員解決問題。有些技術(shù)風(fēng)險(xiǎn)與其他風(fēng)險(xiǎn)緊密相關(guān)或交叉重疊,需要綜合分析和處理;有些技術(shù)風(fēng)險(xiǎn)還需進(jìn)一步跟蹤研究,待時(shí)機(jī)成熟再加以控制。在制訂應(yīng)對(duì)方案時(shí),通過風(fēng)險(xiǎn)影響度分析,將影響度高的風(fēng)險(xiǎn)因素作為風(fēng)險(xiǎn)控制的核心。

③ 風(fēng)險(xiǎn)追蹤:通過技術(shù)風(fēng)險(xiǎn)跟蹤,可以監(jiān)視技術(shù)風(fēng)險(xiǎn)狀態(tài).當(dāng)技術(shù)風(fēng)險(xiǎn)超過需控制的標(biāo)準(zhǔn),即通過預(yù)警功能,進(jìn)入制訂風(fēng)險(xiǎn)應(yīng)對(duì)方案階段。

④報(bào)警處理:對(duì)研發(fā)過程中出現(xiàn)的報(bào)警記錄及時(shí)進(jìn)行處理

⑤ 風(fēng)險(xiǎn)數(shù)據(jù)庫構(gòu)建:該模塊用于管理食用菌研發(fā)過程各項(xiàng)環(huán)節(jié)中各項(xiàng)風(fēng)險(xiǎn)知識(shí),包括創(chuàng)建、存儲(chǔ)、修改、刪除等功能。其中知識(shí)存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)和知識(shí)獨(dú)立性是實(shí)現(xiàn)關(guān)鍵。

(5)基本信息管理

該模塊用于人員及產(chǎn)品信息管理,為管理層提供便捷的信息服務(wù),提高管理服務(wù)效率。包括:公司信息管理、部門信息管理、人員信息管理、產(chǎn)品信息管理、角色管理、系統(tǒng)模塊訪問權(quán)限控制。

3.2 技術(shù)架構(gòu)設(shè)計(jì)

食用菌LIMS技術(shù)架構(gòu)設(shè)計(jì)的基本原則包括兼容性、靈活性、充分考慮與其它業(yè)務(wù)管理子系統(tǒng)的銜接和擴(kuò)展,為未來進(jìn)一步的系統(tǒng)應(yīng)用整合打好基礎(chǔ)。 鑒于上述原則,系統(tǒng)從技術(shù)架構(gòu)上可以劃分為四個(gè)層次:數(shù)據(jù)層、控制訪問層、業(yè)務(wù)邏輯層和用戶呈現(xiàn)層。論文參考。如圖2所示:

圖2 技術(shù)架構(gòu)設(shè)計(jì)

數(shù)據(jù)層的設(shè)計(jì)目標(biāo)是解決數(shù)據(jù)的保存和管理問題。其中,數(shù)據(jù)庫中數(shù)據(jù)表的設(shè)計(jì)是該層需要考慮的核心和關(guān)鍵,如何從現(xiàn)實(shí)業(yè)務(wù)邏輯中抽象出易于系統(tǒng)處理的數(shù)據(jù),從而降低各平臺(tái)間的數(shù)據(jù)關(guān)聯(lián)性,減少數(shù)據(jù)關(guān)聯(lián)性,降低模塊耦合度。該層的配置包括:DTS配置、數(shù)據(jù)對(duì)象配置和Analysis Service配置。

控制訪問層由數(shù)據(jù)庫基礎(chǔ)組件和配置文件組成,配置數(shù)據(jù)庫層訪問的參數(shù)、性能、安全加密等配置,包括數(shù)據(jù)訪問模塊、數(shù)據(jù)分析模塊、圖表匯出模塊。

用戶層根據(jù)不同的業(yè)務(wù)類別調(diào)用下層的邏輯組件,最后對(duì)業(yè)務(wù)邏輯組件的調(diào)用結(jié)果進(jìn)行處理。該層由多個(gè)業(yè)務(wù)模塊組成,包括: 分析結(jié)果顯示模塊、圖表控制模塊。

5 結(jié)語:

本項(xiàng)目將食用菌產(chǎn)品研發(fā)管理的全部流程納入到軟件層次進(jìn)行管理。對(duì)工廠化研發(fā)食用菌產(chǎn)品的各項(xiàng)關(guān)鍵技術(shù)、風(fēng)險(xiǎn)評(píng)估、比較執(zhí)行度等參數(shù)進(jìn)行管理和監(jiān)控。利用構(gòu)建的軟件平臺(tái)可以直接查詢數(shù)據(jù),進(jìn)行食用菌試驗(yàn)方案的追蹤溯源。論文參考。本項(xiàng)目使食用菌產(chǎn)品研發(fā)與管理技術(shù)研究信息化系統(tǒng)得以與HACCP系統(tǒng)有效地進(jìn)行整合應(yīng)用,系統(tǒng)采用自行研發(fā)的報(bào)表統(tǒng)計(jì)分析系統(tǒng),能夠?qū)Ω鞣N數(shù)據(jù)實(shí)時(shí)匯總到系統(tǒng)。不僅能為企業(yè)管理者提供相關(guān)的決策信息,達(dá)到實(shí)時(shí)監(jiān)控整個(gè)企業(yè)技術(shù)研發(fā)的穩(wěn)定高效開展,達(dá)到輔助決策的目的,而且可以動(dòng)用管理決策相關(guān)的數(shù)學(xué)方法和技術(shù)進(jìn)行決策優(yōu)化,為各級(jí)技術(shù)研發(fā)管理層提供各種最優(yōu)解、次優(yōu)解或滿意解、可行解,提高管理決策的科學(xué)性;合理利用企業(yè)技術(shù)中心的各項(xiàng)資源,提高企業(yè)的經(jīng)濟(jì)效益。

參考文獻(xiàn):

[1] W. H. Inmon. Building the DataWarehouse Third Edition [M]. John Wiley & Sons, Inc. 2002.

[2] 安淑芝. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]. 北京:清華大學(xué)出版社,2005.

[3] 高小惠. 數(shù)據(jù)倉庫技術(shù)在企業(yè)人力決策支持中的應(yīng)用. 科學(xué)時(shí)代. 2007,12 .

[4] 張榮祖. 數(shù)據(jù)挖掘技術(shù)在食用菌數(shù)據(jù)分析中的應(yīng)用. 復(fù)旦大學(xué)碩士學(xué)位論文,2004.

篇6

關(guān)鍵詞:任務(wù)驅(qū)動(dòng);探究式;課程改革

中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)06-1253-03

Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

HUANG Jian

(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

Key words: Task-driven; Inquiry; Curriculum reform

數(shù)據(jù)挖掘是一門包括了數(shù)據(jù)庫系統(tǒng)、專家系統(tǒng)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識(shí)別、信息檢索、人工智能等學(xué)科的綜合性的學(xué)科,其目標(biāo)是發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的知識(shí)模式。此課程一般是在研究生教育階段開設(shè)[1],但隨著社會(huì)對(duì)應(yīng)用型人才的需求越來越大,這就要求我們的學(xué)生畢業(yè)后不僅要有扎實(shí)的理論基礎(chǔ),更要有較強(qiáng)的創(chuàng)新能力和實(shí)踐能力。

我校針對(duì)信息與計(jì)算科學(xué)及統(tǒng)計(jì)學(xué)兩個(gè)專業(yè)開設(shè)了數(shù)據(jù)挖掘課程。該專業(yè)學(xué)生擁有較強(qiáng)的數(shù)學(xué)理論基礎(chǔ),并掌握了數(shù)學(xué)建模、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫等相關(guān)學(xué)科。數(shù)據(jù)挖掘作為一門綜合性課程,是融合學(xué)生各科知識(shí),提高該專業(yè)學(xué)生應(yīng)用實(shí)踐能力,培養(yǎng)學(xué)生團(tuán)隊(duì)協(xié)作能力的很好的載體課程。

1 數(shù)據(jù)挖掘課程教學(xué)特點(diǎn)

數(shù)據(jù)挖掘技術(shù)是一個(gè)多學(xué)科交叉的綜合研究領(lǐng)域。不過也正因?yàn)樗婕暗姆秶軓V泛,發(fā)展的時(shí)間也不是很長(zhǎng),因此要真正理解數(shù)據(jù)挖掘的本質(zhì)并不是一件容易的事情。我校針對(duì)信息與計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)兩個(gè)理學(xué)專業(yè)開設(shè)此課程,并將此課程歸類為實(shí)踐類課程。經(jīng)過筆者多年對(duì)傳統(tǒng)教學(xué)方法的研究和改革,發(fā)現(xiàn)了在數(shù)據(jù)挖掘教學(xué)中存在的問題:

1) 理論教學(xué)困難:數(shù)據(jù)挖掘課程內(nèi)容涉及領(lǐng)域廣泛,如統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識(shí)別等內(nèi)容,并且所涉及的算法繁多。由于本科生的知識(shí)體系不健全,理論基礎(chǔ)相對(duì)薄弱,造成了學(xué)習(xí)難度過大。此外,由于學(xué)時(shí)限制,無法在課堂中詳細(xì)地講述算法理論,導(dǎo)致了學(xué)生積極性不高,很難達(dá)到教學(xué)目標(biāo)。

2) 實(shí)踐環(huán)節(jié)無法讓學(xué)生體會(huì)數(shù)據(jù)挖掘本質(zhì):數(shù)據(jù)挖掘是從數(shù)據(jù)獲取、數(shù)據(jù)整理、預(yù)處理、數(shù)據(jù)挖掘分析、結(jié)果分析等一系列流程的綜合。但由于課時(shí)關(guān)系,我們課程中的實(shí)踐環(huán)節(jié)往往是針對(duì)某個(gè)特定的算法,讓學(xué)生利用已經(jīng)預(yù)處理好的數(shù)據(jù)進(jìn)行算法的應(yīng)用。數(shù)據(jù)挖掘成本很高,但是這個(gè)成本往往并不是金錢,而是時(shí)間,而數(shù)據(jù)整理和預(yù)處理的時(shí)間往往占到全部工作量的80%。不經(jīng)過完整的數(shù)據(jù)挖掘流程訓(xùn)練,學(xué)生就無法體會(huì)數(shù)據(jù)挖掘的本質(zhì)。

3) 軟件應(yīng)用缺乏:針對(duì)海量數(shù)據(jù)分析是必須要應(yīng)用到計(jì)算機(jī)技術(shù)處理。當(dāng)今針對(duì)數(shù)據(jù)挖掘應(yīng)用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數(shù)據(jù)庫系統(tǒng)配套的OLAP功能等。在課堂中,不可能對(duì)任何一款軟件都詳細(xì)的進(jìn)行講解。這就使得學(xué)生很難進(jìn)行算法的應(yīng)用實(shí)踐。

2 任務(wù)驅(qū)動(dòng)探究式教學(xué)模式

針對(duì)目前教學(xué)存在的這些問題,廣西大學(xué)梁斌梅提出了目標(biāo)驅(qū)動(dòng)的專業(yè)課教學(xué)法,利用導(dǎo)入課吸引學(xué)生、利用教學(xué)目標(biāo)引導(dǎo)學(xué)生[2]。韓秋明等人編著的《數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例》中采用了大量的行業(yè)數(shù)據(jù),為數(shù)據(jù)挖掘教學(xué)模式的改革提供大量的應(yīng)用實(shí)例[3]。結(jié)合本校的學(xué)生特點(diǎn),參考國(guó)內(nèi)的一些研究成果,該文提出了基于任務(wù)驅(qū)動(dòng)探究式教學(xué)模式。課程整體主線由任務(wù)驅(qū)動(dòng),學(xué)生進(jìn)行探究式自主學(xué)習(xí)。

任務(wù)驅(qū)動(dòng)是基于構(gòu)建主義教學(xué)理論基礎(chǔ)上的教學(xué)方法,以學(xué)生為主體,以老師為主導(dǎo)的一整套教學(xué)新模式。而探究式教學(xué)是與直接接受式教學(xué)相對(duì)的,在任務(wù)驅(qū)動(dòng)的同時(shí),激發(fā)學(xué)生的好奇心,并驅(qū)使學(xué)生投入到知識(shí)獲取的自主學(xué)習(xí)活動(dòng)中。任務(wù)驅(qū)動(dòng)探究式教學(xué)模式是將兩者有機(jī)的結(jié)合起來,使學(xué)生能夠明確學(xué)習(xí)目標(biāo)、提高學(xué)習(xí)興趣、提升學(xué)習(xí)動(dòng)力,發(fā)揮學(xué)生的自主學(xué)習(xí)能力、創(chuàng)造能力,培養(yǎng)學(xué)生分析問題、解決問題的能力。通過自主學(xué)習(xí),自行的完成階段性的教學(xué)任務(wù),以達(dá)到相應(yīng)的教學(xué)目標(biāo)。任務(wù)驅(qū)動(dòng)探究式教學(xué)模式,適合操作性和應(yīng)用性強(qiáng)的課程。任務(wù)驅(qū)動(dòng)探究式教學(xué)模式的核心思想是在教學(xué)方面強(qiáng)調(diào)任務(wù)驅(qū)動(dòng),在學(xué)習(xí)方面則強(qiáng)調(diào)探究式學(xué)習(xí)。因此必須合理地設(shè)計(jì)課程教學(xué)方案,在“教”和“學(xué)”兩個(gè)方面進(jìn)行設(shè)計(jì)。老師必須在任務(wù)設(shè)計(jì)、實(shí)施進(jìn)程管理、信息反饋等各方面做好銜接,保證學(xué)生能夠時(shí)刻跟上任務(wù)進(jìn)度,并保持足夠的興趣度。

3 基于案例驅(qū)動(dòng)探究式教學(xué)模式的數(shù)據(jù)挖掘課程改革

任務(wù)驅(qū)動(dòng)探究式教學(xué)模式是以學(xué)生為主體,教師主導(dǎo)的新型教學(xué)模式。教師的作用在于教學(xué)組織和任務(wù)布置的安排調(diào)度。利用任務(wù)引導(dǎo)學(xué)生學(xué)習(xí)相關(guān)知識(shí),提高學(xué)生的學(xué)習(xí)主動(dòng)性。因此,如何根據(jù)課程需要合理地進(jìn)行課程任務(wù)設(shè)計(jì),安排任務(wù)進(jìn)度都是課程改革成功的關(guān)鍵。

3.1 課程內(nèi)容重新整合

數(shù)據(jù)挖掘是一個(gè)由數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析挖掘、結(jié)論分析等各個(gè)步驟組成的整體過程。在現(xiàn)有的數(shù)據(jù)挖掘書中,針對(duì)數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理部分往往比較簡(jiǎn)化,大部分篇幅都在講述數(shù)據(jù)挖掘算法,如分類算法、關(guān)聯(lián)算法、聚類算法。如果在課程內(nèi)容設(shè)計(jì)時(shí),僅僅對(duì)算法做重點(diǎn)講述而忽略前期步驟,將會(huì)造成學(xué)生內(nèi)容知識(shí)的脫節(jié),無法體會(huì)數(shù)據(jù)挖掘整個(gè)流程,從而不能真正地理解數(shù)據(jù)挖掘思想本質(zhì)。因此,本課程教學(xué)目標(biāo)應(yīng)該是重點(diǎn)培養(yǎng)學(xué)生分析問題、解決問題和團(tuán)隊(duì)協(xié)作能力,樹立數(shù)據(jù)挖掘思維體系,了解數(shù)據(jù)挖掘基本算法,能夠應(yīng)用數(shù)據(jù)挖掘軟件解決實(shí)際問題并得到結(jié)果。

根據(jù)這個(gè)教學(xué)目標(biāo)對(duì)課程內(nèi)容進(jìn)行適當(dāng)調(diào)整。首先,增加緒論內(nèi)容并設(shè)置導(dǎo)入課。在導(dǎo)入課中增加生活中學(xué)生感興趣的數(shù)據(jù)挖掘故事,經(jīng)典案例以及各行業(yè)中的應(yīng)用,從而提高學(xué)生學(xué)習(xí)的興趣。其次,適當(dāng)增加數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)挖掘軟件的介紹,使得學(xué)生能夠明確數(shù)據(jù)怎么來、如何處理以及用什么工具處理等問題。最后,有選擇地介紹基本的數(shù)據(jù)挖掘算法,所介紹的算法應(yīng)該是常見、易懂并且能夠很容易使用軟件實(shí)現(xiàn)的,如決策樹算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對(duì)比較難的算法,可以僅做介紹,讓學(xué)生在今后遇到此類問題能夠自主的進(jìn)行學(xué)習(xí)。通過內(nèi)容的調(diào)整,一方面使得學(xué)生不會(huì)因?yàn)閿?shù)據(jù)挖掘算法繁多且復(fù)雜而懼怕,保證學(xué)生的學(xué)習(xí)興趣,從而很好的引導(dǎo)其自主學(xué)習(xí),提高教學(xué)效果。另一方面,數(shù)據(jù)挖掘算法在不斷的改進(jìn),不可能在課程中覆蓋所有。通過基本算法和工具的結(jié)合,能夠很好地幫助學(xué)生從算法理論轉(zhuǎn)變成算法實(shí)現(xiàn),從而真正的進(jìn)行數(shù)據(jù)挖掘工作。即使出現(xiàn)了新的算法,也能夠舉一反三,進(jìn)行軟件實(shí)現(xiàn)。

3.2 組織方式的改變

任務(wù)驅(qū)動(dòng)探究式教學(xué)模式必須以課程任務(wù)為依托。改變以往以純理論的教學(xué)方式,加入實(shí)踐和課堂討論環(huán)節(jié),將理論知識(shí)講解和課程任務(wù)有機(jī)地結(jié)合到一起。考慮到數(shù)據(jù)挖掘連貫性以及工程龐大性,可以考慮以項(xiàng)目化的方式進(jìn)行。將學(xué)生6個(gè)人左右分為一組,自主的在老師所提供的數(shù)據(jù)共享平臺(tái)中尋找感興趣的問題進(jìn)行分析研究。將整個(gè)項(xiàng)目分解成為數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、探索性分析、數(shù)據(jù)挖掘、結(jié)果分析等一系列的小任務(wù),安排階段性的任務(wù)目標(biāo),層序漸進(jìn),逐步的建立學(xué)生完成項(xiàng)目的信心并最終完成整個(gè)項(xiàng)目。

學(xué)生是項(xiàng)目的負(fù)責(zé)人,在接受一個(gè)短期任務(wù)后,就要自主的開始進(jìn)行任務(wù)的執(zhí)行。老師僅僅在課堂中進(jìn)行了基本知識(shí)的講解,學(xué)生要完成任務(wù)就必須學(xué)習(xí)更多的課外知識(shí)。項(xiàng)目的研究?jī)?nèi)容是自己選擇的,而且完成階段性的任務(wù)并不是那么的遙不可及,所以學(xué)生有足夠的興趣和信心去完成。通過查閱資料、學(xué)習(xí)知識(shí)、任務(wù)分配、安排和組織實(shí)施等,完成教學(xué)任務(wù)的同時(shí)也鍛煉了他們團(tuán)隊(duì)合作意識(shí)、溝通能力、自主學(xué)習(xí)能力。這些能力的培養(yǎng)才能使他們?cè)谥R(shí)不斷更新的當(dāng)今,緊密地跟緊前沿技術(shù)并更好的去解決實(shí)際問題。

3.3 任務(wù)進(jìn)度控制和評(píng)價(jià)

課程的課堂教學(xué)時(shí)間是有限的,老師不可能在課堂中既完成理論教學(xué),又給足時(shí)間讓學(xué)生進(jìn)行課程任務(wù),所以項(xiàng)目的實(shí)施必須是在課后進(jìn)行。學(xué)生要在課外進(jìn)行大量的參考資料閱讀、相互討論及數(shù)據(jù)分析的工作。那么老師作為主導(dǎo)者,必須及時(shí)地了解學(xué)生階段性任務(wù)的完成情況,對(duì)當(dāng)前學(xué)生遇到的困難及時(shí)給出建議和意見,甚至在學(xué)生遇到真正的難題給予技術(shù)上的支持。所以本課程在理論課教學(xué)的同時(shí),也開展了定期的討論課,讓學(xué)生定期匯報(bào)階段性任務(wù)的完成情況,及時(shí)進(jìn)行任務(wù)進(jìn)度的控制。整個(gè)項(xiàng)目的實(shí)施流程和任務(wù)分解如圖1。根據(jù)流程安排,理論引導(dǎo)學(xué)生任務(wù)的進(jìn)行。通過學(xué)生任務(wù)的完成情況,老師在完成基本理論教學(xué)的同時(shí),有針對(duì)性的對(duì)學(xué)生所遇到的問題進(jìn)行講解,最終目標(biāo)是引導(dǎo)學(xué)生完成整個(gè)教學(xué)項(xiàng)目。一方面,學(xué)生自主學(xué)習(xí)能力提高,有足夠的興趣和能力去完成每個(gè)階段的任務(wù),并且會(huì)更加認(rèn)真的在理論課中尋找自己想得到的知識(shí)。另一方面,由于學(xué)生自主尋找的項(xiàng)目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學(xué)內(nèi)容不再一成不變,而是隨時(shí)的更新。

圖1 任務(wù)進(jìn)度安排流程圖

良好的進(jìn)度控制需要一個(gè)完善的評(píng)價(jià)體系做輔助。只有做好每個(gè)階段性的評(píng)價(jià),引入一定的競(jìng)爭(zhēng)機(jī)制,才能提高學(xué)生積極性和自信心。首先,必須做到極端性任務(wù)的目標(biāo)和時(shí)間明確化。要完成什么,在什么時(shí)候完成,都必須事先和學(xué)生約定。對(duì)沒有按時(shí)完成任務(wù)的組,必須做出相應(yīng)的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無法完成任務(wù),有針對(duì)性地提出建議和意見,以便學(xué)生能夠及時(shí)調(diào)整。其次,評(píng)價(jià)標(biāo)準(zhǔn)既要唯一又要區(qū)別對(duì)待。唯一標(biāo)準(zhǔn)指的是一樣的進(jìn)度,一樣的任務(wù),一樣的要求。但是數(shù)據(jù)挖掘項(xiàng)目會(huì)根據(jù)研究領(lǐng)域不同、使用算法不同、數(shù)據(jù)質(zhì)量不同而造成難度差異,一味的同等標(biāo)準(zhǔn)要求會(huì)造成選擇難度較高項(xiàng)目的學(xué)生積極性下降。所以老師必須客觀的分析每個(gè)項(xiàng)目難度,并區(qū)別對(duì)待。對(duì)于由客觀難度造成任務(wù)進(jìn)程落后的組,應(yīng)當(dāng)在解決問題后給予獎(jiǎng)勵(lì)。并且,在最終論文評(píng)定時(shí),適當(dāng)?shù)募尤胍欢ǖ碾y度分,以鼓勵(lì)學(xué)生培養(yǎng)自我挑戰(zhàn)的精神。通過教師評(píng)價(jià)、組長(zhǎng)評(píng)價(jià)、組間評(píng)價(jià)等評(píng)價(jià)方式,客觀的合理的對(duì)整個(gè)項(xiàng)目實(shí)施作出最終的評(píng)價(jià)結(jié)果。

4 結(jié)束語

通過案例驅(qū)動(dòng)探究式教學(xué)模式的改革,數(shù)據(jù)挖掘課程在教學(xué)效果上得到了實(shí)質(zhì)性的提高。人才培養(yǎng)上卓有成效,老師也在教學(xué)過程中受益良多。通過教學(xué)模式的改革,使得原本枯燥、難懂的理論教學(xué)變得生動(dòng)。學(xué)生的求知欲望得到了激發(fā),課程的學(xué)習(xí)目標(biāo)更加的明確,教學(xué)質(zhì)量也有很大的提高。同時(shí)我們發(fā)現(xiàn),學(xué)生的自主學(xué)習(xí)能力、匯報(bào)能力、論文撰寫能力都有了明顯的提高,并且有很多教學(xué)項(xiàng)目被用于畢業(yè)論文的研究。數(shù)據(jù)挖掘課程也因此被選為寧波市級(jí)的智慧產(chǎn)業(yè)核心引導(dǎo)課程。

參考文獻(xiàn):

[1] 胡建軍.淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的本科教學(xué)[J].廣西科學(xué)院學(xué)報(bào),2007(3):29-210.

篇7

大數(shù)據(jù)背景下的機(jī)器算法

專業(yè)

計(jì)算機(jī)科學(xué)與技術(shù)

學(xué)生姓名

楊宇瀟

學(xué)號(hào)

181719251864

一、 選題的背景、研究現(xiàn)狀與意義

為什么大數(shù)據(jù)分析很重要?大數(shù)據(jù)分析可幫助組織利用其數(shù)據(jù)并使用它來識(shí)別新的機(jī)會(huì)。反過來,這將導(dǎo)致更明智的業(yè)務(wù)移動(dòng),更有效的運(yùn)營(yíng),更高的利潤(rùn)和更快樂的客戶。

在許多早期的互聯(lián)網(wǎng)和技術(shù)公司的支持下,大數(shù)據(jù)在2000年代初的數(shù)據(jù)熱潮期間出現(xiàn)。有史以來第一次,軟件和硬件功能是消費(fèi)者產(chǎn)生的大量非結(jié)構(gòu)化信息。搜索引擎,移動(dòng)設(shè)備和工業(yè)機(jī)械等新技術(shù)可提供公司可以處理并持續(xù)增長(zhǎng)的數(shù)據(jù)。隨著可以收集的天文數(shù)據(jù)數(shù)量的增長(zhǎng),很明顯,傳統(tǒng)數(shù)據(jù)技術(shù)(例如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)不適合與大量非結(jié)構(gòu)化數(shù)據(jù)一起使用。 Apache軟件基金會(huì)啟動(dòng)了第一個(gè)大數(shù)據(jù)創(chuàng)新項(xiàng)目。最重要的貢獻(xiàn)來自Google,Yahoo,F(xiàn)acebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復(fù)雜數(shù)據(jù)準(zhǔn)備和ETL的旗艦,可以為許多數(shù)據(jù)存儲(chǔ)或分析環(huán)境提供信息以進(jìn)行深入分析。 Apache Spark(由加州大學(xué)伯克利分校開發(fā))通常用于大容量計(jì)算任務(wù)。這些任務(wù)通常是批處理ETL和ML工作負(fù)載,但與Apache Kafka等技術(shù)結(jié)合使用。

隨著數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),企業(yè)必須不斷擴(kuò)展其基礎(chǔ)架構(gòu)以最大化其數(shù)據(jù)的經(jīng)濟(jì)價(jià)值。在大數(shù)據(jù)的早期(大約2008年),Hadoop被大公司首次認(rèn)可時(shí),維護(hù)有用的生產(chǎn)系統(tǒng)非常昂貴且效率低下。要使用大數(shù)據(jù),您還需要適當(dāng)?shù)娜藛T和軟件技能,以及用于處理數(shù)據(jù)和查詢速度的硬件。協(xié)調(diào)所有內(nèi)容同時(shí)運(yùn)行是一項(xiàng)艱巨的任務(wù),許多大數(shù)據(jù)項(xiàng)目都將失敗。如今,云計(jì)算已成為市場(chǎng)瞬息萬變的趨勢(shì)。因?yàn)楦鞣N規(guī)模的公司都可以通過單擊幾下立即訪問復(fù)雜的基礎(chǔ)架構(gòu)和技術(shù)。在這里,云提供了強(qiáng)大的基礎(chǔ)架構(gòu),使企業(yè)能夠勝過現(xiàn)有系統(tǒng)。

二、 擬研究的主要內(nèi)容(提綱)和預(yù)期目標(biāo)

隨著行業(yè)中數(shù)據(jù)量的爆炸性增長(zhǎng),大數(shù)據(jù)的概念越來越受到關(guān)注。 由于大數(shù)據(jù)的大,復(fù)雜和快速變化的性質(zhì),許多用于小數(shù)據(jù)的傳統(tǒng)機(jī)器學(xué)習(xí)算法不再適用于大數(shù)據(jù)環(huán)境中的應(yīng)用程序問題。 因此,在大數(shù)據(jù)環(huán)境下研究機(jī)器學(xué)習(xí)算法已成為學(xué)術(shù)界和業(yè)界的普遍關(guān)注。 本文主要討論和總結(jié)用于處理大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法的研究現(xiàn)狀。 另外,由于并行處理是處理大數(shù)據(jù)的主要方法,因此我們介紹了一些并行算法,介紹了大數(shù)據(jù)環(huán)境中機(jī)器學(xué)習(xí)研究所面臨的問題,最后介紹了機(jī)器學(xué)習(xí)的研究趨勢(shì),我們的目標(biāo)就是研究數(shù)據(jù)量大的情況下算法和模型的關(guān)系,同時(shí)也會(huì)探討大部分細(xì)分行業(yè)數(shù)據(jù)量不大不小的情況下算法的關(guān)系。

三、 擬采用的研究方法(思路、技術(shù)路線、可行性分析論證等)

 1.視覺分析。大數(shù)據(jù)分析用戶包括大數(shù)據(jù)分析專業(yè)人士和一般用戶,但是大數(shù)據(jù)分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數(shù)據(jù)的特征,并像閱讀照片的讀者一樣容易接受。 2.數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論中心是數(shù)據(jù)挖掘算法。不同的數(shù)據(jù)挖掘算法依賴于不同的數(shù)據(jù)類型和格式來更科學(xué)地表征數(shù)據(jù)本身。由于它們被全世界的統(tǒng)計(jì)學(xué)家所公認(rèn),因此各種統(tǒng)計(jì)方法(稱為真值)可以深入到數(shù)據(jù)中并挖掘公認(rèn)的值。另一方面是這些數(shù)據(jù)挖掘算法可以更快地處理大數(shù)據(jù)。如果該算法需要花費(fèi)幾年時(shí)間才能得出結(jié)論,那么大數(shù)據(jù)的價(jià)值是未知的。 3.預(yù)測(cè)分析。大數(shù)據(jù)分析的最后一個(gè)應(yīng)用領(lǐng)域是預(yù)測(cè)分析,發(fā)現(xiàn)大數(shù)據(jù)功能,科學(xué)地建立模型以及通過模型吸收新數(shù)據(jù)以預(yù)測(cè)未來數(shù)據(jù)。 4.語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多樣化為數(shù)據(jù)分析提出了新的挑戰(zhàn)。您需要一套工具來分析和調(diào)整數(shù)據(jù)。語義引擎必須設(shè)計(jì)有足夠的人工智能,以主動(dòng)從數(shù)據(jù)中提取信息。 5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理的組成部分。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理確保了分析結(jié)果在學(xué)術(shù)研究和商業(yè)應(yīng)用中的可靠性和價(jià)值。大數(shù)據(jù)分析的基礎(chǔ)是前五個(gè)方面。當(dāng)然,如果您更深入地研究大數(shù)據(jù)分析,則還有更多特征,更深入,更專業(yè)的大數(shù)據(jù)分析方法。

四、 論文(設(shè)計(jì))的工作進(jìn)度安排

2020.03.18-2020.03.20 明確論文內(nèi)容,進(jìn)行相關(guān)論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報(bào)告 。

2020.04.28-2020.04.30 :設(shè)計(jì)實(shí)驗(yàn)。

2020.05.01-2020.05.07 :開展實(shí)驗(yàn)。

2020.05.08-2020.05.15 :準(zhǔn)備中期檢查。

2020.05.16-2020.05.23:根據(jù)中期檢查的問題,進(jìn)一步完善實(shí)驗(yàn)2020.05.24-2020.05.28 :完成論文初稿。

2020.05.29-2020.06.26 :論文修改完善。

 

五、 參考文獻(xiàn)(不少于5篇)

1 . 王偉,王珊,杜小勇,覃雄派,王會(huì)舉.大數(shù)據(jù)分析——rdbms與mapreduce的競(jìng)爭(zhēng)與共生 .計(jì)算機(jī)光盤軟件與應(yīng)用,2012.被引量:273.

2 . 喻國(guó)明. 大數(shù)據(jù)分析下的中國(guó)社會(huì)輿情:總體態(tài)勢(shì)與結(jié)構(gòu)性特征——基于百度熱搜詞(2009—2 012)的輿情模型構(gòu)建.中國(guó)人民大學(xué)學(xué)報(bào),2013.被引量:9. 3 . 李廣建,化柏林.大數(shù)據(jù)分析與情報(bào)分析關(guān)系辨析.中國(guó)圖書館學(xué)報(bào),2014.被引量:16.

4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數(shù)據(jù)分析的分布式molap技術(shù) .軟件學(xué)報(bào),2014.被引量:6.

5 . 王德文,孫志偉.電力用戶側(cè)大數(shù)據(jù)分析與并行負(fù)荷預(yù)測(cè) .中國(guó)電機(jī)工程學(xué)報(bào),2015.被引量:19.

6 . 江秀臣,杜修明,嚴(yán)英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數(shù)據(jù)分析的輸變電設(shè)備狀態(tài)數(shù)據(jù)異常檢測(cè)方法 .中國(guó)電機(jī)工程學(xué)報(bào),2015.被引量:8.

7 . 喻國(guó)明. 呼喚“社會(huì)最大公約數(shù)”:2012年社會(huì)輿情運(yùn)行態(tài)勢(shì)研究——基于百度熱搜詞的大 數(shù)據(jù)分析.編輯之友,2013.被引量:4.

六、指導(dǎo)教師意見

 

 

 

 

 

 

 

 

簽字:                  年     月    日

七、學(xué)院院長(zhǎng)意見及簽字

 

 

 

 

 

 

 

篇8

摘要:本文主要介紹了如何利用數(shù)據(jù)倉庫技術(shù)建立學(xué)生成績(jī)管理數(shù)據(jù)倉庫,應(yīng)用SQL Server 2008中的聯(lián)機(jī)分析處理技術(shù),從不同的維度觀察對(duì)成績(jī)有影響的因素,并通過建立決策樹挖掘模型對(duì)學(xué)生成績(jī)進(jìn)行定性分析,用于指導(dǎo)學(xué)校決策者制定修改人才培養(yǎng)方案和指導(dǎo)學(xué)生更加有效的學(xué)習(xí)。

關(guān)鍵詞 :數(shù)據(jù)倉庫 數(shù)據(jù)挖掘 維度 決策樹

如今人們利用信息技術(shù)生產(chǎn)和收集大量的數(shù)據(jù),要想高效地管理、組織這些數(shù)據(jù)并對(duì)其進(jìn)行分析并不是一件易事。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在這方面得到了廣泛的應(yīng)用,數(shù)據(jù)挖掘能從存放在數(shù)據(jù)倉庫中的大量數(shù)據(jù)中挖掘出隱藏的有用知識(shí)。

一、利用數(shù)據(jù)倉庫技術(shù)管理學(xué)生成績(jī)的意義

學(xué)生是學(xué)校的核心,其學(xué)習(xí)成績(jī)作為一種總結(jié)性評(píng)價(jià),能反映出他們的知識(shí)掌握情況和相應(yīng)知識(shí)技能的獲得情況。諸多高校的教務(wù)數(shù)據(jù)倉庫中對(duì)學(xué)生成績(jī)的評(píng)定分兩種:定量評(píng)價(jià)和定性評(píng)價(jià)。定量評(píng)價(jià)也就是分?jǐn)?shù),定性評(píng)價(jià)一般分優(yōu)、良、中、差等四個(gè)級(jí)別。數(shù)據(jù)倉庫從定量的角度對(duì)學(xué)生成績(jī)進(jìn)行分析,能精確得到各個(gè)方面的數(shù)據(jù)。因此使用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生成績(jī)進(jìn)行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律或模式,根據(jù)挖掘結(jié)構(gòu)提出一些指導(dǎo)性建議,從而更好地指導(dǎo)教師教學(xué),提高教學(xué)效率,提高學(xué)生的成績(jī)。

二、如何利用數(shù)據(jù)倉庫技術(shù)管理學(xué)生成績(jī)

在學(xué)生成績(jī)管理中有各種類型的數(shù)據(jù),先要對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,使它們符合教學(xué)決策所需的數(shù)據(jù),然后把學(xué)生成績(jī)分析作為本論文研究的主題創(chuàng)建學(xué)生成績(jī)數(shù)據(jù)倉庫,并從同一個(gè)班的不同門課程和同門課程在不同的專業(yè)與不同的教師教授下的效果比較進(jìn)行分析研究。

把教務(wù)處的數(shù)據(jù)抽取出來后,通過還原數(shù)據(jù)庫還原到SQL Server 2008中,從里面挑選出有關(guān)學(xué)生、教師、課程信息等關(guān)聯(lián)的表(共計(jì)11個(gè)),把這些表導(dǎo)入到學(xué)生成績(jī)數(shù)據(jù)庫中。

該次課題必須保證所有的學(xué)生有課程平均學(xué)分成績(jī),如該生辦理了退學(xué)或者休學(xué)手續(xù),則刪除該生的所有信息,如該教師沒有擔(dān)任教學(xué)任務(wù),則刪除該教師的相關(guān)信息。

例如,筆者使用了如下SQL語句來刪除無成績(jī)的學(xué)生記錄:

Delete from Cj_BjxsCJB where zcj is null

對(duì)數(shù)據(jù)進(jìn)行篩選和連接,例如:

在學(xué)生成績(jī)(XsCj) 事實(shí)表里,筆者使用如下SQL語句:

Insert into XsCj

Select xnxqh, zcj,kcbm,xf,xs,kcbm,xh,kcxzcode,kcflcode,khfscode,jsbh

from Cj_XsCj where kcbm in (select kcbm from Curriculum)

and xh in (select xh from Xj_YxjJbxx )

在專業(yè)(ZhuanYe)維表里,筆者使用的SQL語句如下:

Insert into ZhuanYe

Select zybh,zymc,yxbh from Major

學(xué)生(Student)維表里的SQL語句是:

Update Student set bjbh=BanJi.bjbh

from BanJi where zybh in ( select zybh from BanJi, Xj_YxjJbxx

where BanJi.bjmc= Xj_YxjJbxx.bjmc )

在SQL Server Business Intelligence Development Studio開發(fā)環(huán)境中新建一個(gè)名為“學(xué)生成績(jī)”的SSAS項(xiàng)目,以數(shù)據(jù)倉庫“學(xué)生成績(jī)”為數(shù)據(jù)源新建數(shù)據(jù)源學(xué)生成績(jī).ds、數(shù)據(jù)源視圖學(xué)生成績(jī).dsv和多維數(shù)據(jù)集學(xué)生成績(jī).cube。

該課題初步實(shí)現(xiàn)了在高校教學(xué)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,但仍然有許多問題:在數(shù)據(jù)預(yù)處理方面工作量比較大,還不夠完善,需要找尋其他數(shù)據(jù)庫工具人工完成;在其他應(yīng)用方面,學(xué)校教學(xué)管理中的許多領(lǐng)域還有待進(jìn)一步探討,比如學(xué)生成績(jī)的分析、學(xué)生信息管理、學(xué)生心理分析、教學(xué)質(zhì)量評(píng)估等。

參考文獻(xiàn):

[1]陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:人民郵電出版社,2004.

[2]Jiawei HAN,Mieheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2004.

[3]朱得利.SQL Server 2005 數(shù)據(jù)挖掘與商業(yè)只能完全解決方案[M].北京:電子工業(yè)出版社,2007.

[4]邱文教,潘曉卉.數(shù)據(jù)挖掘技術(shù)在教務(wù)管理中的應(yīng)用[J].安徽工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2006.

篇9

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;決策樹;教學(xué);效果評(píng)估

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)01-143-02

The Application Research of Data Mining in Teaching

FANG Fang1, YE Chun-ming2, ZENG Guang-jun3

(1. Anhui University of Traditional Chinese Medicine, Hefei 230037, China; 2. Electronic Engineering Institute, Hefei 230037, China; 3. Communication and Command College, Wuhan 230037, China)

Abstract: This paper based on the theory of Data Mining, elaborates the two methods: association rule and decision tree, which applied to teaching practice. Research indicates that using association rule could do teaching situation prediction and teaching effect evaluation better. And Decision tree can give analysis and guidance in the aspect of thesis and course selection. Finally, this paper indicates Data Mining applied to teaching would be of vase prospects.

Key words: data mining ; association rule; decision tree; teaching; effect evaluation

1 概述

隨著高校教育信息化建設(shè)的發(fā)展,對(duì)于學(xué)生、教師資料,課程設(shè)置,考試成績(jī)等多種信息進(jìn)行分析評(píng)估,對(duì)提高教學(xué)質(zhì)量,加強(qiáng)高校管理,推進(jìn)高校各項(xiàng)事業(yè)的建設(shè)有著重要的意義。經(jīng)過近些年的發(fā)展,雖然各高校收集和建立起了較為完備的資料數(shù)據(jù)庫,但如何科學(xué)有效地分析這些海量數(shù)據(jù),使其充分發(fā)揮指導(dǎo)決策作用,已成為教育信息化研究的方向之一。傳統(tǒng)的分析方法難以從這些數(shù)據(jù)中發(fā)掘出有用的信息。而利用數(shù)據(jù)挖掘技術(shù),能夠方便高效地從大量數(shù)據(jù)中發(fā)現(xiàn)有用的信息和隱藏的規(guī)律,充分發(fā)揮資料數(shù)據(jù)庫的作用,為高校管理工作以及教師和學(xué)生的工作學(xué)習(xí)提供指導(dǎo)依據(jù)。

2 數(shù)據(jù)挖掘技術(shù)介紹

數(shù)據(jù)挖掘(Data Mining)是自上世紀(jì)90年代以來迅速發(fā)展的一門交叉學(xué)科,包含有人工智能、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識(shí)別、粗糙集、模糊數(shù)學(xué)等技術(shù)學(xué)科的相關(guān)內(nèi)容。一般認(rèn)為,數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則[1],數(shù)據(jù)挖掘的過程有時(shí)也稱為知識(shí)發(fā)現(xiàn)或數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(knowledge discovery in database,KDD)。其基本功能包括分類(classification)、估計(jì)(estimation)、預(yù)測(cè)(prediction)、關(guān)聯(lián)分組(affinity grouping)或關(guān)聯(lián)規(guī)則(affinity rule)、聚類(clustering)以及描述和建檔(description and profiling)[2]。

數(shù)據(jù)挖掘的對(duì)象包含數(shù)據(jù)庫、文本、圖像等各種結(jié)構(gòu)化或非結(jié)構(gòu)化的信息,很多情況下無法直接對(duì)這些數(shù)據(jù)進(jìn)行分析。利用數(shù)據(jù)挖掘進(jìn)行分析一般需要進(jìn)行如下的過程[3]。

1)選擇數(shù)據(jù):數(shù)據(jù)挖掘過程所需的數(shù)據(jù)可能從不同的異構(gòu)數(shù)據(jù)源獲取,因此首先必須從各種不同形式的數(shù)據(jù)源中獲取數(shù)據(jù)。

2)預(yù)處理:初始數(shù)據(jù)中可能會(huì)有一些偏差或不符合形式化處理的例外,對(duì)這些數(shù)據(jù)必須進(jìn)行修正和剔除,以保證后期數(shù)據(jù)處理的正確性。

3)變換:對(duì)不同數(shù)據(jù)源獲取的數(shù)據(jù)必須轉(zhuǎn)換成統(tǒng)一的格式,利用編碼或其他方法簡(jiǎn)化數(shù)據(jù)表示形式。

4)數(shù)據(jù)挖掘:對(duì)變換后的數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘算法以產(chǎn)生期望的挖掘結(jié)果。

5)解釋/評(píng)價(jià):將數(shù)據(jù)挖掘的結(jié)果以適當(dāng)?shù)姆绞教峤唤o用戶。可以使用圖形化的工具或文檔表格的形式等。

數(shù)據(jù)挖掘技術(shù)在電信業(yè)、零售業(yè)、農(nóng)業(yè)、金融業(yè)、生物醫(yī)藥、化工行業(yè)等多個(gè)領(lǐng)域已有較成功的應(yīng)用,例如對(duì)于數(shù)據(jù)庫營(yíng)銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等問題的分析等。數(shù)據(jù)挖掘主要的分析方法包括:關(guān)聯(lián)規(guī)則、決策樹、聚類分析、遺傳算法和神經(jīng)網(wǎng)絡(luò)等,其中關(guān)聯(lián)規(guī)則和決策樹是使用頻率最多、范圍最廣的兩種方法。

關(guān)聯(lián)規(guī)則是用于揭示數(shù)據(jù)之間隱含的關(guān)系的一種數(shù)據(jù)挖掘方法,是數(shù)據(jù)挖掘最先研究的問題之一,也是數(shù)據(jù)挖掘的主要研究方向和最成熟的分析方法之一。關(guān)聯(lián)規(guī)則通過對(duì)數(shù)據(jù)庫中一組對(duì)象的關(guān)系進(jìn)行分析,進(jìn)而通過置信度和支持度的閾值篩選,得出被認(rèn)為是有價(jià)值的規(guī)律或事實(shí),典型的應(yīng)用是購物籃分析,通過對(duì)銷售數(shù)據(jù)分析發(fā)現(xiàn)部分客戶的常用的購物習(xí)慣和規(guī)律。最經(jīng)典的關(guān)聯(lián)規(guī)則算法是1994年由R.Agrawal, Hnielinski,Swam等人提出的Apriori算法[4],主要思想是生成特定關(guān)系的候選項(xiàng)目集,然后掃描數(shù)據(jù)庫并進(jìn)行計(jì)數(shù),以確定這些候選項(xiàng)目集是否滿足要求。

決策樹算法是一種用于解決分類問題的辦法[5]。決策樹通過對(duì)數(shù)據(jù)的歸納學(xué)習(xí),構(gòu)建一棵樹對(duì)分類過程進(jìn)行建模,構(gòu)建完成后,將其應(yīng)用到數(shù)據(jù)庫中的元組并得到分類結(jié)果。樹的每個(gè)內(nèi)部結(jié)點(diǎn)代表對(duì)一個(gè)屬性值的檢驗(yàn),分支代表檢驗(yàn)的結(jié)果;樹的每個(gè)葉結(jié)點(diǎn)就代表一個(gè)類別。決策樹算法主要是用來對(duì)離散型變量進(jìn)行分析,連續(xù)型變量必須被離散化后才能被分析[6]。最主要的決策樹算法是20世紀(jì)80年代由J.Ross.Quinlan提出的基于信息熵的ID3算法,但I(xiàn)D3算法對(duì)于大數(shù)據(jù)集的分析效果不令人滿意,后來出現(xiàn)的C4.5、C5、SLIQ、SPRINT等算法在ID3基礎(chǔ)上做了諸多改進(jìn),提高了算法的性能。

3 數(shù)據(jù)挖掘在教學(xué)中的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已得到廣泛的應(yīng)用,但在教育領(lǐng)域的應(yīng)用尚處于研究試驗(yàn)階段,研究應(yīng)用較多的包括分析學(xué)生成績(jī),改進(jìn)教學(xué)質(zhì)量,調(diào)整課程設(shè)置,輔助教學(xué)評(píng)價(jià)等等[7]。借助數(shù)據(jù)挖掘的方法,通過對(duì)收集的學(xué)生、教師、課程、成績(jī)等各類信息進(jìn)行分析,尋找其中的規(guī)律、趨勢(shì)和問題,提供客觀科學(xué)的結(jié)論作為決策依據(jù),能夠大大提高學(xué)校的教學(xué)管理水平,指導(dǎo)教師和學(xué)生的工作和學(xué)習(xí)。

3.1 關(guān)聯(lián)規(guī)則在教學(xué)中的應(yīng)用

關(guān)聯(lián)規(guī)則可以描述為以下的形式[3]:給定一組項(xiàng)目I={I1,I2…}和事務(wù)數(shù)據(jù)庫D={t1,t2…},其中ti={Ii1,Ii2…}并且Iij∈I,關(guān)聯(lián)規(guī)則是形如X=>Y的蘊(yùn)含式,其中X,Y?奐I是兩個(gè)項(xiàng)目集合,稱為項(xiàng)目集并且X∩Y=Φ。關(guān)聯(lián)規(guī)則的分析主要基于兩個(gè)數(shù)值:支持度和置信度。在關(guān)聯(lián)規(guī)則中,X=>Y的支持度表示數(shù)據(jù)庫中包含X∪Y的事務(wù)占庫中所有事務(wù)的百分比。X=>Y的置信度表示包含X∪Y是事務(wù)數(shù)與包含X的事務(wù)數(shù)的比值,對(duì)于X=>Y的支持度和置信度分別用s和a表示。

在教學(xué)數(shù)據(jù)的分析過程中,關(guān)聯(lián)規(guī)則使用于兩種類型的分析。類型一是進(jìn)行預(yù)測(cè)性的分析,主要用于對(duì)學(xué)生的成績(jī)進(jìn)行分析,類型二是進(jìn)行評(píng)價(jià)性的分析,主要用于對(duì)教學(xué)效果的評(píng)估。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析一般分為三個(gè)基本步驟:建立數(shù)據(jù)倉庫,數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘。下面以學(xué)生成績(jī)分析為例,描述關(guān)聯(lián)規(guī)則進(jìn)行預(yù)測(cè)性分析的過程。

第一步是建立教學(xué)信息的數(shù)據(jù)倉庫。采集的數(shù)據(jù)內(nèi)容主要包括學(xué)生的入學(xué)成績(jī)、基礎(chǔ)課程成績(jī)、專業(yè)課程成績(jī),國(guó)家等級(jí)考試成績(jī)等等。為了提高分析結(jié)果的準(zhǔn)確性,避免只通過成績(jī)進(jìn)行單一的分析判斷,還應(yīng)進(jìn)行問卷調(diào)查等方式收集關(guān)于學(xué)生興趣愛好、擅長(zhǎng)課程等數(shù)據(jù)內(nèi)容,不同類型的信息分別組成各自的數(shù)據(jù)表。通過多種途徑建立內(nèi)容全面的綜合數(shù)據(jù)倉庫,根據(jù)需要從中提取相應(yīng)的數(shù)據(jù)進(jìn)行分析。假定建立的數(shù)據(jù)庫為W={D1,D2,…},其中的Di為不同的數(shù)據(jù)表,內(nèi)容分別是成績(jī)、調(diào)查內(nèi)容等不同類型的數(shù)據(jù)。

第二步是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。為便于數(shù)據(jù)挖掘分析,對(duì)采集的數(shù)據(jù)需要需求進(jìn)一步進(jìn)行處理,首先是刪除無效數(shù)據(jù),例如校正錯(cuò)誤信息,對(duì)缺考、無效調(diào)查結(jié)果等進(jìn)行處理。其次,需要對(duì)不同類型的數(shù)據(jù)進(jìn)行形式化處理,一般的方法是進(jìn)行簡(jiǎn)單的分類,例如成績(jī)按照“優(yōu)秀、良好、集合和不合格”形式進(jìn)行處理。如果數(shù)據(jù)庫W的內(nèi)容較多,為提高關(guān)聯(lián)規(guī)則算法的執(zhí)行效率,根據(jù)需要選擇部分表{Di1,Di2,…},其中Dij∈W,對(duì)這些表進(jìn)行表連接等操作生成的待分析的事務(wù)庫D',并根據(jù)需求設(shè)定支持度s和置信度a。利用Apriori算法對(duì)事務(wù)集D'進(jìn)行掃描,得出支持度不小于s的頻繁項(xiàng)目集D1'。

與一般關(guān)聯(lián)規(guī)則應(yīng)用不同的是,在商業(yè)領(lǐng)域,支持度較小的項(xiàng)目集因其沒有商業(yè)利用的價(jià)值會(huì)被摒棄。但在教學(xué)領(lǐng)域,由于分析的對(duì)象是學(xué)生,即便是支持度很小的項(xiàng)目集也可能需要引起重視。例如,利用關(guān)聯(lián)規(guī)則入學(xué)成績(jī)和畢業(yè)成績(jī)的關(guān)系進(jìn)行分析,類似{入學(xué)成績(jī)優(yōu)秀,畢業(yè)成績(jī)優(yōu)秀}這樣的項(xiàng)目集支持度可能較高。但{入學(xué)成績(jī)優(yōu)秀,畢業(yè)成績(jī)不合格}這樣的項(xiàng)目集可能會(huì)因?yàn)橹С侄刃∮趕被忽略。但如果對(duì)這一現(xiàn)象引起重視并深入分析,所反映的問題,可能比支持度較高的項(xiàng)目集代表的情況更有研究?jī)r(jià)值。但如果對(duì)所有這種非頻繁集進(jìn)行分析,會(huì)影響算法執(zhí)行效率,也可能得出很多無用的結(jié)論。解決辦法是對(duì)事務(wù)集分析之后,將大項(xiàng)目集的事務(wù)從數(shù)據(jù)庫中剔除,對(duì)生成的新事務(wù)庫D"進(jìn)行二次分析,或直接對(duì)非頻繁集進(jìn)行其他方式的分析[8]。

第三步是根據(jù)Apriori等算法進(jìn)一步挖掘,在頻繁集D1'中,按照置信度為a的標(biāo)準(zhǔn),生成最后的關(guān)聯(lián)規(guī)則表。按照算法進(jìn)行分析,最后生成的都是支持度和置信度比較高的關(guān)聯(lián)規(guī)則,但仍需對(duì)其中的內(nèi)容進(jìn)行分析和篩除。對(duì)于一些常識(shí)性的、顯而易見的結(jié)論,如“入學(xué)英語成績(jī)高,平時(shí)英語成績(jī)好=>英語等級(jí)考試通過”這類結(jié)論一般不必進(jìn)一步研究,但對(duì)其中發(fā)現(xiàn)的不常見的結(jié)論,甚至是有悖于一般看法的結(jié)論需要引起注意,并做深入的分析研究,從而找出現(xiàn)象背后的原因所在。

關(guān)聯(lián)規(guī)則還可以用于對(duì)教學(xué)效果進(jìn)行分析。比類型一復(fù)雜之處在于,建立數(shù)據(jù)倉庫時(shí),需要業(yè)務(wù)專家進(jìn)行設(shè)計(jì),采集較為全面的教師工作相關(guān)信息,以及自身資質(zhì)水平、所學(xué)專業(yè)、執(zhí)教經(jīng)歷等等詳細(xì)資料,并結(jié)合類型一采集的學(xué)生信息數(shù)據(jù)庫,完成內(nèi)容詳實(shí)的信息倉庫。分析的過程與類型一的分析過程基本相同。

3.2 決策樹在教學(xué)中的應(yīng)用

決策樹算法可以描述如下[3]。給定數(shù)據(jù)庫D={t1,t2…},其中ti={Ii1,Ii2…},數(shù)據(jù)庫模式包含下列屬性{A1,A2,…}。同時(shí)給定類別集合C={C1,C2,…}。對(duì)于數(shù)據(jù)庫D,決策樹可表示為每個(gè)內(nèi)部節(jié)點(diǎn)都被標(biāo)記一個(gè)屬性Ai;每個(gè)弧都被標(biāo)記一個(gè)謂詞,可應(yīng)用于相應(yīng)父節(jié)點(diǎn)的屬性;每個(gè)葉節(jié)點(diǎn)都被標(biāo)記一個(gè)類Cj。通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,確定每個(gè)元組的類別,并對(duì)所有元組的類別進(jìn)行分析,得出需要的結(jié)論。決策樹主要用于對(duì)離散的數(shù)據(jù)進(jìn)行分類,在教學(xué)方面能夠用來對(duì)學(xué)生課程的選修、畢業(yè)課題的選擇、就業(yè)等方面進(jìn)行分析指導(dǎo)。

基于決策樹的分析可以使用關(guān)聯(lián)規(guī)則相同的數(shù)據(jù)源,但對(duì)數(shù)據(jù)仍然要進(jìn)行預(yù)處理。為了方便處理,可以將數(shù)據(jù)統(tǒng)一成可描述為相同類型的屬性。例如,學(xué)習(xí)成績(jī)可以劃分為:優(yōu)秀、良好、中等、及格和不及格五檔,分別用5、4、3、2、1數(shù)字進(jìn)行表示。同樣,動(dòng)手能力、對(duì)某課程的喜好、資格考試是否通過等等,也可以采取類似的方式進(jìn)行屬性編碼處理,例如通過可以表示為5,不通過表示為1,以此類推。按照屬性的分類構(gòu)造決策樹,以指導(dǎo)學(xué)生選擇課題畢業(yè)課題為例。以一門或多門相關(guān)課程的成績(jī)、對(duì)一門或多門相關(guān)課程的喜好、動(dòng)手能力的區(qū)別、理論研究能力的區(qū)別,以及畢業(yè)課題的選擇等作為分類屬性,通過對(duì)往屆學(xué)生信息數(shù)據(jù)庫進(jìn)行分析,得出關(guān)于畢業(yè)課題成績(jī)優(yōu)秀的規(guī)則,例如最后生成“動(dòng)手能力強(qiáng),喜歡編程,C語言等課程成績(jī)較好,關(guān)于編程類的畢業(yè)課題成績(jī)較好”這樣的規(guī)則,通過對(duì)這些規(guī)則的整理和進(jìn)一步的分析,可以幫助學(xué)生選擇適合的畢業(yè)課題類型,甚至對(duì)包括就業(yè)在內(nèi)的其他問題也有較強(qiáng)的指導(dǎo)作用。

4 結(jié)束語

數(shù)據(jù)挖掘技術(shù)適合從各種復(fù)雜的數(shù)據(jù)中分析出直觀明確的規(guī)律,數(shù)據(jù)利用率高,運(yùn)行成本低,預(yù)見性強(qiáng),在高校教學(xué)中有著廣闊的應(yīng)用前景,雖然現(xiàn)在較為成熟的應(yīng)用還不多,主要停留在研究試驗(yàn)階段,但隨著高校信息化建設(shè)的推進(jìn)和人們認(rèn)識(shí)的加深,數(shù)據(jù)挖掘技術(shù)將在高校管理和教學(xué)改革中發(fā)揮重要的作用。

參考文獻(xiàn):

[1] Ming-Syan Chen, Jiawei Han, Philip S. Yu. DataMining: An Overview from a Database PersPeetive [J]. IEEE Transaetions on Knowledge and Data Engineering. 1996,8(6):866-883

[2] Jiawei Han,Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 加拿大:機(jī)械工業(yè)出版, 2004.

[3] Margaret H.Dunham. 郭崇慧, 等譯. 數(shù)據(jù)挖掘教程[M]. 北京: 清華大學(xué)出版社, 2005.

[4] Rakesh Agrawal,Ramakrishnan Srikant. Fast Algorithm for Mining Association Rules [C]. Proeeedings of 20'Int.Conf. Very Large Data Bases (VIDB). 智利: Morgan Kaufmann出版社, 1994.

[5] ROKACH L. Top-down induction of decision trees classifiers-asurvey [J]. IEEE Transaetions on Systems. 2005(35): 476-487.

[6] 陳恩紅,王清毅,蔡慶生. 基于決策樹學(xué)習(xí)中的測(cè)試生成及連續(xù)屬性的離散化[J]. 計(jì)算機(jī)研究與發(fā)展, 1998,35(5).

篇10

關(guān)鍵詞:客戶分群;聚類分析;K-means算法

中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)24-1123-03

Application of Data Mining in Telecom Customer Segmentation

LIU Yi-jun1, FU Han-yu1, CAI Qiu-ru1, HE Hui2, LUO Ye1

(1.Jiangsu Teachers University of Technology, School of Computer Sciences and Engineering, Changzhou 213001,China; 2.Changzhou Branch of Jiangsu Telecom, Changzhou 213003,China)

Abstract: The paper introduces the data mining topics and data mining models frequently used in telecom. A resolution of Customer segmentation is proposed based on the data mining tool KXEN and K-means method.

Key words: customer segmentation; clustering analysis; K-means algorithm

1 引言[1]

隨著電信體制改革的深化,電信業(yè)的競(jìng)爭(zhēng)也日趨激烈。電信業(yè)是典型的數(shù)據(jù)密集行業(yè),與其他行業(yè)相比,則電信行業(yè)擁有更多的有關(guān)用戶的數(shù)據(jù)。誰能正確地分析這些數(shù)據(jù)得到有用的知識(shí),誰就能更好地向用戶提供服務(wù),發(fā)現(xiàn)更多的商機(jī),從而在競(jìng)爭(zhēng)中獲勝。數(shù)據(jù)挖掘可以從大量數(shù)據(jù)中自動(dòng)獲取有用信息或知識(shí),因此數(shù)據(jù)挖掘在電信業(yè)中有重要的應(yīng)用價(jià)值。

該文組織結(jié)構(gòu)如下:第二部分分析了電信數(shù)據(jù)挖掘的若干主題及其相關(guān)的數(shù)據(jù)挖掘模型;第三部分介紹了客戶分群及其K-means聚類算法的實(shí)現(xiàn)流程;第四部分基于實(shí)踐經(jīng)驗(yàn)給出了建立電信客戶分群模型的解決方案。

2 電信領(lǐng)域的數(shù)據(jù)挖掘模型[2,3]

電信的數(shù)據(jù)挖掘應(yīng)用開發(fā),主要進(jìn)行客戶分群、客戶流失分析、客戶發(fā)展分析、客戶行為分析等數(shù)據(jù)挖掘?qū)n}分析,逐步實(shí)現(xiàn)業(yè)務(wù)預(yù)測(cè)和信息挖掘等功能。

1)客戶分群:客戶分群將一個(gè)大消費(fèi)群體劃分為一個(gè)個(gè)細(xì)分群體,同屬一個(gè)分群的消費(fèi)者相似,而隸屬于不同分群的消費(fèi)者被視為不同的群體。企業(yè)根據(jù)客戶提出的要求和實(shí)際所做的不斷地改善產(chǎn)品和服務(wù),從而不斷提高該客戶群的滿意度。

2)客戶消費(fèi)模式分析:從消費(fèi)能力、消費(fèi)習(xí)慣、消費(fèi)周期等諸方面對(duì)客戶的話費(fèi)行為進(jìn)行分析和預(yù)測(cè),從而為相關(guān)經(jīng)營(yíng)決策提供依據(jù)。

3)客戶市場(chǎng)推廣分析:利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)優(yōu)惠策略的仿真,根據(jù)數(shù)據(jù)挖掘模型進(jìn)行模擬計(jì)費(fèi)和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題,并進(jìn)行相應(yīng)的調(diào)整優(yōu)化,以達(dá)到優(yōu)惠促銷活動(dòng)的收益最大化。

4)客戶欠費(fèi)分析和動(dòng)態(tài)防欺詐:總結(jié)各種騙費(fèi)、欠費(fèi)行為的內(nèi)在規(guī)律,并建立欺詐和欠費(fèi)行為的規(guī)則庫。當(dāng)客戶的話費(fèi)行為與庫中規(guī)則吻合時(shí),系統(tǒng)可以提示運(yùn)營(yíng)商相關(guān)部門采取措施,從而降低運(yùn)營(yíng)商的損失風(fēng)險(xiǎn)。

5)客戶流失分析:根據(jù)已有的客戶數(shù)據(jù),建立客戶屬性、服務(wù)屬性、客戶消費(fèi)情況等數(shù)據(jù)與客戶流失概率相關(guān)聯(lián)的數(shù)學(xué)模型,然后根據(jù)此模型來監(jiān)控客戶流失的可能性,如果客戶流失的可能性過高,則通過促銷等手段來提高客戶忠誠度,防止客戶流失的發(fā)生。

6)大客戶的識(shí)別:企業(yè)的大客戶群體往往是利潤(rùn)的主要來源。識(shí)別出大客戶,為他們制定有針對(duì)性的措施,提高大客戶的忠誠度,是電信運(yùn)營(yíng)商繼續(xù)保持領(lǐng)先的關(guān)鍵所在。此外數(shù)據(jù)挖掘工具不僅能夠根據(jù)現(xiàn)有的消費(fèi)量的多少來判斷用戶是否為大客戶,還應(yīng)該可以根據(jù)現(xiàn)有大客戶的資料,提取大客戶的特征,并發(fā)現(xiàn)潛在的大客戶。

7)客戶利潤(rùn)分析:分析客戶的利潤(rùn)分布情況,得到帶來不同利潤(rùn)的客戶的具體特征。系統(tǒng)將客戶利潤(rùn)分為高、中、低三種類型。用戶可以對(duì)高、中、低的具體情況進(jìn)行設(shè)置。

表1總結(jié)了電信領(lǐng)域中可以應(yīng)用的主要數(shù)據(jù)挖掘模型及其采用的方法。

3 基于K-means聚類的客戶分群[4,5]

客戶分群是根據(jù)一個(gè)或多個(gè)客戶屬性組合把所有客戶劃分成不同的類,同類內(nèi)的客戶具有最大的相似性,異類間的客戶具有最大的差異性。

通過對(duì)客戶合理的類別劃分,并對(duì)當(dāng)前客戶以及預(yù)期的客戶群作區(qū)段分析,判斷不同區(qū)段的突出特點(diǎn),對(duì)客戶總體構(gòu)成有準(zhǔn)確的認(rèn)識(shí),對(duì)客戶的服務(wù)和營(yíng)銷更具針對(duì)性。對(duì)客戶分群可以達(dá)到如下目標(biāo):

1)了解客戶的總體構(gòu)成;2)了解各種客戶價(jià)值的客戶群體特征;3)了解流失客戶的客戶群體特征;4)了解客戶群體的消費(fèi)特征;5)了解各信用等級(jí)的客戶群體特征。

數(shù)據(jù)挖掘技術(shù)中的聚類(Clustering)分析技術(shù)能夠被運(yùn)用來從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且刻畫不同客戶群的特征,達(dá)到細(xì)分客戶群的目的。本文采用K-Means聚類模型進(jìn)行客戶分群,主要因?yàn)镵-means算法具有以下優(yōu)點(diǎn):1)能夠很好的解決給出數(shù)值型屬性的數(shù)據(jù)對(duì)象的聚類問題,經(jīng)常以局部最優(yōu)結(jié)束;2)對(duì)處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮的和高效率的;3)對(duì)輸入數(shù)據(jù)順序的敏感度一般;4)雖然對(duì)處理噪聲數(shù)據(jù)的能力不高,由于電信的數(shù)據(jù)還算完整,可以通過數(shù)據(jù)預(yù)處理來彌補(bǔ);5)該算法結(jié)果比較容易理解,建模速度也較快。

K-means處理流程以算法形式表示如下。算法的復(fù)雜度是0(nkt),其中,n是所有對(duì)象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù),通常k

輸入:結(jié)果簇的數(shù)目k,包含n個(gè)對(duì)象的數(shù)據(jù)庫。

輸出:k個(gè)簇,使平均誤差準(zhǔn)則最小。

方法:

① 任意選擇k個(gè)對(duì)象作為初始的簇中心。② repeat。③ 根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象(重新)賦給最類似的簇。④ 更新簇的平均值,即計(jì)算每個(gè)簇中對(duì)象的平均值。⑤ until不再發(fā)生變化。

K-means算法嘗試找出平方誤差函數(shù)值最小的k個(gè)劃分。算法使得各聚類本身盡可能緊湊,而各聚類之間盡可能的分開。當(dāng)結(jié)果簇是密集的,而簇與簇之間區(qū)別明顯時(shí),它的效果較好。本文選擇這種算法建立數(shù)據(jù)挖掘模型,從而對(duì)客戶做初步的劃分,將含原始客戶信息的數(shù)據(jù)庫劃分成K個(gè)聚簇,使得同一簇中的對(duì)象是“相似的”,而不同簇中的是“相異的”。

4 實(shí)例研究

我們使用商業(yè)數(shù)據(jù)挖掘自動(dòng)化軟件KXEN對(duì)常州電信客戶進(jìn)行分群研究。KXEN軟件分群采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化的K-Means算法實(shí)現(xiàn)。我們選擇了營(yíng)銷服務(wù)相對(duì)薄弱的小型商客作為目標(biāo)客戶群,取得目標(biāo)客戶群的近一年的相關(guān)數(shù)據(jù)。其中小型商客是指客戶有1-2門電話、小靈通的客戶,不包含已經(jīng)安裝寬帶的客戶,有效小型商客為23074戶。基礎(chǔ)表涵蓋了以下數(shù)據(jù):①用戶及客戶的基本信息:包括客戶身份信息、聯(lián)系方式、產(chǎn)品擁有情況、入網(wǎng)時(shí)長(zhǎng)、服務(wù)開通情況、優(yōu)惠套餐信息、客戶服務(wù)信息(投訴、咨詢、催繳情況)等;②價(jià)值信息:包括業(yè)務(wù)月租費(fèi)、使用費(fèi)、優(yōu)惠費(fèi)用及增值業(yè)務(wù)、新業(yè)務(wù)、信息費(fèi)和卡類、結(jié)算費(fèi)用、繳欠費(fèi)信息等;③行為信息:包括時(shí)長(zhǎng)、次數(shù)、跳次、發(fā)話不同號(hào)碼數(shù)、時(shí)長(zhǎng)集中度、次數(shù)集中度等。

我們通過KXEN軟件對(duì)客戶價(jià)值(V)與客戶行為(B)進(jìn)行多維分群,其中參加分群的V變量有21個(gè),B變量有15個(gè)。首先根據(jù)價(jià)值維度的分群結(jié)果,計(jì)算出每個(gè)群的平均收入進(jìn)行客戶價(jià)值分析:

ARPU=客戶群總收入/m

其中m為該群客戶人數(shù),ARPU(Average Revenue Per User)為每用戶平均收入。

然后對(duì)行為B變量作Z分?jǐn)?shù)。設(shè)某個(gè)客戶i使用產(chǎn)品j的時(shí)長(zhǎng)是Tij,所有客戶使用產(chǎn)品j的平均時(shí)長(zhǎng)為Tj。對(duì)于客戶i,其產(chǎn)品j的 分?jǐn)?shù)為Zij=(Tij-Tj)/σj,其中σj為所有客戶使用產(chǎn)品j的時(shí)長(zhǎng)標(biāo)準(zhǔn)差。單個(gè)客戶i使用電信所有產(chǎn)品的Z分?jǐn)?shù)為Zi= Zij,其中n為客戶使用的產(chǎn)品數(shù)量。客戶群k的Z分?jǐn)?shù)為Zk=( Zi)/m,其中m為分群k中的客戶數(shù)。

最后對(duì)V變量按總費(fèi)用進(jìn)行群排序,形成VB矩陣交叉圖。在組成的交叉矩陣中根據(jù)客戶數(shù)的多少選出SS1-SS8共8個(gè)戰(zhàn)略客戶群,共有客戶17128戶,占總客戶的比例為74.23%,接著對(duì)戰(zhàn)略客戶群進(jìn)行特征分析。圖1是分群后的總體情況,圖2是分群矩陣圖,圖3是各群分布?xì)馀輬D。

群分布?xì)馀輬D

圖3中氣泡的大小代表客戶數(shù)的多少。SS7、SS8客戶群最大。橫軸方向越靠右,表明客戶價(jià)值越高。SS1、SS2、SS3群為高值的小商客,SS7、SS8為低值小商客。在橫軸的上下,表明客戶的消費(fèi)趨勢(shì)值情況,在橫軸以下為下降趨勢(shì),偏離越多,下降值越大。SS2群下降最多。SS1上升最為明顯。

下面以中值下降的SS6群為例進(jìn)行分析(限于篇幅,僅給出競(jìng)爭(zhēng)特征的圖表)。

1)總費(fèi)用特征

該群屬中值群,客戶數(shù)1964,占總中小商業(yè)客戶的8.5%,客戶ARPU為 93.35元;總體費(fèi)用下降趨勢(shì)為-5.28元,為各群次低;總費(fèi)用趨勢(shì)上升的客戶比例極少。總費(fèi)用前半年均值106元,前半年趨勢(shì)基本平穩(wěn)。

2)長(zhǎng)話特征

該群用戶長(zhǎng)話費(fèi)均值為9.97元,占總費(fèi)用的比例為11%,相對(duì)較低。長(zhǎng)話費(fèi)用月均下降1.96元,為各群次高。長(zhǎng)話費(fèi)用高于50元的和長(zhǎng)話費(fèi)上升的客戶比例都很低;使用傳統(tǒng)長(zhǎng)話的客戶各群中比例最高。另外,該群用戶長(zhǎng)話使用量很少,且主要使用傳統(tǒng)長(zhǎng)途,傳統(tǒng)長(zhǎng)話占長(zhǎng)話比例最高;長(zhǎng)話費(fèi)12個(gè)月均呈下降趨勢(shì)。

3)市話特征

該群用戶市話費(fèi)用均值為中值,為41.67元,月平均下降3.53元。區(qū)間費(fèi)用的均值2.92元,區(qū)間費(fèi)用趨勢(shì)月下降0.37元。

4)競(jìng)爭(zhēng)特征

結(jié)合圖4分析可得,該群客戶也有較明顯的卡類業(yè)務(wù)使用習(xí)慣,主要使用他網(wǎng)卡類業(yè)務(wù),但是下降趨勢(shì)最為明顯。

5)其他特征

該群用戶的窄帶上網(wǎng)信息費(fèi)也在下降,優(yōu)惠費(fèi)用均值為13元,為各群中次低。套餐用戶較少。

綜上可得SS6群特征如下:

a.該群為中值下降群,ARPU值為93.35元。總費(fèi)用趨勢(shì)下降較明顯,月均下降5.28元,各項(xiàng)費(fèi)用均呈下降趨勢(shì)。

b.該群客戶為長(zhǎng)話低值客戶,長(zhǎng)話主要使用傳統(tǒng)長(zhǎng)途。

c.使用他網(wǎng)卡較多,但他網(wǎng)IP卡下降趨勢(shì)明顯。SS6群使用非電信卡消費(fèi)均值最高,長(zhǎng)話流失嚴(yán)重。

針對(duì)上述情況,擬采用的營(yíng)銷策略是用超級(jí)IP、商務(wù)行、17908卡等有針對(duì)性地開展策反工作。

5 結(jié)論

數(shù)據(jù)挖掘可以對(duì)大量數(shù)據(jù)進(jìn)行自動(dòng)分析,幫助我們?nèi)W(xué)習(xí)新的潛在模式。聚類分析能夠?yàn)槲覀兘鉀Q客戶分群?jiǎn)栴},從而應(yīng)用于電信目標(biāo)市場(chǎng)營(yíng)銷。本文使用數(shù)據(jù)挖掘工具KXEN,采用K-means方法給出了一個(gè)電信客戶分群的解決方案。實(shí)踐證明本文提供的電信目標(biāo)市場(chǎng)營(yíng)銷客戶分群的解決方案是成功有效的。

參考文獻(xiàn):

[1] 廖里,余英澤.數(shù)據(jù)挖掘和數(shù)據(jù)倉庫及其在電信業(yè)中的應(yīng)用[J].重慶郵電學(xué)院學(xué)報(bào)自然科學(xué)版,2000(4):34-37,81.

[2] 宋威.江蘇電信數(shù)據(jù)挖掘?qū)n}分析報(bào)告[J].江蘇電信,2004.6.

[3] 陶露菁.基于數(shù)據(jù)挖掘的電信客戶分群設(shè)計(jì)和實(shí)現(xiàn)[D].南京大學(xué)碩士學(xué)位論文,2005.06.

[4] 鄧曉梅.基于數(shù)據(jù)挖掘的電信客戶細(xì)分模型研究[D].大連理工大學(xué)碩士學(xué)位論文,2006.10.

[5] 韓家煒,Kamber M,著. 數(shù)據(jù)挖掘:概念與技術(shù)[M].范明譯.北京:機(jī)械工業(yè)出版社,2001.