web數據挖掘在遠程教育中的應用 - 下載本文

北京工業大學工程碩士學位論文 2.Web頁面是半結構化或非結構化的。Web頁面相比于傳統的文本文檔復雜性更高。雖然Web 2.0標準中對于Web結構有一些統一的規定,但是Web文檔的風格和內容無法統一表示。

3.Web挖掘的數據源具有很強的動態性。Web頁面上的信息更新非常快,翻番的速度也非常快。

4.使用Web的用戶群體有著不同的興趣和使用目的,很難確定用戶的真正興趣和使用目的。

5.Web數據源中存在大量的虛假、無用信息。由于當前無法約束Web頁面,因此頁面大部分信息都是無用的或者和用戶的需求不相關的。

上述這些挑戰推動了Web挖掘的研究工作,使Web挖掘成為數據挖掘的一個新主題,引起了人們的極大興趣。

2.2.2 Web數據挖掘的分類

Web數據挖掘的目標是從Web的超鏈接結構、網頁內容和使用日志中探尋有用信息。依據挖掘過程中使用的數據類別,Web挖掘任務可以被劃分為三種類型[7][10]:Web結構挖掘、Web內容挖掘和Web使用挖掘。

Web結構挖掘:Web結構挖掘從表征Web結構的超鏈接中尋找有用的知識。根據網絡中存在的超鏈接,我們可以將萬維網看作一個有向圖,圖中的一條邊對應實際網絡中的一條超鏈接,超鏈接一般表明了源節點對目標節點的肯定。超鏈接對于分析網絡的特點有很重要的作用,對鏈接的研究形成了當前Web數據挖掘中一個主要的分支鏈接分析技術。在鏈接分析中,每一個網頁在網絡中的作用是不一樣的,簡單來說,如果一個網頁具有多條鏈入鏈接,那么這個網頁應該是很重要的。Google等當前主流搜索引擎大多數都是采用鏈接分析技術來對網頁排名進行預估計的,其中尤其以Google的PageRank最有名,應用也最廣泛。此外,Web結構挖掘的另一個研究熱點是社區發現技術。網絡中的社區被定義為一組具有相同主題的網頁的集合。發現網絡中的社區對于分析網絡的結構有很重要的作用,另一方面,社區發現也能從另一方面改進所有的結果。

Web內容挖掘:Web內容挖掘從網頁內容中抽取出有用的信息和知識。例如,

-10-

第2章 Web數據挖掘與遠程教育概述 根據網頁的主題,我們可以進行網頁的自動聚類或者分類。雖然這些任務與傳統的數據挖掘的任務相似,但是我們依然可以為了各種不同的目的從網頁中根據模式抽取有用的信息,例如商品描述、論壇回帖等。此外,多媒體文本數據挖掘(Multi-media Text Data Mining MTM)是數據挖掘的一個新的研究課題,它能洞察多媒體文檔中用傳統方法無法發現的模式。MTM是從多媒體文本數據中抽取事先未知的、隱藏的、完整的、新穎的知識,為決策領域提供服務的過程。多媒體文本內容挖掘應用于提取多媒體文本文檔的中心詞匯,并以此為主對多媒體文本文檔進行文本總結以及根據多媒體文本上下文內容進行翻譯。將多媒體文本結構挖掘應用于文件格式的挖掘和研究可以發現隱藏的知識、用主題對文檔進行分類、通過發現重復的模式消除瓶頸問題以及為Web文本數據挖掘提供基礎Web多媒體信息挖掘通常采用的方法有關聯規則法和特征提取法。

Web使用挖掘:Web使用挖掘從記錄每一位用戶點擊情況的使用日志中挖掘用戶的訪問模式。Web使用挖掘中的主要數據來源是服務器日志文件,日志文件包括Web服務器訪問日志和應用服務日志。根據標準的數據挖掘過程[11],整個Web使用記錄挖掘過程可分為三個相依賴的階段:數據收集和預處理、模式發現、模式分析。在預處理階段,點擊流數據被整理并分割成一組用戶事務的集合,用來表示每一個用戶對站點的不同訪問。其他數據源也可能被用在預處理階段或增強用戶事務數據,例如網站的內容或結構,以及來自網站本體的語義領域知識。在模式發現階段,統計學、數據庫以及機器學習的辦法被用來發現反應事務特定行為的隱藏模式以及Web資源、會話和用戶的簡要統計。在過程的最后階段,已發現的模式和統計信息將被進一步處理、過濾,進而得到聚類的用戶模型以投入應用,例如推薦引擎,可視化工具,以及Web分析和報告生成工具。

2.2.3 Web數據挖掘的應用領域

Web數據挖掘技術當前已經有了很多應用,例如基于Web數據挖掘的搜索引擎能夠極大地幫助我們從浩瀚的網絡資源中獲取我們所需的信息。而Web日志挖掘技術也成功的應用于商業運作中,具體表現如下:

(1)幫助網站管理者改進網站結構。例如發現站點的性能瓶頸,發現用戶的需要和興趣,獲取大量用戶的訪問模式,從而重新確定頁面之間的鏈接關系,從

-11-

北京工業大學工程碩士學位論文 而將用戶更加關注的信息有效的提供給訪問者。

(2)測定投資回報率:預測投資或者廣告的成功度,衡量網站的價值,找到最優價值的搜索引擎提供商。

(3)提供個性化網站:如果讓用戶感覺當前的站點不是一個固定的,而是為其個人量身定制的,那么這樣會使用戶產生極大的興趣,對于網站的成功具有重要的意義。

2.3 遠程教育概述

2.3.1 遠程教育的定義及其特點

在1.1節中我們已經提到,遠程教育是指教師和學生依賴遠程傳播技術而進行的非面對面的教育形式。本文中所討論的遠程教育系統是指遠程教育網站,也就是領用Internet技術所搭建的遠程教育系統,因此我們先給出遠程教育網站的定義[13]:

遠程教育是指由特定的教育組織機構(學校、公司等),綜合應用當前存在的技術,收集和設計開發各種教育資源構建的、以遠程教育學習為目的的實踐活動的總稱。遠程教育網站是以網站的形式提供遠程教育的一種形式,它將學習資源多媒體化,并通過計算機和Internet向學生傳授,從而使學生可以隨時獲得自由學習的機會,實現教育資源的共享。

與常規的學校教育相比較,現代遠程教育具有以下幾個特點[5][14]: (l)開放性:開放性是遠程教育的最基本的特征。常規學校的教育是封閉的,也就是教育、教學資源都封閉在校園內,學習的門檻較高,只有社會上的少數精英能夠接受這種形式的教育,而且,不同學校間的教學資源也不能共享。遠程教育的面向對象是社會中的所有人,教育的門檻較低,這就使得每個人接受教育的機會大幅度增加,更多的教育資源得以共享。遠程教育就是適應終身學習、大眾教育這種大環境產生的。

(2)延伸性。遠程教育將教育資源傳送給任何一個想接受這種教育的學習者,無論學習者身在什么地方,遠程教育都能利用多媒體技術將教育信息傳輸給學習者。遠程教育系統通過這種擴散,將自己的教育功能向整個社會延伸。而傳統的

-12-

第2章 Web數據挖掘與遠程教育概述 學校教育是將學習者從四面八方匯集到特定的校園中接受教育,在一定的制度下,使學習者接受統一的教育活動。這是一種功能收縮和集中式的教育形式。

(3)靈活性。傳統教育所面向的對象一般都是適齡的學生,而根據統計來看,遠程教育面向的對象主要是成年人,也就是說遠程教育承擔了在職教育、成人教育的工作。這樣依賴成交教育在教育管理、課程管理等方面都要比常規的學校教育更加靈活,適應成人學習者的特點

(4)手段中介性。遠程教育的各個環節都離不開媒體技術的中介作用。對于傳輸手段有著高度的依賴性,如果沒有媒體手段的中介作用,遠程教育將很難開展。

(5)管理性。遠程教育的靈活性、開放性和延伸性提供了極大的方便,但這種特性并不意味著盲目性和隨意性,它與隨意點擊網頁、隨意看電視頻道等行為有著本質的不同,它有目標、有管理、有反饋的并且有人管理的教育形式,它存在特有的方式和制度管理教育活動的運行。

2.3.2 當前遠程教育的不足

目前國內的現代遠程教育就是第三代遠程教育,而基于計算機網絡、利用 WWW和瀏覽技術進行教學的網絡教育是現代遠程教育即第三代遠程教育的形式之一。但是這種基于WWW的遠程教學站點卻有兩個明顯的缺點[5]:

首先,現有的遠程教育站點基本上都是靜態的,即學習資源一放上去以后, 就很少變更,設計者不知道站點的結構和課件的設計是否合理,是否符合教學規律,頁面之間的超文本鏈接是否合乎用戶的訪問習慣。

其次,現有的遠程教育站點不能根據學習者本人的情況進行因材施教,缺乏 個性,學習者不能按需學習,即無論哪一個學習者訪問該站點,看到的學習內容 幾乎都是一樣的,不能根據學習者的自身條件提供適合的學習內容或學習進度指 導。

2.3.3 Web挖掘技術在遠程教育中的應用

上一節介紹了當前遠程教育網站中存在的兩個主要問題,本節將介紹如何解決這些問題。在學習站點上積累了大量有用的教學信息,如用戶的訪問日志,注

-13-

北京工業大學工程碩士學位論文 冊信息,答疑信息,交流信息,學習進度等,這些信息都沒有被利用,造成了資源的極大浪費。Web數據挖掘技術能夠使這些信息得到充分的利用。

Web使用挖掘技術能夠充分利用用戶的訪問日志信息。被Web和應用服務器自動收集的日志數據很具體的體現了訪問者的導航行為。每一次對服務器的訪問相當于一個HTTP請求,在服務器訪問日志中產生了一條記錄。每條記錄記錄了用戶訪問的時間、客戶端的IP地址、所請求的資源以及被哪個網絡資源調用等信息。通過使用Web日志挖掘技術,我們能夠輕易的獲得用戶的訪問序列,通過對多個用戶多次訪問分析,能夠得到大部分用戶感興趣的頁面、用戶的訪問習慣等信息,這些信息可以幫助網站的組織者重新規劃網站的拓撲結構,從而使得網站能夠適合用戶的訪問習慣,增加信息組織的合理性。另外,對于用戶訪問序列的挖掘,能夠為個性化推薦提供參考信息。例如,網頁A、B、C是多數用戶常常的訪問序列,當某一個訪問者已經訪問了頁面A和頁面B時,他很可能對頁面C也感興趣,我們可以對其推薦C頁面,從而實現了個性化推薦,提高了學習效率。如果頁面C與B、A之間本來沒有連接結構,網站組織者應該去決定是否重新組織網站,從而得到更符合實際需要的網站拓撲結構。

用戶的注冊信息中存在大量的值得挖掘的信息,例如同一地區的用戶學習的課程會相似,例如某大型公司正在精心技術革新,那么此公司的員工可能會利用遠程教育來進行學習,而這些人一定是來自同一個地區的。此外用戶的年齡、受教育程度等信息也是值得利用的。本文對注冊信息的利用主要是對用戶選課信息進行挖掘。用戶的選課信息代表了用戶的學習興趣,例如用戶選擇了C++課程、數據結構課程和操作系統課程,那么這個學生應該是一個計算機專業的學生(至少是對計算機感興趣的人),這種情況下我們可以向其推薦編譯技術、計算機網絡的相關課程。另一方面,如果兩個用戶選擇的課程相似,我們可以猜測這兩個學生是不是對一個方面感興趣呢,如果很多學生互相之間選擇的課程都相似的話,我們可以認為這些學生是對一個方面感興趣的學生的集合(以后稱之為學生社區),他們表現出來的用戶行為應該是類似的。因此如果一個學生社區中大部分人選擇了課程A,那么網站可以考慮是否應該會社區中的其他學生推薦課程A,因為這些學生很可能也對課程A感興趣,只是由于一些方面的原因尚未選擇A而已。此外當今網絡上很多網站允許注冊用戶之間成為在線好友,這也可以應

-14-





黑龙江22选5兑奖期限