網絡輿情分析研究現狀范文

時間:2023-05-30 16:11:28

導語:如何才能寫好一篇網絡輿情分析研究現狀,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

網絡輿情分析研究現狀

篇1

關鍵詞:智能檢測與分析;網絡輿情;數據挖掘

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

隨著互聯網的快速發展,網絡媒體作為一種新的信息傳播形式,已深入人們的日常生活。網絡言論活躍已達到前所未有的程度,不論是對國家政策的討論,還是針對國內或國際的重大事件,都能馬上形成網上輿論,這種網絡來表達觀點、傳播思想產生輿論壓力,達到任何部門、機構都無法忽視的地步。

網絡輿情通過BBS論壇、博客、新聞跟貼、轉貼等形式對現實生活中某些熱點、焦點問題等進行反應,其中不乏較強影響力、傾向性的言論和觀點。如果引導不善,負面的網絡輿情將對社會公共安全形成較大威脅。對相關政府部門來說,如何加強對網絡輿論的及時監測、有效引導,以及對網絡輿論危機的積極化解,對維護社會穩定、促進國家發展具有重要的現實意義,也是創建和諧社會的應有內涵。

1 系統價值

1.1 社會效益分析

網絡輿情智能監測與分析系統利用數據挖掘技術實現對網絡輿情的統計分析,并以此作為網絡輿情監測的管理的依據。具體作用表現在以下幾個方面:

1) 系統向決策者提供客觀、準確的輿情信息,有利于決策者做出正確的決策

2) 系統向決策者提供系統的、高效的、綜合的、全面的輿情信息,便于決策者全面的、正確的把握所需的信息, 提高決策效率, 啟迪決策思維

3) 系統能提供各種輿情的趨勢分析信息給決策者

1.2 經濟效益分析

目前,由于互聯網的日益普及,各種輿情的不斷涌現,好的、壞的都有。政府部門、大型機構、社會企業等都希望能盡早識別不良傾向的、帶有煽動或甚至含有社會危害的言論,或者是獲取政策落實、制度實施效果等信息。這些需要揭示了系統建設在帶來巨大的社會價值的同時帶來巨大的經濟效益。

2 同類系統現狀

基于目前的網絡現狀,為數不多的網絡輿情監測系統基本上是采用關鍵詞搜索進行輿情信息檢測,由于關鍵詞搜索的查全率和查準率都不高,因此網絡輿情監測的效果不夠理想,更是無法自動發現新的輿情點。

部分網絡輿情檢測系統只是在企業內部使用,無法適用于政府部門等大型機構,部分系統采用的算法效率低,不能快速對數據進行處理,因而無法滿足超大網絡環境下的輿情檢測與分析,無法做到自學習成長,沒有類似知識庫的自動累積處理功能,必須人工協助處理。基于此種情況,提出創建《網絡輿情智能檢測與分析系統》項目來解決這些問題。

3 網絡輿情智能檢測與分析系統簡介

該系統核心部分包括信息獲取、信息處理、前端信息展現幾個部分。實現從網頁獲取數據,利用數據挖掘技術對數據進行清洗、提煉、分析總結,最終形成決策信息并存入數據庫中,提供靈活的前端查詢機制,把信息傳遞給決策人員。

網絡輿情智能檢測與分析系統實現以下目標:1) 對熱點話題、敏感話題識別。2) 實現傾向性分析。3) 實現對輿情主題的跟蹤。4) 自動形成輿情摘要。5) 形成趨勢分析報告。6) 自動識別突發事件及發展趨勢。7) 對敏感內容實現預警。8) 提供輿情分析統計報告提供決策支持。

4 系統關鍵技術研究

4.1 網絡輿情行為模式識別技術

對于“行為模式識別”算法應用最廣和成熟的是防垃圾郵件的“行為模式識別技術”。在垃圾郵件的行為模式識別技術的基礎上,根據網絡輿情的特點,輿情內容內在結構關系、演化規律等基礎信息,收集網絡上典型的熱點話題、敏感話題、政策熱議等方面的適當數量的文章組成行為識別學習訓練庫,利用網上話題的熱度、焦度、敏度、頻度、銳度、歧度、粘度等度量指標作為輿情分析的依據,配以科學的算法,通過對“訓練庫“進行學習及總結、計算,結合網絡輿情信息產生和傳播的典型行為特征,建立網絡輿情行為模式數學統計模型,以此實現網絡輿情的智能發現。

4.2 自動分類和聚類技術[1]

自動分類是指按照已有的分類,把相關信息按照分類的標準進行歸類。聚類則事先沒有定義特點的分類及標準,是在分析過程中利用一定的算法,把類似的內容進行自動劃類并聚合的處理過程。

根據輿情分析的特點,本系統基于統計的自動分類技術,利用向量空間模型來表示輿情分析的文檔。對輿情文檔特征進行抽取和加權、機器學習。在處理過程中,考慮到不同位置出現的語詞的價值不同而給定不同的加權系數。機器學習的方法主要有支撐向量機、最近K鄰居方法和貝葉斯算法[2] 等,可以根據輿情文檔的特點而選擇相應的方法。

輿情文檔自動聚類的關鍵步驟有文檔表示、相似度計算、聚類和給出聚類標識等。常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等。在網絡輿情分析中,根據輿情分析的目的,選擇那些最具有區分性的特征,而不是大多數文檔都具有的特征來實現自動聚類。

在本系統解決方案中采取了自動歸類和自動聚類相結合的方式,先進行自動歸類,再在各類別之下進行自動聚類。

4.3 內容分析技術

內容分析法是一種對于傳播內容進行客觀,系統和定量的描述的研究方法。其實質是對傳播內容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準確意義的過程。內容分析的過程是層層推理的過程。隨著信息技術的發展,計算機的性能不斷提高,各種內容分析技術也逐漸成熟,為網絡輿情的深度挖掘分析奠定了很好的基礎。

《內容分析法:媒介信息量化研究技巧》[3]一書提供了系統全面的內容分析研究的操作指南,深入分析了內容分析中的各種常見問題,如測量、抽樣、信度、效度和數據分析中的各種技術。在進行網絡輿情內容分析前,獲取相關網絡輿情數據,經過數據清洗,獲取有針對性的、信息量大、覆蓋全面的、連續的內容樣例,定義分析單元。對數據進行量化處理形成評判記錄和進行信度分析兩部分內容,再根據網絡輿情建立合適的維度,最后進行統計分析,并形成分析結論。

5 系統實現

在系統開發過程中,要建立了若干知識庫,利用垂直搜索、知識發現、自動分詞和抽詞、自動分類和聚類、內容分析等技術,實現對海量網絡信息進行監測、網絡輿情的自動發現和分析。該系統建設的核心是要收集圍繞主題的、足夠量的數據,并經過整理形成規范數據再進行挖掘,輸出有用的決策信息,系統結構圖如圖1所示。

系統涉及五個主要方面:

5.1 數據收集處理

進行網絡輿情分析的前提是獲取基于某個主題的、數量足夠多的、完整的網絡數據。為了解決這個問題,系統建設時考慮通過建立數據收集規則來達到此目的。在數據收集規則時主要考慮要收集的主題、要搜索的范圍、更新頻度、收集要到達的數據量等。

在規則制定后,信息收集組件利用類似“網絡爬蟲”的技術,按照已經設置的收集規則,到網絡上進行數據收集。 數據收集后按照主題歸于相應的數據庫中,以便下一步的數據處理。

5.2 信息處理模塊

需要把收集的數據轉為有用的信息,在收集到相關數據后,先期對已經收集完成的數據進行格式化、數據清洗、信息處理加工等步驟,最終形成規范的、適于統計的數據。然后再利用數據挖掘技術對數據進行挖掘,形成相應的統計信息,便于查詢輸出。下面將就關鍵核心的處理步驟進行說明。

5.2.1 對原始數據的預處理

為了在數據挖掘分析前對數據進行預處理,形成最終有效的待分析數據。首先是繼續數據格式化,利用數據格式化實現對各種網頁格式的數據進行模式化解析,形成系統統一的數據格式;然后進行數據清洗把“臟”的“洗掉”。該處理步驟主要把不完整的數據、錯誤的數據、重復的數據等不規范的數據進行清洗,去除無效的、重復的數據,形成數量足夠的、時間段連續的、內容圍繞主題的數據,為下一步的深度挖掘做準備。

5.2.2 實現對敏感輿情的報警

為了解決相關管理人員需要及時掌握敏感熱點或大事件的動態,系統特增加了此處理步驟,在此將利用對敏感熱點或大事件的特征進行布控,在布控策略規則中設置需要關注的熱點敏感關鍵字,相關組件將對存儲的內容進行掃描、分析。對匹配上的內容進行預警并產生預警記錄,同時支持手機和郵件的報警方式,及時把相關信息發送給預設的人員。該模塊包括關鍵字匹配組件、報警處理組件。

5.2.3 數據的深度挖掘分析處理

經過預處理的數據還只是數據,并沒有形成有用的信息,所以引入數據挖掘分析處理步驟,以便對數據利用前面介紹的輿情行為模式分析、內容分析等挖掘技術進行深度挖掘及分析,形成系統的核心信息數據,為數據展現提供數據來源。

為了對數據進行挖掘,系統內置的多種數據挖掘算法,實現自動對信息進行分類、總結。具體內容如下:

針對中文信息的處理與分析,系統中的自動分詞組件采用詞典和規則為基礎,綜合利用了基于概率分析的語言模型方法,使分詞的準確性達到99%以上。在語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵詞與自動摘要。利用網絡輿情模式識別技術可以自動發現新的網絡輿情模式,便于用戶盡早布防。

為解決自動分類的難題,系統內置自動分類組件通過對訓練庫的學習,獲取每個分類的屬性特征模型,然后使用這一分類體系對未知分類情況的數據進行分類。聚類組件將結構化的數據集合中的數據根據需要統計的主題劃分不同的子集,自動學習形成新的分類,滿足自動擴展分類的需要。

面對收集的海量數據,如何獲取用戶所需的信息這個是一個關鍵問題,系統通過關聯分析、趨勢分析,從海量數據中挖掘關聯規則。同時,利用趨勢分析技術,分析網絡輿論等隨時間的發展趨勢情況,以便實現對輿論環境的監測與不良傾向的預警。

做到上面的內容還只是實現了系統的一部分,系統另外提供對新的知識的自動發現。利用自動分類與聚類等技術基礎,對知識進行挖掘并匯總分析,能實現對新的網絡輿情的發現及獲取發展趨勢。同時把結果合并到系統已有的知識庫,達到不斷擴展知識庫的要求。

有時候用戶會要對特定的事件或輿情進行跟蹤,為了解決此問題,通過系統提供的對象跟蹤組件,利用用戶在系統中設置的需要特別跟蹤的對象的特征,在分析過程中對涉及該對象的數據進行特別分析和處理,形成該對象的信息鏈存儲到數據庫中,在數據展現時可以通過圖表等方式展現對象跟蹤鏈的相關信息。

5.3 海量數據的存儲

網絡輿情數據量是海量的,如何提高查詢的反饋速度是另外一個重要的問題,系統通過建立全文索引技術,對存儲在數據倉庫中的數據建立合理的索引,使數據查詢輸出時提高輸出速度及準確性,特別是針對重要的關鍵字進行檢索時能大大的提高查詢速度。

除了全文索引,數據管理系統的選擇是另外一個重點。考察目前已經成熟的數據庫管理系統,發現Oracle是最合適的。所以本系統就采用Oracle作為數據存儲的數據庫系統,同時可以利用其提供的多維查詢技術,實現Olap的查詢要求。

5.4 數據快速,準確的展現

有了海量的、有用的信息,如何把這些數據展現給用戶?在本系統主要考慮對關鍵字的查詢輸出、輿情新關鍵字挖掘查詢、輿情報告的輸出、報警信息的查詢、各種統計報表的輸出。

對于輸出的技術要求,在數據輸出時系統利用Oracle系統的Olap技術結合系統提供的查詢頁面框架,可以實現用戶從多個角度對各類數據的查詢,在頁面處理上目前市面上已經有相關的成熟的技術可以作為參考,相信不會有技術難點。

針對輸出的內容,系統內置了部分統計報表,這些報表是基于網絡輿情分析專家在輿情檢測與分析方面的專業知識進行設計,能滿足大多數用戶的需要。為了滿足個性化的查詢輸出,同時系統支持用戶自定義適合自己的統計報表。

5.5 通過系統管理功能保證系統正常運行

為了滿足個性化的管理要求,系統提供系統設置、角色管理、用戶管理、數據備份等功能,支持定義常用的網頁結構及識別規則的定義,用于在數據獲取后的格式化分析。解決網頁結構識別規則定義、報警關鍵字設置、報警記錄接收手機號或郵箱設置、系統管理用戶權限管理等內容。

6 小結

該文先介紹了目前網絡現狀、同時就同類分析產品的不足進行了描述。另外著重從《網絡輿情智能檢測與分析系統》的兩個重點部分進行描述,從最核心的技術與模塊組成來闡述系統是如何實現的。

參考文獻:

[1] Han J,Kamber M.數據挖掘:概念與技術[M].Morgan Kaufmann,2000.