資料介紹
在手機、平板電腦等電子媒介的人均持有率大于一的今天,網絡自媒體的傳播達到了前所未有的巔峰。本文通過基于Hadoop平臺的mahout數據挖掘框架,選用經過Canopy算法優化后的K-means聚類分析算法,對數據進行聚類分析,對內涵眾多信息的網絡自媒體推文進行數據挖掘,以發現微博數據中蘊含的與當下社會和生活相關的熱點詞,后通過ArcGIS,對文本類簇進行核密度分析,再做漁網柵格化分析,使離散的類簇樣本具備鄰接性,能在可視化中直觀地看到類簇主題的主要分布情況,以研究人們日常生活中的習慣、了解單一個人的喜好,以及對某個社會事件的評價等日常生活中隱含著關于社會和生活相關的信息。
在互聯網技術快速發展的今天,網絡自媒體在近些年得到了爆炸式的增長,它以病毒傳播的形式快速地滲透到了各行各業中,給予了所有人展示自我和了解他人的途徑[1]。新浪微博作為國內大型網絡自媒體平臺之一,它具有龐大的用戶基礎,以及由這基數龐大的用戶群體所產生的與個人生活或社會現象等與各行各業相關的大量信息;隨著Web2.0 時代的發展成熟,微博除了基于常規數據的數據挖掘以外,還有大量的包含有經緯度位置屬性的數據;這些空間位置數據可以很好地將我們的信息挖掘結果通過各大地圖的前端API 很直觀地展示出來,讓我們能很好地發現各種個人生活或社會現象等與各行各業、個人相關的話題或者感興趣的商品等事物的空間分布規律等的空間信息,因此基于微博的數據挖掘研究是十分有價值的科研方向。
空間數據挖掘與知識發現(SDMKD, Spatial Data Mining and Knowledge Discovery)是數據挖掘和知識發現的分支學科,它通過對空間數據集進行一系列的處理,最終得到空間特征規則、空間聚類規則以及空間分布規律等能夠直觀展現空間實體的信息。最早開始關注、了解空間數據挖掘這一領域的人,是李德仁院士,他曾經在二十世紀末期召開的國際地理信息系統學術會議上,由他首次提出空間數據挖掘和知識發現理論,且研究并提出了空間數據挖掘和知識發現的理論框架。在現存的空間數據庫里蘊含著巨量的信息,其中包括山高、河寬等可以使用地理信息系統的查詢工具發現的淺層信息;但除了淺層信息以外還有很多深層次的,如空間分類規則、空間偏差等信息則難以利用地理信息系統的查詢方法來獲取,只能通過運算或者挖掘等手段才能夠發現這些信息。
由于云計算的迅速崛起,為我們在解決機器學習中的聚類問題時面臨的復雜、大量的迭代計算提供了出色的解決方案;其中在眾多的分布式計算框架中,開源框架Hadoop 以其穩定的性能和廉價的成本被眾多企業和科研機構所青睞,與傳統并行框架相比,它具有高效、高可用、易部署等特點;apache 組織在該平臺基礎上開發了一個針對機器學習算法的計算框架——mahout;本文將以使用mahout 加上Hadoop組成的平臺為基礎:Hadoop 生態中的HDFS 為數據存儲系統;Hadoop 生態中的MapReduce 為分布式計算框架;然后選用Canopy 算法優化后的K-means 聚類分析算法,利用搭載在Hadoop 集群上的Mahout數據挖掘框架來實現并行的聚類算法操作,最后,使用可視化分析的手段,將帶有主題的類簇展示在地圖上,用這種更直觀的方式來分析這些微博數據所蘊含的信息,以研究網絡輿論中隱含著關于社會和生活中相關的信息,為社會的和諧、穩定的發展提供支持。
- 基于Oracle-Spatial空間數據共享系統設計
- 如何使用數據庫技術實現空間數據共享系統的設計 13次下載
- 海量空間數據庫應該如何進行實施策略 4次下載
- 如何使用K-Means聚類算法改進的特征加權算法詳細資料概述 10次下載
- 如何使用多維網格空間進行改進K-means聚類算法資料概述 1次下載
- 什么是空間數據庫?有什么特點?如何進行空間數據庫的設計? 21次下載
- 基于ORDB的空間數據庫的研究 0次下載
- GML空間數據壓縮技術研究 0次下載
- 論空間數據處理與空間數據挖掘 0次下載
- 改進的k-means聚類算法在供電企業CRM中的應用
- 基于Agent的分布式空間數據挖掘系統
- 基于MapObjcts的空間數據歷史管理研究
- 空間數據插件技術研究
- 基于改進演化算法的空間數據聚類方法
- 面向網絡的海量影像空間數據在線分發技術
- 深入理解 Sora 的技術原理 1721次閱讀
- GIS可處理非地理空間數據嗎 388次閱讀
- 賦能現代時空數據:PIE-Engine Server全面支持STAC時空資產目錄規范 1448次閱讀
- 基于距離的聚類算法K-means的設計實現 2088次閱讀
- 基于GIs和webGIS技術實現區域空間資源綜合管理系統的子系統設計 1307次閱讀
- 基本的k-means算法流程 1.9w次閱讀
- 基于FPGA上的仿真分析確定適合空間應用的AES算法設計詳解 908次閱讀
- K-Means算法的簡單介紹 4835次閱讀
- Python無監督學習的幾種聚類算法包括K-Means聚類,分層聚類等詳細概述 3w次閱讀
- K-means算法原理理論+opencv實現 6031次閱讀
- K-means的優缺點及改進 3.1w次閱讀
- k-means算法原理解析 8260次閱讀
- 關聯規則挖掘——Apriori算法的基本原理以及改進 9325次閱讀
- 怎么學習數據挖掘_如何系統地學習數據挖掘 4725次閱讀
- 什么叫數據挖掘_數據挖掘技術解析 1.9w次閱讀
下載排行
本周
- 1TC358743XBG評估板參考手冊
- 1.36 MB | 330次下載 | 免費
- 2開關電源基礎知識
- 5.73 MB | 11次下載 | 免費
- 3嵌入式linux-聊天程序設計
- 0.60 MB | 3次下載 | 免費
- 4DIY動手組裝LED電子顯示屏
- 0.98 MB | 3次下載 | 免費
- 5基于FPGA的C8051F單片機開發板設計
- 0.70 MB | 2次下載 | 免費
- 651單片機窗簾控制器仿真程序
- 1.93 MB | 2次下載 | 免費
- 751單片機大棚環境控制器仿真程序
- 1.10 MB | 2次下載 | 免費
- 8基于51單片機的RGB調色燈程序仿真
- 0.86 MB | 2次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 2555集成電路應用800例(新編版)
- 0.00 MB | 33566次下載 | 免費
- 3接口電路圖大全
- 未知 | 30323次下載 | 免費
- 4開關電源設計實例指南
- 未知 | 21549次下載 | 免費
- 5電氣工程師手冊免費下載(新編第二版pdf電子書)
- 0.00 MB | 15349次下載 | 免費
- 6數字電路基礎pdf(下載)
- 未知 | 13750次下載 | 免費
- 7電子制作實例集錦 下載
- 未知 | 8113次下載 | 免費
- 8《LED驅動電路設計》 溫德爾著
- 0.00 MB | 6656次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935054次下載 | 免費
- 2protel99se軟件下載(可英文版轉中文版)
- 78.1 MB | 537798次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420027次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234315次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191186次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183279次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138040次下載 | 免費
評論
查看更多