色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

來看看Pythoner志朋的爬蟲實驗

馬哥Linux運維 ? 來源:未知 ? 作者:李倩 ? 2018-11-23 15:43 ? 次閱讀

下面我們來看看Pythoner志朋的爬蟲實驗。

一、使用的技術棧:

爬蟲:python27 +requests+json+bs4+time

分析工具: ELK套件

開發工具:pycharm

二、數據成果

爬取了知乎部分的用戶數據信息

三、簡單的可視化分析

1.性別分布

0 綠色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性別不確定

可見知乎的用戶男性頗多。

2.粉絲最多的top30

粉絲最多的前三十名:依次是張佳瑋、李開復、黃繼新等等,去知乎上查這些人,也差不多這個排名,說明爬取的數據具有一定的說服力。

3.寫文章最多的top30

四、爬蟲架構

爬蟲架構圖如下:

說明:

選擇一個活躍的用戶(比如李開復)的url作為入口url.并將已爬取的url存在set中。

抓取內容,并解析該用戶的關注的用戶的列表url,添加這些url到另一個set中,并用已爬取的url作為過濾。

解析該用戶的個人信息,并存取到本地磁盤。

logstash取實時的獲取本地磁盤的用戶數據,并給elsticsearch

kibana和elasticsearch配合,將數據轉換成用戶友好的可視化圖形。

五.編碼

爬取一個url:

解析內容:

存本地文件:

代碼說明:

需要修改獲取requests請求頭的authorization。

需要修改你的文件存儲路徑。

源碼下載:https://github.com/forezp/ZhihuSpiderMan,記得star哦!

六.如何獲取authorization

打開chorme,打開https://www.zhihu.com/,

登陸,首頁隨便找個用戶,進入他的個人主頁,F12(或鼠標右鍵,點檢查)

點擊關注,刷新頁面,見圖:

七、可改進的地方

可增加線程池,提高爬蟲效率

存儲url的時候我才用的set(),并且采用緩存策略,最多只存2000個url,防止內存不夠,其實可以存在redis中。

存儲爬取后的用戶我說采取的是本地文件的方式,更好的方式應該是存在mongodb中。

對爬取的用戶應該有一個信息的過濾,比如用戶的粉絲數需要大與100或者參與話題數大于10等才存儲。防止抓取了過多的僵尸用戶。

八.關于ELK套件

關于elk的套件安裝就不討論了,具體見官網就行了。網站:https://www.elastic.co/

另外logstash的配置文件如下:

九、結語

從爬取的用戶數據可分析的地方很多,比如地域、學歷、年齡等等,我就不一一列舉了。

另外,我覺得爬蟲是一件非常有意思的事情,在這個內容消費升級的年代,如何在廣闊的互聯網的數據海洋中挖掘有價值的數據,是一件值得思考和需不斷踐行的事情。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 互聯網
    +關注

    關注

    54

    文章

    11183

    瀏覽量

    103629
  • python
    +關注

    關注

    56

    文章

    4806

    瀏覽量

    84935

原文標題:碉堡了!一小時爬取百萬知乎用戶信息的Python神器曝光

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    很熱鬧,常來看看

    很熱鬧,常來看看
    發表于 02-15 14:39

    天天來看看~~~

    天天來看看~~~
    發表于 12-15 16:42

    每天上來看看

    每天上來看看挺好,
    發表于 12-22 22:53

    來看看怎么樣 下來看看怎么樣 下來看看怎么樣

    來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下
    發表于 05-13 19:01

    來看看怎么樣 下來看看怎么樣 下來看看怎么樣

    來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣下來看看怎么樣[table=98%][tr][td]下
    發表于 05-13 19:03

    VR全景聲巨幕VR影院值不值購買?詳細體驗總結

    多大的解析流。   大VR自身平臺上具有100+的巨幕視頻、普通電影大概有1000+的視頻、藍光電影40+,在來看看支持的視頻應用,愛奇藝VR、優酷VR、2大視頻巨頭的VR應用,這VR視頻不要太多
    發表于 10-04 09:24

    網絡爬蟲nodejs爬蟲代理配置

    隨著互聯網的發展進步,現在互聯網上也有許多網絡爬蟲。網絡爬蟲通過自己爬蟲程序向目標網站采集相關數據信息。當然互聯網的網站會有反爬策略。比如某電商網站就會限制一個用戶IP的訪問頻率,從而出現驗證碼
    發表于 09-01 17:23

    什么是爬蟲

    什么是爬蟲爬蟲的價值?最簡單的python爬蟲爬蟲基本架構
    發表于 11-05 06:13

    如何運行imdb爬蟲

    imdbcn爬蟲實例 imdbcn網站結構分析 創建爬蟲項目 運行imdb爬蟲
    發表于 11-05 07:07

    ADS設計實驗教程

    ADS設計實驗教程,又需要的喲許下來看看
    發表于 01-25 10:28 ?0次下載

    爬蟲是如何實現數據的獲取爬蟲程序如何實現

    進入大數據時代,爬蟲技術越來越重要,因為它是獲取數據的一個重要手段,是大數據和云計算的基礎。那么,爬蟲到底是如何實現數據的獲取的呢?今天和大家分享的就是一個系統學習爬蟲技術的過程:先掌握爬蟲
    發表于 01-02 16:30 ?10次下載
    <b class='flag-5'>爬蟲</b>是如何實現數據的獲取<b class='flag-5'>爬蟲</b>程序如何實現

    Python爬蟲 你真的會寫爬蟲嗎?

    你以為你真的會寫爬蟲了嗎?快來看看真正的爬蟲架構!
    的頭像 發表于 05-02 17:02 ?3936次閱讀
    Python<b class='flag-5'>爬蟲</b> 你真的會寫<b class='flag-5'>爬蟲</b>嗎?

    如何使用表格做爬蟲

    很多人不知道,其實我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數據規整,不需要花太多時間進行數據清洗,來看看是怎么實現的。
    的頭像 發表于 02-03 15:15 ?4941次閱讀
    如何使用表格做<b class='flag-5'>爬蟲</b>

    利用Python編寫簡單網絡爬蟲實例

    利用 Python編寫簡單網絡爬蟲實例2 實驗環境python版本:3.3.5(2.7下報錯
    發表于 02-24 11:05 ?14次下載

    導熱凝膠的特色有哪些,來看看

    導熱凝膠的特色有哪些,來看看,15年行業老經驗共享
    的頭像 發表于 03-07 17:12 ?3155次閱讀
    導熱凝膠的特色有哪些,<b class='flag-5'>來看看</b>
    主站蜘蛛池模板: 亚洲国产精品自在自线观看| 国产成人无码精品久久久按摩| 久久久大香菇| 最近日本字幕免费高清| 暖暖日本 在线 高清| 囯产精品一区二区三区线| 亚洲色图激情文学| 女人被躁到高潮嗷嗷叫小| 国产精品久久久久久久久爆乳| 亚洲午夜精品aaa级久久久久| 免费黄色网址在线观看| 国产成人综合在线视频| 伊人久久精品线影院| 日本经典片免费看| 久草在线一免费新视频| 成片免费观看视频在线网| 亚洲日韩在线天堂一| 人妻激情综合久久久久蜜桃| 好湿好滑好硬好爽好深视频| china18一19 第一次| 亚洲乱码日产精品BD在线下载| 欧美精品九九99久久在免费线| 国产麻豆剧果冻传媒免费网站 | 99爱视频在线观看| 特级黑人三人共一女| 绝对诱惑在线试听| 国产精品亚洲精品日韩电影| 97在线播放| 亚洲国产精品天堂在线播放| 青青草原伊人| 久久综合久久鬼色| 国产一浮力影院| 成人小视频在线观看免费| 在线观看成人免费| 香港成人社区| 人妻体体内射精一区二区| 老师的玉足高跟鞋满足我| 国产又粗又猛又爽黄老大爷| 成人在线观看免费视频| 999精品在线| 一个人高清在线观看日本免费|