色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

12行簡單的Python代碼,初窺爬蟲的秘境

馬哥Linux運維 ? 來源:未知 ? 作者:胡薇 ? 2018-06-07 09:17 ? 次閱讀

往往不少童鞋寫論文苦于數據獲取艱難,輾轉走上爬蟲之路;

許多分析師做輿情監控或者競品分析的時候,也常常使用到爬蟲。

今天,本文將帶領小伙伴們通過12行簡單的Python代碼,初窺爬蟲的秘境。

爬蟲目標

本文采用requests + Xpath,爬取豆瓣電影《黑豹》部分短評內容。

運行以上的爬蟲腳本,我們得以見證奇跡

爬蟲結果與原網頁內容的對比,完全一致

通過tqdm模塊實現了良好的交互

工具準備

chrome瀏覽器(分析HTTP請求、抓包)

安裝Python 3及相關模塊(requests、lxml、pandas、time、random、tqdm)requests:用來簡單請求數據lxml:比Beautiful Soup更快更強的解析庫pandas:數據處理神器time:設置爬蟲訪問間隔防止被抓random:隨機數生成工具,配合time使用tqdm:交互好工具,顯示程序運行進度

基本步驟

網絡請求分析

網頁內容解析

數據讀取存儲

涉及知識點

爬蟲協議

http請求分析

requests請求

Xpath語法

Python基礎語法

Pandas數據處理

爬蟲協議

爬蟲協議即網站根目錄之下的robots.txt文件,用來告知爬蟲者哪些可以拿哪些不能偷,其中Crawl-delay告知了網站期望的被訪問的間隔。(為了對方服務器端同學的飯碗,文明拿數據,本文將爬蟲訪問間隔設置為6-9秒的隨機數)

豆瓣網站的爬蟲協議

HTTP請求分析

使用chrome瀏覽器訪問《黑豹》短評頁面https://movie.douban.com/subject/6390825/comments?sort=new_score&status=P,按下F12,進入network面板進行網絡請求的分析,通過刷新網頁重新獲得請求,借助chrome瀏覽器對請求進行篩選、分析,找到那個Ta

豆瓣短評頁面請求分析

通過請求分析,我們找到了目標url為'https://movie.douban.com/subject/6390825/comments?start=0&limit=20&sort=new_score&status=P&percent_type=',并且每次翻頁,參數start將往上增加20(通過多次翻頁嘗試,我們發現第11頁以后需要登錄才能查看,且登錄狀態也僅展示前500條短評。作為簡單demo,本文僅對前11頁內容進行爬取)

requests請求

通過requests模塊發送一個get請求,用content方法獲取byte型數據,并以utf-8重新編碼;然后添加一個交互,判斷是否成功獲取到資源(狀態碼為200),輸出獲取狀態

請求詳情分析

(除了content,還有text方法,其返回unicode字符集,直接使用text方法遇到中文的話容易出現亂碼)

Xpath語法解析

獲取到數據之后,需要對網頁內容進行解析,常用的工具有正則表達式、Beautiful Soup、Xpath等等;其中Xpath又快又方便。此處我們通過Xpath解析資源獲取到了前220條短評的用戶名、短評分數、短評內容等數據。(可借助chrome的強大功能直接復制Xpath,Xpath語法學習http://www.runoob.com/xpath/xpath-tutorial.html)

數據處理

獲取到數據之后,我們通過list構造dictionary,然后通過dictionary構造dataframe,并通過pandas模塊將數據輸出為csv文件

結語與彩蛋

本例通過requests+Xpath的方案,成功爬取了電影《黑豹》的部分豆瓣短評數據,為文本分析或其他數據挖掘工作打好了數據地基。本文作為demo,僅展示了簡單的爬蟲流程,更多彩蛋如請求頭、請求體信息獲取、cookie、模擬登錄、分布式爬蟲等請關注后期文章更新喲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4823

    瀏覽量

    68963
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    84993
  • 爬蟲
    +關注

    關注

    0

    文章

    82

    瀏覽量

    6985

原文標題:12行Python暴力爬《黑豹》豆瓣短評

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Python數據爬蟲學習內容

    ,利用爬蟲,我們可以解決部分數據問題,那么,如何學習Python數據爬蟲能?1.學習Python基礎知識并實現基本的爬蟲過程一般獲取數據的過
    發表于 05-09 17:25

    Python爬蟲與Web開發庫盤點

    Python爬蟲和Web開發均是與網頁相關的知識技能,無論是自己搭建的網站還是爬蟲爬去別人的網站,都離不開相應的Python庫,以下是常用的Pyth
    發表于 05-10 15:21

    Python 爬蟲:8 個常用的爬蟲技巧總結!

    python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過
    發表于 01-02 14:37

    什么是爬蟲

    什么是爬蟲爬蟲的價值?最簡單python爬蟲爬蟲基本架構
    發表于 11-05 06:13

    0基礎入門Python爬蟲實戰課

    學習資料良莠不齊爬蟲是一門實踐性的技能,沒有實戰的課程都是騙人的!所以這節Python爬蟲實戰課,將幫到你!課程從0基礎入門開始,受眾人群廣泛:如畢業大學生、轉行人群、對Python
    發表于 07-25 09:28

    Python爬蟲簡介與軟件配置

    Python爬蟲練習一、爬蟲簡介1. 介紹2. 軟件配置二、爬取南陽理工OJ題目三、爬取學校信息通知四、總結五、參考一、爬蟲簡介1. 介紹網絡爬蟲
    發表于 01-11 06:32

    完全自學指南Python爬蟲BeautifulSoup詳解

    完全自學指南Python爬蟲BeautifulSoup詳解
    發表于 09-07 08:55 ?39次下載
    完全自學指南<b class='flag-5'>Python</b><b class='flag-5'>爬蟲</b>BeautifulSoup詳解

    Python爬蟲8個常用的爬蟲技巧分析總結

    python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過
    的頭像 發表于 08-18 11:45 ?5128次閱讀

    python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

    本文檔的主要內容詳細介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
    發表于 08-28 15:32 ?29次下載

    python為什么叫爬蟲 python工資高還是java的高

    要寫1000代碼,java要寫100,而python則只需要寫20代碼。使用
    發表于 02-19 17:56 ?559次閱讀

    python實現簡單爬蟲的資料說明

    本文檔的主要內容詳細介紹的是python實現簡單爬蟲的資料說明。
    發表于 11-02 17:53 ?21次下載
    <b class='flag-5'>python</b>實現<b class='flag-5'>簡單</b><b class='flag-5'>爬蟲</b>的資料說明

    榮耀手表GS Pro星空版發布:首銷1299元

    ,將于今天 12 點開售。 榮耀手表 GS Pro 星空版靈感來自 Discovery 對未知星空的探索,將金星的璀璨顏色運用到了表圈和側面按鍵的設計,同時以手工拋光、拉絲、不銹鋼精工和蝕刻工藝搭配
    的頭像 發表于 01-22 13:52 ?1857次閱讀

    Python寫網絡爬蟲

    Python寫網絡爬蟲的方法說明。
    發表于 06-01 11:55 ?21次下載

    利用Python編寫簡單網絡爬蟲實例

    利用 Python編寫簡單網絡爬蟲實例2 實驗環境python版本:3.3.5(2.7下報錯
    發表于 02-24 11:05 ?14次下載

    crawlerdetect:Python代碼檢測爬蟲

    是否擔心高頻率爬蟲導致網站癱瘓? 別擔心,現在有一個Python寫的神器——crawlerdetect,幫助你檢測爬蟲,保障網站的正常運轉。 1.準備 開始之前,你要確保Python
    的頭像 發表于 11-02 11:31 ?628次閱讀
    主站蜘蛛池模板: 乱爱性全过程免费视频 | 善良的小峓子2在钱免费中文字 | 国产精品无码人妻在线 | 老熟风间由美AV在线一区二区 | 国产精品久久久久久影院 | 冈本视频黄页正版 | 亚洲国产精品高清在线 | 亚洲欧洲无码AV在线观看你懂的 | 成人a视频片在线观看免费 成人a毛片久久免费播放 | 抽插嫩B乳无码漫 | 亚洲成人日韩 | 日本久久久WWW成人免费毛片丨 | 在线观看免费精品国产 | 儿媳妇完整版视频播放免费观看 | 男人舔女人的阴部黄色骚虎视频 | 国产精品A久久久久久久久 国产精品A久久777777 | 成在线人免费 | 久色乳综合思思在线视频 | 91久久综合精品国产丝袜长腿 | 甜涩性爱下载 | 影音先锋av丝袜天堂 | 97视频在线免费播放 | 青青草原国产 | 亚洲高清免费在线观看 | 高肉黄暴NP文公交车 | 亚洲精品第五页中文字幕 | 精品含羞草免费视频观看 | 国产人妻精品无码AV在线五十路 | 中文字幕久久熟女人妻AV免费 | 午夜一级视频 | 探花口爆颜射乳交日韩 | 国产精品丰满人妻AV麻豆 | xvideos中文版在线视频 | 成人国产在线观看 | 久久a级片| 日韩黄色软件 | 一区二区三区内射美女毛片 | 琪琪SEE色原网色原网站18 | 曰批视频免费40分钟不要钱 | 成人动漫bt种子 | av av在线 |