色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python爬蟲:尋找并分析百度云的轉存api

馬哥Linux運維 ? 來源:未知 ? 作者:李倩 ? 2018-03-31 09:18 ? 次閱讀

尋找并分析百度云的轉存api

首先你得有一個百度云盤的賬號,然后登錄,用瀏覽器(這里用火狐瀏覽器做示范)打開一個分享鏈接。F12打開控制臺進行抓包。手動進行轉存操作:全選文件->保存到網盤->選擇路徑->確定。點擊【確定】前建議先清空一下抓包記錄,這樣可以精確定位到轉存的api,這就是我們中學時學到的【控制變量法】2333。

可以看到上圖中抓到了一個帶有 “transfer” 單詞的 post 請求,這就是我們要找的轉存(transfer)api 。接下來很關鍵,就是分析它的請求頭和請求參數,以便用代碼模擬

點擊它,再點擊右邊的【Cookies】就可以看到請求頭里的 cookie 情況。

cookie分析

因為轉存是登錄后的操作,所以需要模擬登錄狀態,將與登錄有關的 cookie 設置在請求頭里。我們繼續使用【控制變量法】,先將瀏覽器里關于百度的 cookie 全部刪除(在右上角的設置里面,點擊【隱私】,移除cookies。具體做法自己百度吧。)

然后登錄,右上角進入瀏覽器設置->隱私->移除cookie,搜索 "bai" 觀察 cookie 。這是所有跟百度相關的 cookie ,一個個刪除,刪一個刷新一次百度的頁面,直到刪除了 BDUSS ,刷新后登錄退出了,所以得出結論,它就是與登錄狀態有關的 cookie 。

同理,刪除掉 STOKEN 后,進行轉存操作會提示重新登錄。所以,這兩個就是轉存操作所必須帶上的 cookie 。

弄清楚了 cookie 的情況,可以像下面這樣構造請求頭。

除了上面說到的兩個 cookie ,其他的請求頭參數可以參照手動轉存時抓包的請求頭。這兩個 cookie 預留出來做參數的原因是 cookie 都是有生存周期的,過期了需要更新,不同的賬號登錄也有不同的 cookie 。

參數分析

接下來分析參數,點擊【Cookies】右邊的【Params】查看參數情況。如下:

上面的query string(也就是?后跟的參數)里,除了框起來的shareid、from、bdstoken需要我們填寫以外,其他的都可以不變,模擬請求的時候直接抄下來。

前兩個與分享的資源有關,bdstoken與登錄的賬號有關。下面的form data里的兩個參數分別是資源在分享用戶的網盤的所在目錄和剛剛我們點擊保存指定的目錄。

所以,需要我們另外填寫的參數為:shareid、from、bdstoken、filelist 和 path,bdstoken 可以手動轉存抓包找到,path 根據你的需要自己定義,前提是你的網盤里有這個路徑。其他三個需要從分享鏈接里爬取,這個將在后面的【爬取shareid、from、filelist,發送請求轉存到網盤】部分中進行講解。

搞清楚了參數的問題,可以像下面這樣構造轉存請求的 url 。

爬取shareid、from、filelist,發送請求轉存到網盤

以上面這個資源鏈接為例(隨時可能被河蟹,但是沒關系,其他鏈接的結構也是一樣的),我們先用瀏覽器手動訪問,F12 打開控制臺先分析一下源碼,看看我們要的資源信息在什么地方。控制臺有搜索功能,直接搜 “shareid”。

定位到4個shareid,前三個與該資源無關,是其他分享資源,最后一個定位到該 html 文件的最后一個標簽塊里。雙擊后可以看到格式化后的 js 代碼,可以發現我們要的信息全都在里邊。如下節選:

可以看到這兩行

yunData.PATH 只指向了一個路徑信息,完整的 filelist 可以從 yunData.FILEINFO 里提取,它是一個 json ,list 里的信息是Unicode編碼的,所以在控制臺看不到中文,用Python代碼訪問并獲取輸出一下就可以了。

直接用request請求會收獲 404 錯誤,可能是需要構造請求頭參數,不能直接請求,這里博主為了節省時間,直接用selenium的webdriver來get了兩次,就收到了返回信息。第一次get沒有任何 cookie ,但是baidu 會給你返回一個BAIDUID ,在第二次 get 就可以正常訪問了。

yunData.FILEINFO 結構如下,你可以將它復制粘貼到json.cn里,可以看得更清晰。

清楚了這三個參數的位置,我們就可以用正則表達式進行提取了。代碼如下:

爬取到了這三個參數,就可以調用之前的 transfer 方法進行轉存了。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • python
    +關注

    關注

    56

    文章

    4807

    瀏覽量

    85021
  • 百度云
    +關注

    關注

    0

    文章

    53

    瀏覽量

    7833

原文標題:Python爬蟲實戰:抓取并保存百度云資源(附代碼)

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Labview可以調用百度地圖API嗎?

    如題,Labview可以調用百度地圖API,怎么調用?有例程就最好,新手求幫助
    發表于 07-19 15:44

    百度地圖離線API調用教程

    如何制作呢,今天就教大家簡單實用的方法制作離線百度地圖,絕對簡單,甚至不需要具備任何編程知識都行。 1、材料準備水經注百度電子地圖下載器 百度地圖離線API:BaiduMap V1.3
    發表于 01-24 09:42

    百度云和百度開放是什么關系?愚人節不能不說的秘密。

    百度云和百度開放是什么關系?愚人節不能不說的秘密。
    發表于 03-29 15:23

    Python數據爬蟲學習內容

    現行環境下大數據與人工智能的重要依托還是龐大的數據和分析采集,就如淘寶、京東、百度、騰訊級別的企業能夠通過數據可觀的用戶群體獲取需要的數據。而一般企業可能就沒有這種通過產品獲取數據的能力和條件。因此
    發表于 05-09 17:25

    Python爬蟲初學者需要準備什么?

    現行環境下大數據與人工智能的重要依托還是龐大的數據和分析采集,類似于淘寶 京東 百度 騰訊級別的企業 能夠通過數據可觀的用戶群體獲取需要的數據,而一般企業可能就沒有這種通過產品獲取數據的能力和條件
    發表于 06-20 17:14

    使用Python爬蟲實現百度圖片自動下載的方法

    如何用Python爬蟲實現百度圖片自動下載?
    發表于 05-23 14:55

    0基礎入門Python爬蟲實戰課

    大數據時代,有兩種技能可以給自己增加競爭優勢。一種是數據分析,旨在挖掘數據的價值,做出最佳決策;另一種是數據獲取,即爬蟲。學會它,相當于在數據時代掌握了攫取能源的最有效方式。谷歌百度等搜索引擎的崛起
    發表于 07-25 09:28

    百度API調用(三)——語音識別 精選資料推薦

    python 調用百度語音識別API 一、開通百度語音技術接口服務基本過程:1、打開百度ai開放平臺 https://ai.baidu.co
    發表于 08-18 06:44

    百度“天智平臺”發布 開放百度大腦能力

    11月30日,2016百度智峰會正式召開。百度聯席總經理劉煬發表了題為ABC時代的演講,并重點介紹了百度
    發表于 12-01 11:13 ?887次閱讀

    百度IoT平臺介紹

    百度iot平臺基于百度成熟的計算技術,支持每天百億IoT設備接入,配合IoT平臺完成基本的連接、統計、設備管理。無縫對接
    發表于 12-09 14:07 ?33次下載

    基于互聯網腦架構,對百度的未來發展趨勢進行分析

    這是未來智能實驗室基于互聯網腦架構,對世界科技企業的未來發展趨勢進行分析的文章。因為百度排在BAT的首位,因此這個系列研究文章就從百度開始進行研究。
    的頭像 發表于 01-11 18:05 ?5021次閱讀
    基于互聯網<b class='flag-5'>云</b>腦架構,對<b class='flag-5'>百度</b>的未來發展趨勢進行<b class='flag-5'>分析</b>

    百度正式推出百度ABC 3.0,與各行業結合實現產業變革

    提供技術基礎,通過服務的方式參與汽車、家居的行業變革。在自動駕駛方面,百度云云端數據訓練讓Apollo擁有“日行百萬里”的能力。智能車輛的推出使得
    的頭像 發表于 09-05 15:35 ?4504次閱讀

    百度Apollo高精定位方案分析

    本文通過對百度阿波羅的高精定位方案進行分析通過查看百度Apollo的Github上的定位模塊代碼,分析Apollo是如何達到L4級別的高
    的頭像 發表于 10-02 11:06 ?1.9w次閱讀

    新基建時代 百度如何加速百度智能發展

    百度智能事業群組(ACG)迎來了最新的組織架構調整。3月11日,百度CTO王海峰發布了題為《新基建號角吹響 智能一往無前》的內部郵件,宣布對ACG進行組織架構調整,通過扁平化管理,
    的頭像 發表于 11-11 16:42 ?1775次閱讀

    GTC 2023:百度智能DPU落地實踐

    百度太行●計算:深度擁抱DPU的彈性計算基礎架構 百度智能DPU落地實踐:極致彈性、高可用的裸金屬實例 百度智能DPU落地實踐:更強
    的頭像 發表于 03-24 16:22 ?3780次閱讀
    GTC 2023:<b class='flag-5'>百度</b>智能<b class='flag-5'>云</b>DPU落地實踐
    主站蜘蛛池模板: 被滋润的艳妇疯狂呻吟白洁老七 | 国偷自产AV一区二区三区健身房 | 果冻传媒视频在线观看完整版免费 | 秘密教学93话恩爱久等了免费 | 午夜精品久久久久久影视riav | 久久99精品国产麻豆婷婷 | 日韩一区二区三区视频在线观看 | 清晨紧湿爱运动h高h | 成人中文在线 | va亚洲va天堂va视频在线 | 亚欧视频在线观看 | 70岁妇女牲交色牲片 | 又长又大又粗又硬3p免费视频 | 视频一区国产精戏刘婷30 | 秋霞三级理伦免费观看 | 久久re这里精品23 | 龙岩综合频道 | 性做久久久久久久久浪潮 | 狠日狠干日曰射 | 亚洲精品无码不卡在线播HE | 我就去色色 | 973午夜伦伦电影论片 | 国产在线播放不卡 | 外女思春台湾三级 | 欧美亚洲国产专区在线 | 啊叫大点声欠CAO的SAO贷 | 欧美性最猛xxxx在线观看视频 | 欧美另类z0z000高清 | 漂亮的保姆3中文版完整版 漂亮的保姆3集电影免费观看中文 | 日韩精品人成在线播放 | 精品视频一区二区三三区四区 | 久久伊人男人的天堂网站 | 99久在线国内在线播放免费观看 | 人妻少妇久久久久久97人妻 | 年轻的女教师2017韩国在线看 | 这里只有精品在线视频 | 四虎永久在线精品国产 | 97色色极品av影院 | 国产亚洲中文字幕视频 | 欧美国产影院 | 动漫美女3d被爆漫画 |