【導語】2019亞洲杯決賽正如火如荼進行中,國足的晉級之路可謂用“驚現”二字評論。繼1月16日,國足對戰韓國隊敗北后,一名Python學習者為了一窺網友們的評論,特意爬了懂球帝App的數據。
最新喜訊是在20日國足對戰泰國的比賽中,成功逆轉戰勝泰國晉級八強,無不驚喜。讓我們來學習下本文相關技術要點。
正文:
如果你是個足球迷的話,估計或多或少都會看一下昨晚中國踢韓國的比賽,因為不管他們踢得怎樣,我們還是深愛著他們,那句話說得好,“國足虐我千百遍,我待國足如初戀”。更何況他們兩場都踢贏了,所以面對第三場實力有點強的韓國隊也是希望能贏的,畢竟我們也在十二強賽上贏過他們!
如果你不是個足球迷,但你也可以看看,可以學習下如何去抓APP的數據。好了,廢話不多說,開始抓取!
1. 抓包分析請求
手機抓包我們可以用 Fiddler 軟件來抓取,如果不懂怎樣抓的話,可以看看這篇文章《抓包軟件 Fiddler 了解一下?》(文章鏈接:https://mp.weixin.qq.com/s/G7xjvoh77pwcsP1KNotxjw)
配置好之后,開始抓包。
首先找到需要爬取的文章
懂球帝app截圖
文章鏈接為:https://m.dongqiudi.com/article_share/896482.html
在配置好抓包之后,點擊下方的評論,可以看到
評論截圖
抓包截圖
很容易就找到文章評論的請求,就是下面這個
可以看到請求的鏈接為:https://api.dongqiudi.com/v2/article/896482/comment?sort=down&version=177,
請求方法為GET,接下來就好辦了,我們再看看滑下去查看更多的評論的請求。
可以看到,向下翻頁多了兩個參數,不過容易知道,next參數就是一個時間戳,而pn參數就是頁數吧,從0開始的。
但是怎樣判斷所有評論已經爬完了呢?我們可以看看數據的詳情,下面將 json 數據格式化,在下圖可以看到在 data 里面有下一頁的數據,那這就容易了,哈哈
分析了,接下來就是代碼部分了。
2. 代碼部分
這是主體部分,先從第一個評論鏈接中爬取評論以及找出下一頁的評論地址進而繼續爬取。這里是把數據庫存進 mongodb 中。
主要的爬取邏輯,可以看出來是比較簡單的,因為沒有涉及到什么加密參數之類的,但是有一個問題,每一次進行請求的時候,有時候是會返回帶有相同的評論的,所以我們也需要在數據庫簡單地進行去重。
下面是入庫和去重的代碼部分
剩下的就沒有了。
3. 查看所得的數據
由于數據分析還不熟悉,所以暫時只制作詞云圖。
需要先將數據寫到文本上
詞云圖是:
可以看出,昨晚國足輸一場,也被很多人噴了,但是還是有很多人是一直支持的,永遠都為國足加油,里面也說到了,中國和韓國是有一定差距的,而且還有點大,輸了也正常不過了,沒必要噴,再說我覺得昨晚的比賽已經比第一場的比賽好很多(第二次沒看),還是有進步的,我對國足未來淘汰賽也是充滿期望的,我相信能走得更遠!
下一場踢泰國,20號,有人看嗎?
-
APP
+關注
關注
33文章
1577瀏覽量
72724 -
代碼
+關注
關注
30文章
4823瀏覽量
68964 -
python
+關注
關注
56文章
4807瀏覽量
84994
原文標題:為了一窺國足輸韓國之后人們的評論,我爬了懂球帝App
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論