亚洲欧美日韩在线中文字幕,孕妇bbwbbwbbwbbw超清,亚洲欧美日本在线观看

動漫《工作細胞》最終話已經更新完畢，這部動漫在 b 站上評分高達 9.7。除了口碑之外，熱度也居高不下，更值得關注的是連很多平時不關注動漫的小伙伴也加入了追番大軍。這次我們的目標是爬取 b 站上的所有短評進行分析，用數據說明為什么這部動漫會如此受歡迎。

一、工作細胞

《工作細胞》改編自清水茜老師的同名漫畫，由 David Production 制作。眾所周知，日本 ACG 作品向來信奉著“萬物皆可萌”的原則。前有《黑塔利亞》，后有《艦隊Collection》和《獸娘動物園》，分別講述了將國家，戰艦和動物擬人化后的故事。而在《工作細胞》里擬人的對象則輪到了我們的細胞。

這是一個發生在人體內的故事：人的細胞數量，約為37兆2千億個。其中包括了我們的女主角：一個副業是運輸氧氣，主業是迷路的紅血球。

男主角：一個作者懶得涂色但武力值 max 的白血球。兩人一見面就并肩戰斗，分別的時候更是滿天粉紅氣泡。

雖然嘴上說著：不會，我只是千千萬萬個白細胞中的一員。身體卻很誠實，從第一集偶遇女主到最后一集，每一集都充滿了狗糧的味道。37兆分之一的緣分果然妙不可言。

除了男女主角，配角們的人氣也都很高。連反派 boss 癌細胞都有人喜歡，主要還是因為身世感人+臉長得好。當然人氣最！最！最！高的還是我們奶聲奶氣的血小板。

據宅男們反映：“看了這么多番。只有這一部的老婆是大家真正擁有的。”不僅有，還有很多。除了新穎的科普形式，這部番令人感觸最深的是：我們每一個人都不是孤獨的個體，有37兆個只屬于我們的細胞和我們一同工作不息。每當頹唐和失意的時候，為了那些為了保護你而戰斗不止的免疫細胞，為了萌萌的老婆們也要振作起來啊。

《工作細胞》的成功并不是一個偶然，而是眾多因素共同作用的結果。下面從數據的角度分析它成為今年7月播放冠軍的原因。

謝謝宇哥對這部分的貢獻，顯然超出我的能力范圍！

二、爬蟲

首先要做的是爬取 b 站的所有短評，包括評論用戶名、評論時間、星級（評分）、評論內容、點贊數等內容，本部分內容為爬蟲代碼的說明，不感興趣的讀者可以直接跳過，閱讀下一部分的分析。

爬的過程寫了很久，b站短評不需要登陸直接就可以爬，剛開始用類似之前爬豆瓣的方法，用 Selenium+xpath 定位爬

但 b 站短評用這種方法并不好處理。網站每次最多顯示 20 條短評，滾動條移動到最下面才會加載之后的 20 條，所以剛開始用了每次爬完之后將定位到當前爬的位置的方法，這樣定位到當前加載的最后一條時，就會加載之后的 20 條短評。

邏輯上是解決了這個問題，但真的爬的時候就出現了問題，一個是爬的慢，20條需要十來秒的樣子，這個沒關系，大不了爬幾個小時，但問題是辛辛苦苦爬了兩千多條之后，就自動斷了，不知道是什么原因，雖然之前爬的數據都存下來了，但沒法接著斷開的地方接著爬，又要重新開始，還不知道會不會又突然斷，所以用這種方法基本就無解了。代碼附在下面，雖然是失敗的，但也可以爬一些評論下來，供參考。

1#-*-coding:utf-8-*- 2""" 3CreatedonMonSep1019:36:242018 4""" 5fromseleniumimportwebdriver 6importpandasaspd 7fromdatetimeimportdatetime 8importnumpyasnp 9importtime10importos1112os.chdir('F:\python_study\pachong\工作細胞')13defgethtml(url):1415browser=webdriver.PhantomJS()16browser.get(url)17browser.implicitly_wait(10)18return(browser)1920defgetComment(url):2122browser=gethtml(url)23i=124AllArticle=pd.DataFrame(columns=['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like'])25print('連接成功，開始爬取數據')26whileTrue:2728xpath1='//*[@id="app"]/div[2]/div[2]/div/div[1]/div/div/div[4]/div/div/ul/li[{}]'.format(i)29try:30target=browser.find_element_by_xpath(xpath1)31except:32print('全部爬完')33break3435author=target.find_element_by_xpath('div[1]/div[2]').text36comment=target.find_element_by_xpath('div[2]/div').text37stars1=target.find_element_by_xpath('div[1]/div[3]/span/i[1]').get_attribute('class')38stars2=target.find_element_by_xpath('div[1]/div[3]/span/i[2]').get_attribute('class')39stars3=target.find_element_by_xpath('div[1]/div[3]/span/i[3]').get_attribute('class')40stars4=target.find_element_by_xpath('div[1]/div[3]/span/i[4]').get_attribute('class')41stars5=target.find_element_by_xpath('div[1]/div[3]/span/i[5]').get_attribute('class')42date=target.find_element_by_xpath('div[1]/div[4]').text43like=target.find_element_by_xpath('div[3]/div[1]').text44unlike=target.find_element_by_xpath('div[3]/div[2]').text454647comments=pd.DataFrame([i,author,comment,stars1,stars2,stars3,stars4,stars5,like,unlike]).T48comments.columns=['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like']49AllArticle=pd.concat([AllArticle,comments],axis=0)50browser.execute_script("arguments[0].scrollIntoView();",target)51i=i+152ifi%100==0:53print('已爬取{}條'.format(i))54AllArticle=AllArticle.reset_index(drop=True)55returnAllArticle5657url='https://www.bilibili.com/bangumi/media/md102392/?from=search&seid=8935536260089373525#short'58result=getComment(url)59#result.to_csv('工作細胞爬蟲.csv',index=False)

這種方法爬取失敗之后，一直不知道該怎么處理，剛好最近看到網上有大神爬貓眼評論的文章，照葫蘆畫瓢嘗試了一下，居然成功了，而且爬的速度也很快，十來分鐘就全爬完了，思路是找到評論對應的 Json 文件，然后獲取 Json 中的數據，過程如下。

在 Google 瀏覽器中按 F12 打開卡發者工具后，選擇 Network

往下滑動，會發現過一段時間，會出現一個 fetch，右鍵打開后發現，里面就是 20 條記錄，有所有我們需要的內容，Json格式。

所以現在需要做的就是去找這些Json文件的路徑的規律。多看幾條之后，就發現了規律：

第一個Json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0

第二個Json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76553500953424

第三個Json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76549205971454

顯然所有的Json路徑的前半部分都是一樣，都是在第一條Json之后加上不同的 cursor = xxxxx，所以只要能找到cursor值的規律，就可以用循環的辦法，爬完所有的Json，這個值看上去沒什么規律，最后發現，每一個Json路徑中 cursor 值就藏在前一個Json的最后一條評論中

在 python 中可以直接把 JSON 轉成字典，cursor 值就是最后一條評論中鍵 cursor 的值，簡直不要太容易。

所以爬的思路就很清晰了，從一個Json開始，爬完 20 條評論后，獲取最后一個評論中的cursor值，更改路徑之后獲取第二個Json，重復上面的過程，直到爬完所有的Json。

至于如何知道爬完了所有Json，也很容易，每個Json中一個total鍵，表示了當前一共有多少條評論，所以只需要寫一個while循環，當爬到的評論數達到total值時停止。

爬的過程中還發現，有些Json中的評論數不夠 20 條，如果每次用 20 去定位，中間會報錯停止，需要注意一下。所以又加了一行代碼，每次獲得Json后，通過 len() 函數得到當前Json中一共包含多少條評論，cursor 在最后一個評論中。

以上是整個爬的思路，我們最終爬到以下信息：

需要說明的地方，一個是 liked 按照字面意思應該是用戶的點贊數,但爬完才發現全是 0，沒有用。另一個是關于時間，里面有 ctime 和 mtime 兩個跟時間有關的值，看了幾個，基本都是一樣的，有個別不太一樣，差的不多，就只取了 ctime，我猜可能一個是點擊進去的時間，一個是評論提交時間，但沒法驗證，就隨便取一個算了，ctime 的編碼很奇怪，比如某一個是 ctime = 1540001677，渣渣之前沒有見過這種編碼方式，請教了大佬之后知道，這個是Linux系統上的時間表示方式，是1970 年 1 月 1 日 0 時 0 分 0 秒到當時時點的秒數，python 中可以直接用 time.gmtime() 函數轉化成年月日小時分鐘秒的格式。還有 last_ep_index 里面存的是用戶當前的看劇狀態，比如看至第 13 話，第 6 話之類的，但后來發現很不準，絕大多數用戶沒有 last_ep_index 值，所以也沒有分析這個變量。

代碼如下：

1importrequests 2fromfake_useragentimportUserAgent 3importjson 4importpandasaspd 5importtime 6importdatetime 7headers={"User-Agent":UserAgent(verify_ssl=False).random} 8comment_api='https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0' 910#發送get請求11response_comment=requests.get(comment_api,headers=headers)12json_comment=response_comment.text13json_comment=json.loads(json_comment)1415total=json_comment['result']['total']1617cols=['author','score','disliked','likes','liked','ctime','score','content','last_ep_index','cursor']18dataall=pd.DataFrame(index=range(total),columns=cols)192021j=022whilej

三、影評分析

最終一共爬到了 17398 條影評數據。里面的 date 是用 ctime 轉過來的，接下來對數據進行一些分析，數據分析通過 python3.6 完成。