色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python分析9萬(wàn)條數(shù)據(jù) 復(fù)仇者聯(lián)盟誰(shuí)才是C位

電子工程師 ? 來(lái)源:fqj ? 2019-05-05 09:13 ? 次閱讀

《復(fù)聯(lián) 4》國(guó)內(nèi)上映第十天,程序員的江湖里開(kāi)始流傳這樣一個(gè)故事,即:

漫威宇宙,其實(shí)就講了一件事情。整個(gè)宇宙就好比一個(gè)項(xiàng)目組。其中有一群叫作美國(guó)隊(duì)長(zhǎng)、鋼鐵俠、驚奇隊(duì)長(zhǎng)、浩克、索爾等人在維護(hù)這個(gè)項(xiàng)目,兢兢業(yè)業(yè)的維護(hù)整個(gè)項(xiàng)目。

某一天,出現(xiàn)了一個(gè)天才程序員,叫滅霸。當(dāng)他加入到這家公司的時(shí)候,他意識(shí)到,這個(gè)項(xiàng)目已經(jīng)非常龐大,僅僅是編譯,就要幾個(gè)小時(shí)。運(yùn)行起來(lái)負(fù)重累累。而服務(wù)器資源又非常的有限,老板又不給預(yù)算買新機(jī)器,如果一直繼續(xù)這么開(kāi)發(fā)下去,這個(gè)項(xiàng)目遲早要出現(xiàn) P0 事故。于是,他下定決定要把這個(gè)項(xiàng)目全面優(yōu)化,使用用面向?qū)ο笏枷耄崛≈貜?fù)代碼,業(yè)務(wù)拆分,算法優(yōu)化等手段,徹底優(yōu)化,目標(biāo)是代碼量減少 50%。

美國(guó)隊(duì)長(zhǎng)帶領(lǐng)的項(xiàng)目組叫復(fù)仇者聯(lián)盟,發(fā)現(xiàn)了滅霸程序員的想法后,阻止并警告滅霸說(shuō):不要輕易去改老代碼!!很容易出 bug 的,代碼能跑就行!!

那么,作為一個(gè)寫程序員的電影,我們?cè)趺床荒苡脭?shù)據(jù)來(lái)分析一下,喜歡漫威宇宙的觀眾對(duì)《復(fù)聯(lián) 4》的評(píng)價(jià)呢?

抓取數(shù)據(jù)

業(yè)界朋友們,在電影分析中,使用貓眼的數(shù)據(jù)比較多。在本文中,筆者也使用了貓眼的接口來(lái)獲取數(shù)據(jù),方便處理,數(shù)據(jù)量也比較多。

Python 中,使用 Request 可以很方便地發(fā)送請(qǐng)求,拿到接口返回的 JSON 數(shù)據(jù),來(lái)看代碼:

defgetMoveinfo(url):session=requests.Session()headers={"User-Agent":"Mozilla/5.0",
"Accept":"text/html,application/xhtml+xml",
"Cookie":"_lxsdk_cuid="}response=session.get(url,headers=headers)ifresponse.status_code==200:
returnresponse.textreturnNone

請(qǐng)求返回的是一個(gè) JSON 數(shù)據(jù),拿到我們想要的評(píng)論原始數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中:

defsaveItem(dbName,moveId,id,originalData):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()ins="INSERTORREPLACEINTOcommentsvalues(?,?,?)"v=(id,originalData,moveId)cursor.execute(ins,v)cursor.close()conn.commit()conn.close()

經(jīng)過(guò)大概兩個(gè)小時(shí),終于從貓眼爬取了大約 9 萬(wàn)條數(shù)據(jù)。數(shù)據(jù)庫(kù)文件已經(jīng)超過(guò)了 100M 了。

數(shù)據(jù)清洗

因?yàn)樵谏厦孀ト∠聛?lái)的數(shù)據(jù),直接進(jìn)行了原數(shù)據(jù)的存儲(chǔ),沒(méi)有進(jìn)行數(shù)據(jù)的解析處理。接口中包含了很多數(shù)據(jù),有用戶信息、評(píng)論信息等。本次分析,只使用了部分?jǐn)?shù)據(jù),所以需要將用到的相關(guān)數(shù)據(jù)清洗出來(lái):

defconvert(dbName):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()cursor.execute("select*fromcomments")data=cursor.fetchall()foritemindata:commentItem=json.loads(item[1])movieId=item[2]insertItem(dbName,movieId,commentItem)cursor.close()conn.commit()conn.close()definsertItem(dbName,movieId,item):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()sql='''INSERTORREPLACEINTOconvertDatavalues(?,?,?,?,?,?,?,?,?)'''values=(getValue(item,"id"),movieId,getValue(item,"userId"),getValue(item,"nickName"),getValue(item,"score"),getValue(item,"content"),getValue(item,"cityName"),getValue(item,"vipType"),getValue(item,"startTime"))cursor.execute(sql,values)cursor.close()conn.commit()conn.close()

通過(guò) JSON 庫(kù)將原始數(shù)據(jù)解析出來(lái),將我們需要的信息存儲(chǔ)到新的數(shù)據(jù)表中。

數(shù)據(jù)分析

因?yàn)闆](méi)有任何一個(gè)平臺(tái)能夠拿到用戶的購(gòu)票數(shù)據(jù),我們只能從評(píng)論的數(shù)據(jù)中,以小見(jiàn)大,從這些數(shù)據(jù)中,分析出一些走勢(shì)。 在評(píng)論數(shù)據(jù)中,我們能看到評(píng)論用戶所在的城市。將數(shù)據(jù)所在的位置解析,劃分到各對(duì)應(yīng)的行政省,可以看到每個(gè)省評(píng)論數(shù)量,見(jiàn)下圖(顏色越紅,用戶評(píng)論數(shù)量越多):

城市

從圖中可以看到, 上海、廣州、四川用戶的數(shù)量顯然要比其他城市的用戶數(shù)量要多得多。再來(lái)看一下代碼:

data=pd.read_sql("select*fromconvertData",conn)city=data.groupby(['cityName'])city_com=city['score'].agg(['mean','count'])city_com.reset_index(inplace=True)fo=open("citys.json",'r')citys_info=fo.readlines()citysJson=json.loads(str(citys_info[0]))printcity_comdata_map_all=[(getRealName(city_com['cityName'][i],citysJson),city_com['count']
[i])foriinrange(0,city_com.shape[0])]data_map_list={}foritemindata_map_all:
ifdata_map_list.has_key(item[0]):
value=data_map_list[item[0]]
value+=item[1]
data_map_list[item[0]]=value
else:
data_map_list[item[0]]=item[1]
data_map=[(realKeys(key),data_map_list[key])forkeyindata_map_list.keys()]

漫威電影一直深受中國(guó)朋友們喜歡的高分電影。豆瓣評(píng)分 8.7 分,那我們的評(píng)論用戶中,又是一個(gè)什么樣的趨勢(shì)呢?見(jiàn)下圖:

Python分析9萬(wàn)條數(shù)據(jù) 復(fù)仇者聯(lián)盟誰(shuí)才是C位

評(píng)分?jǐn)?shù)

從圖中可以看到,評(píng) 5 分的數(shù)量遠(yuǎn)高于其他評(píng)分,可見(jiàn)中國(guó)的觀眾朋友確實(shí)喜歡漫威的科幻電影。

復(fù)聯(lián)從 1 開(kāi)始便是漫威宇宙各路超級(jí)英雄的集結(jié),到現(xiàn)在的第 4 部,更是全英雄的匯聚。那么,在這之中,哪位英雄人物更受觀眾歡迎?先看代碼:

attr=["滅霸","美國(guó)隊(duì)長(zhǎng)","鋼鐵俠","浩克","奇異博士","蜘蛛俠","索爾","黑寡婦","鷹眼","驚奇隊(duì)長(zhǎng)","幻視","猩紅女巫","蟻人","古一法師"]alias={"滅霸":["滅霸","Thanos"],"美國(guó)隊(duì)長(zhǎng)":["美國(guó)隊(duì)長(zhǎng)","美隊(duì)"],"浩克":["浩克","綠巨人","班納","HULK"],"奇異博士":["奇異博士","醫(yī)生"],"鋼鐵俠":["鋼鐵俠","stark","斯塔克","托尼","史塔克"],"蜘蛛俠":["蜘蛛俠","蜘蛛","彼得","荷蘭弟"],"索爾":["索爾","雷神"],"黑寡婦":["黑寡婦","寡姐"],"鷹眼":["鷹眼","克林頓","巴頓","克林特"],"驚奇隊(duì)長(zhǎng)":["驚奇隊(duì)長(zhǎng)","卡羅爾","驚奇"],"星云":["星云"],"猩紅女巫":["猩紅女巫","緋紅女巫","旺達(dá)"],"蟻人":["蟻人","蟻俠","Ant","AntMan"],"古一法師":["古一","古一法師","法師"]}v1=[getCommentCount(getAlias(alias,attr[i]))foriinrange(0,len(attr))]bar=Bar("Hiro")bar.add("count",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,xaxis_interval=0,is_splitline_show=True)bar.render("html/hiro_count.html")

運(yùn)行結(jié)果如下圖,可以看到鋼鐵俠鋼鐵俠是實(shí)至名歸的 C 位,不僅電影在電影中是,在評(píng)論區(qū)仍然也是實(shí)至名歸的 C 位,甚至于遠(yuǎn)超美隊(duì)、寡姐和雷神:

Python分析9萬(wàn)條數(shù)據(jù) 復(fù)仇者聯(lián)盟誰(shuí)才是C位

英雄評(píng)論次數(shù)

從以上觀眾分布和評(píng)分的數(shù)據(jù)可以看到,這一部劇,觀眾朋友還是非常地喜歡。前面,從貓眼拿到了觀眾的評(píng)論數(shù)據(jù)。現(xiàn)在,筆者將通過(guò) Jieba 把評(píng)論進(jìn)行分詞,然后通過(guò) Wordcloud 制作詞云,來(lái)看看,觀眾朋友們對(duì)《復(fù)聯(lián)》的整體評(píng)價(jià):

詞云分析

可以看到,滅霸和鋼鐵俠出現(xiàn)的詞頻比其他英雄要高很多。這是否表示,這部劇的主角就是他們兩個(gè)呢?

細(xì)心的朋友應(yīng)該發(fā)現(xiàn)了,鋼鐵俠、滅霸的數(shù)量在詞云和評(píng)論數(shù)量里面不一致。原因在于,評(píng)論數(shù)量就按評(píng)論條數(shù)來(lái)統(tǒng)計(jì)的,而詞云中,使用的是詞頻,同一條評(píng)論中,多次出現(xiàn)會(huì)多次統(tǒng)計(jì)。所以,滅霸出現(xiàn)的次數(shù)居然高于了鋼鐵俠。

最后,再來(lái)分析一下鋼鐵俠與滅霸的情感分析,先上代碼:

defemotionParser(name):conn=conn=sqlite3.connect("end.db")conn.text_factory=strcursor=conn.cursor()likeStr="like"%"+name+"%""cursor.execute("selectcontentfromconvertDatawherecontent"+likeStr)values=cursor.fetchall()sentimentslist=[]foriteminvalues:
sentimentslist.append(SnowNLP(item[0].decode("utf-8")).sentiments)plt.hist(sentimentslist,bins=np.arange(0,1,0.01),facecolor="#4F8CD6")
plt.xlabel("SentimentsProbability")
plt.ylabel("Quantity")
plt.title("AnalysisofSentimentsfor"+name)
plt.show()cursor.close()conn.close()

此處,使用 SnowNLP 來(lái)進(jìn)行情感分析。

情感分析,又稱為意見(jiàn)挖掘、傾向性分析等。簡(jiǎn)單而言,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。

Python分析9萬(wàn)條數(shù)據(jù) 復(fù)仇者聯(lián)盟誰(shuí)才是C位

滅霸

鋼鐵俠

從圖中看到, 鋼鐵俠的正向情感要比滅霸的正向情感要高,反派角色就是容易被人抗拒。

最最后,從《銀河護(hù)衛(wèi)隊(duì)》時(shí)期穿越而來(lái)的滅霸在最后分鐘變成了粉末消散而去,這也給我們程序員一個(gè)警鐘:

“重構(gòu)代碼,改善設(shè)計(jì),降低系統(tǒng)復(fù)雜度,這樣做很好。但是,一定要保證系統(tǒng)的穩(wěn)定運(yùn)行,不留安全隱患,不然,早晚會(huì)丟掉自己的工作。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7134

    瀏覽量

    89402
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4823

    瀏覽量

    68902
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4807

    瀏覽量

    84956

原文標(biāo)題:Python分析9萬(wàn)條數(shù)據(jù)告訴你復(fù)仇者聯(lián)盟誰(shuí)才是絕對(duì)C位

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    科沃斯DK39復(fù)仇者聯(lián)盟版掃地機(jī)器人開(kāi)箱體驗(yàn)

    如果你是一個(gè)電影愛(ài)好,一定不會(huì)錯(cuò)過(guò)當(dāng)前最熱門的電影——復(fù)仇者聯(lián)盟3,作為漫威宇宙近十年的最強(qiáng)集結(jié),曾經(jīng)各自為戰(zhàn)的超級(jí)英雄們,為了對(duì)抗共同的敵人而齊聚復(fù)仇者
    的頭像 發(fā)表于 05-21 10:35 ?5726次閱讀

    一加6復(fù)仇者聯(lián)盟版圖賞

    一加6復(fù)仇者聯(lián)盟版 隨著《復(fù)仇者聯(lián)盟3:無(wú)限戰(zhàn)爭(zhēng)》的熱映,有不少品牌方也選擇在這個(gè)時(shí)間節(jié)點(diǎn)推出復(fù)聯(lián)版產(chǎn)品,搶跟一波熱潮,一加手機(jī)也是其中之一。5月17日,一加6正式發(fā)布,除了普通版本外
    的頭像 發(fā)表于 05-28 14:35 ?4596次閱讀

    銘瑄正式推出復(fù)仇者M3 RGB內(nèi)存,具有12種燈效的復(fù)仇者M3實(shí)際表現(xiàn)如何呢?

    復(fù)仇者M3燈效方面,預(yù)設(shè)有絢彩RGB燈效,5個(gè)獨(dú)立光效區(qū)域,支持主板軟件調(diào)控,12種燈效模式,和其他支持調(diào)控的硬件同步,展現(xiàn)別致的燈光氛圍。
    的頭像 發(fā)表于 07-20 15:48 ?4780次閱讀

    復(fù)仇者”ER無(wú)人機(jī)持續(xù)飛行了23.4小時(shí),完成模擬偵察任務(wù)

    通用原子公司“復(fù)仇者”ER無(wú)人機(jī)創(chuàng)造了新的續(xù)航紀(jì)錄,該無(wú)人機(jī)在典型情報(bào)、監(jiān)視與偵察(ISR)任務(wù)設(shè)置中持續(xù)飛行了23.4小時(shí),執(zhí)行了模擬偵察任務(wù)。
    發(fā)表于 07-30 14:31 ?4532次閱讀

    復(fù)仇者M3用性價(jià)比吹響了普及RGB“馬甲”的號(hào)角

    3200MHz時(shí)銘瑄復(fù)仇者M3的讀取、寫入和復(fù)制性能分別提升了33.12%、29.14%和21.72%,延遲也降低至83.6ns。
    的頭像 發(fā)表于 08-30 10:22 ?3752次閱讀

    臺(tái)積電組成復(fù)仇者聯(lián)盟 重回戰(zhàn)場(chǎng)對(duì)抗英特爾

    趁對(duì)手放緩腳步,英特爾過(guò)去的手下敗將,結(jié)合臺(tái)積電的先進(jìn)制程組成復(fù)仇者聯(lián)盟,一一重回半導(dǎo)體的舞臺(tái)發(fā)光發(fā)熱,這是今年值得注意的投資機(jī)會(huì)。
    的頭像 發(fā)表于 05-27 14:08 ?2531次閱讀

    小米手環(huán)4復(fù)仇者聯(lián)盟系列限量版發(fā)布 售價(jià)349元

    小米手環(huán)4復(fù)仇者聯(lián)盟系列限量版正式亮相,售價(jià)349元
    發(fā)表于 06-13 15:59 ?5443次閱讀

    小米手環(huán)4復(fù)仇者聯(lián)盟限量版正式開(kāi)賣 售價(jià)349元

    6月28日消息,小米商城官方微博預(yù)告,小米手環(huán)4復(fù)仇者聯(lián)盟限量版將在今天上午10點(diǎn)正式開(kāi)賣,售價(jià)349元。
    發(fā)表于 06-28 14:47 ?1517次閱讀

    小米手環(huán)4復(fù)仇者聯(lián)盟限量版高清圖賞

    7月29日消息,小米手環(huán)4還帶來(lái)了復(fù)仇者聯(lián)盟限量版,售價(jià)349元。包含金屬銘牌、收藏證書、定制腕帶等,其中定制腕帶為美隊(duì)、鋼鐵俠、漫威三款,致敬熒幕經(jīng)典英雄。
    的頭像 發(fā)表于 07-30 10:08 ?7489次閱讀

    AMAZFIT智能手表2ECG版和復(fù)仇者聯(lián)盟系列限量版因工藝復(fù)雜無(wú)法按時(shí)開(kāi)售

    7月30日晚,華米科技發(fā)布公告,由于全陶瓷表身工藝十分復(fù)雜、加工難度很高,導(dǎo)致原定于本月上市的AMAZFIT智能手表2 ECG版和復(fù)仇者聯(lián)盟系列限量版無(wú)法按時(shí)開(kāi)售,后續(xù)上市日期確定之后,我們將第一時(shí)間通知。
    發(fā)表于 07-31 14:28 ?1394次閱讀

    94折采購(gòu)元器件 還能免費(fèi)看“復(fù)仇者聯(lián)盟”?

    94折采購(gòu)元器件,還能免費(fèi)看“復(fù)仇者聯(lián)盟”?
    的頭像 發(fā)表于 03-01 11:13 ?1658次閱讀

    AMAZFIT智能手表2復(fù)仇者聯(lián)盟限量版將于10月18日開(kāi)啟限量預(yù)售

    6月11日,華米發(fā)布AMAZFIT智能手表2,定位旗艦,支持三網(wǎng)4G通話,標(biāo)準(zhǔn)版定價(jià)999元,ECG版售價(jià)1299元。此外還有復(fù)仇者聯(lián)盟限量版,售價(jià)1499元。
    發(fā)表于 10-15 16:20 ?1785次閱讀

    英特爾宣布《復(fù)仇者聯(lián)盟》系列酷睿處理器停產(chǎn)

    、i9-10850K 和 i9-10900K 都將停產(chǎn)。 IT之家了解到,今年 8 月底,英特爾在京東上架了復(fù)仇者聯(lián)盟珍藏版的 i7-10700KA 和 i
    的頭像 發(fā)表于 12-19 09:41 ?3497次閱讀

    復(fù)仇者聯(lián)盟工廠監(jiān)控裝置

    電子發(fā)燒友網(wǎng)站提供《復(fù)仇者聯(lián)盟工廠監(jiān)控裝置.zip》資料免費(fèi)下載
    發(fā)表于 11-08 15:18 ?0次下載
    <b class='flag-5'>復(fù)仇者</b><b class='flag-5'>聯(lián)盟</b>工廠監(jiān)控裝置

    科技巨頭組建“復(fù)仇者聯(lián)盟”,挑戰(zhàn)英偉達(dá)的NVLink技術(shù)

    據(jù)報(bào)導(dǎo),包括 AMD、谷歌、微軟、英特爾(Intel)、博通(Broadcom)和思科(Cisco)在內(nèi)的多家國(guó)際科技龍頭聯(lián)手,組成“復(fù)仇者聯(lián)盟”,欲挑戰(zhàn) NVIDIA 的 NVLink 技術(shù)。
    的頭像 發(fā)表于 05-31 11:54 ?705次閱讀
    主站蜘蛛池模板: 阴茎插入阴道 | 久久天天婷婷五月俺也去 | 成人免费毛片观看 | 国产亚洲精品久久7777777 | 动漫女生的逼 | 免费精品美女久久久久久久久久 | 岛国在线无码免费观 | 国产AV天堂一区二区三区 | 羞羞影院午夜男女爽爽影院网站 | 亚洲精品久久久久中文字幕二区 | 日本工口生肉全彩大全 | 伊人久久大香线蕉综合高清 | 亚洲精品喷白浆在线观看 | 久久成人a毛片免费观看网站 | 色综合久久网女同蕾丝边 | 同桌上课把奶露出来给我玩 | 中国少妇内射XXXX狠干 | 欧美xxxav| 91偷偷久久做嫩草电影院 | 成人在免费观看视频国产 | 美女内射少妇一区二区四区 | 欧美成人亚洲高清在线观看 | 久久99影院 | 亚洲成人中文 | 99热婷婷国产精品综合 | 影音先锋av丝袜天堂 | 久久re6热在线视频 久久er国产免费精品 | 成人在线免费观看 | 香蕉鱼视频观看在线视频下载 | 成人免费观看国产高清 | 国产精品久久欧美一区 | 先锋影音av无码第1页 | 美国色情三级欧美三级纸匠情挑 | 国语自产视频在线不卡 | 午夜视频无码国产在线观看 | 亚洲AV无码一区二区三区乱子伦 | 亚洲免费在线观看 | 99视频在线免费 | 老色哥网站 | 久久精品无码人妻无码AV蜜臀 | 成人影院午夜久久影院 |