色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TransBigData與數據中的預處理

馬哥Linux運維 ? 來源:馬哥Linux運維 ? 作者:馬哥Linux運維 ? 2022-09-29 09:39 ? 次閱讀

1、TransBigData簡介

TransBigData是一個為交通時空大數據處理、分析和可視化而開發的Python包。TransBigData為處理常見的交通時空大數據(如出租車GPS數據、共享單車數據和公交車GPS數據等)提供了快速而簡潔的方法。TransBigData為交通時空大數據分析的各個階段提供了多種處理方法,代碼簡潔、高效、靈活、易用,可以用簡潔的代碼實現復雜的數據任務。

目前,TransBigData主要提供以下方法:

數據預處理:對數據集提供快速計算數據量、時間段、采樣間隔等基本信息的方法,也針對多種數據噪聲提供了相應的清洗方法。

數據柵格化:提供在研究區域內生成、匹配多種類型的地理柵格(矩形、三角形、六邊形及geohash柵格)的方法體系,能夠以向量化的方式快速算法將空間點數據映射到地理柵格上。

數據可視化:基于可視化包keplergl,用簡單的代碼即可在Jupyter Notebook上交互式地可視化展示數據。

軌跡處理:從軌跡數據GPS點生成軌跡線型,軌跡點增密、稀疏化等。

地圖底圖、坐標轉換與計算:加載顯示地圖底圖與各類特殊坐標系之間的坐標轉換。

特定處理方法:針對各類特定數據提供相應處理方法,如從出租車GPS數據中提取訂單起訖點,從手機信令數據中識別居住地與工作地,從地鐵網絡GIS數據構建網絡拓撲結構并計算最短路徑等。

TransBigData可以通過pip或者conda安裝,在命令提示符中運行下面代碼即可安裝:

pipinstall-Utransbigdata

安裝完成后,在Python中運行如下代碼即可導入TransBigData包。

importtransbigdataastbd

2、數據預處理

TransBigData與數據處理中常用的Pandas和GeoPandas包能夠無縫銜接。首先我們引入Pandas包并讀取出租車GPS數據:

importpandasaspd

#讀取數據
data=pd.read_csv('TaxiData-Sample.csv',header=None)
data.columns=['VehicleNum','time','lon','lat','OpenStatus','Speed']
data.head()

結果如圖2所示:

04615a28-3f35-11ed-9e49-dac502259ad0.png▲圖2 出租車GPS數據

然后,引入GeoPandas包,讀取研究范圍的區域信息并展示:

importgeopandasasgpd

#讀取研究范圍區域信息
sz=gpd.read_file(r'sz/sz.shp')
sz.plot()

結果如圖3所示:

0494d718-3f35-11ed-9e49-dac502259ad0.png▲圖3 研究范圍的區域信息

TransBigData包集成了交通時空數據的一些常用預處理方法。其中,tbd.clean_outofshape方法輸入數據和研究范圍區域信息,能夠剔除研究范圍外的數據。而tbd.clean_taxi_status方法則可以剔除出租車GPS數據中載客狀態瞬間變化的記錄。在使用預處理方法時需要傳入數據表中重要信息列所對應的列名,代碼如下:

#數據預處理

#剔除研究范圍外的數據,計算原理是在方法中先柵格化后柵格匹配研究范圍后實現對應。因此這里需要同時定義柵格大小,越小則精度越高
data=tbd.clean_outofshape(data,sz,col=['lon','lat'],accuracy=500)

#剔除出租車數據中載客狀態瞬間變化的數據
data=tbd.clean_taxi_status(data,col=['VehicleNum','time','OpenStatus'])

經過上面代碼的處理,我們就已經將出租車GPS數據中研究范圍以外的數據和載客狀態瞬間變化的數據予以剔除。

3、數據柵格化

柵格形式(地理空間上相同大小的網格)是表達數據分布最基本的方法,GPS數據經過柵格化后,每個數據點都含有其所在的柵格信息。采用柵格表達數據的分布時,其表示的分布情況與真實情況接近。

TransBigData工具為我們提供了一套完整、快速、便捷的柵格處理體系。用TransBigData進行柵格劃分時,首先需要確定柵格化的參數(可以理解為定義了一個柵格坐標系),參數可以幫助我們快速進行柵格化:

#定義研究范圍邊界
bounds=[113.75,22.4,114.62,22.86]

#通過邊界獲取柵格化參數
params=tbd.area_to_params(bounds,accuracy=1000)
params

輸出:

{'slon': 113.75,
'slat': 22.4,
'deltalon': 0.00974336289289822,
'deltalat': 0.008993210412845813,
'theta': 0,
'method': 'rect',
'gridsize': 1000}

此時輸出的柵格化參數params的內容存儲了柵格坐標系的原點坐標(slon、slat)、單個柵格的經緯度長寬 (deltalon、deltalat)、柵格的旋轉角度(theta)、柵格的形狀(method參數,其值可以是方形rect、三角形tri和六邊形hexa)以及柵格的大小(gridsize參數,單位為米)。

取得柵格化參數后,我們便可以用TransBigData中提供的方法對GPS數據進行柵格匹配、生成等操作。

完整的柵格處理方法體系如圖4所示:

04d40ac8-3f35-11ed-9e49-dac502259ad0.png▲圖4 TransBigData所提供的柵格處理體系

使用tbd.GPS_to_grid方法能夠為每一個出租車GPS點生成,該方法會生成編號列LONCOL與 LATCOL,由這兩列共同指定所在的柵格:

#將GPS數據對應至柵格,將生成的柵格編號列賦值到數據表上作為新的兩列
data['LONCOL'],data['LATCOL']=tbd.GPS_to_grids(data['lon'],data['lat'],params)

下一步,聚合集計每一柵格內的數據量,并為柵格生成地理幾何圖形,構建GeoDataFrame:

#聚合集計柵格內數據量

grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index()

#生成柵格的幾何圖形
grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params)

#轉換為GeoDataFrame
grid_agg=gpd.GeoDataFrame(grid_agg)

#繪制柵格
grid_agg.plot(column='VehicleNum',cmap='autumn_r')

結果如圖5所示:

04e91670-3f35-11ed-9e49-dac502259ad0.png▲圖5 數據柵格化的結果

對于一個正式的數據可視化圖來說,我們還需要添加底圖、色條、指北針和比例尺。TransBigData也提供了相應的功能,代碼如下:

importmatplotlib.pyplotasplt
fig=plt.figure(1,(8,8),dpi=300)
ax=plt.subplot(111)
plt.sca(ax)

#添加行政區劃邊界作為底圖
sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5)

#定義色條位置
cax=plt.axes([0.04,0.33,0.02,0.3])
plt.title('Datacount')
plt.sca(ax)

#繪制數據
grid_agg.plot(column='VehicleNum',cmap='autumn_r',ax=ax,cax=cax,legend=True)

#添加指北針和比例尺
tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10)
plt.axis('off')
plt.xlim(bounds[0],bounds[2])
plt.ylim(bounds[1],bounds[3])
plt.show()

結果如圖6所示:

051eefb6-3f35-11ed-9e49-dac502259ad0.png▲圖6 tbd包繪制的出租車GPS數據分布

4、訂單起訖點OD提取與聚合集計

針對出租車GPS數據,TransBigData提供了直接從數據中提取出出租車訂單起訖點(OD)信息的方法,代碼如下:

#從GPS數據提取OD

oddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus'])
oddata

結果如圖7所示:

05c7584a-3f35-11ed-9e49-dac502259ad0.png▲圖7 tbd包提取的出租車OD

TransBigData包提供的柵格化方法可以讓我們快速地進行柵格化定義,只需要修改accuracy參數,即可快速定義不同大小粒度的柵格。我們重新定義一個2km*2km的柵格坐標系,將其參數傳入tbd.odagg_grid方法對OD進行柵格化聚合集計并生成GeoDataFrame:

#重新定義柵格,獲取柵格化參數
params=tbd.area_to_params(bounds,accuracy=2000)

#柵格化OD并集計
od_gdf=tbd.odagg_grid(oddata,params)
od_gdf.plot(column='count')

結果如圖8所示:

05fa8184-3f35-11ed-9e49-dac502259ad0.png▲圖8 tbd集計的柵格OD

添加地圖底圖,色條與比例尺指北針:

#創建圖框
importmatplotlib.pyplotasplt
fig=plt.figure(1,(8,8),dpi=300)
ax=plt.subplot(111)
plt.sca(ax)

#添加行政區劃邊界作為底圖
sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5)

#繪制colorbar
cax=plt.axes([0.05,0.33,0.02,0.3])
plt.title('Datacount')
plt.sca(ax)

#繪制OD
od_gdf.plot(ax=ax,column='count',cmap='Blues_r',linewidth=0.5,vmax=10,cax=cax,legend=True)

#添加比例尺和指北針
tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10)
plt.axis('off')
plt.xlim(bounds[0],bounds[2])
plt.ylim(bounds[1],bounds[3])
plt.show()

結果如圖9所示:

06162510-3f35-11ed-9e49-dac502259ad0.png▲ 圖9 TransBigData繪制的柵格OD數據

同時,TransBigData包也提供了將OD直接聚合集計到區域間的方法:

#OD集計到區域

#方法1:在不傳入柵格化參數時,直接用經緯度匹配
od_gdf=tbd.odagg_shape(oddata,sz,round_accuracy=6)

#方法2:傳入柵格化參數時,程序會先柵格化后匹配以加快運算速度,數據量大時建議使用
od_gdf=tbd.odagg_shape(oddata,sz,params=params)
od_gdf.plot(column='count')

結果如圖10所示:

063860bc-3f35-11ed-9e49-dac502259ad0.png▲圖10 tbd集計的小區OD

加載地圖底圖并調整出圖參數:

#創建圖框
importmatplotlib.pyplotasplt
importplot_map
fig=plt.figure(1,(8,8),dpi=300)
ax=plt.subplot(111)
plt.sca(ax)

#添加行政區劃邊界作為底圖
sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.2),linewidths=0.5)

#繪制colorbar
cax=plt.axes([0.05,0.33,0.02,0.3])
plt.title('count')
plt.sca(ax)

#繪制OD
od_gdf.plot(ax=ax,vmax=100,column='count',cax=cax,cmap='autumn_r',linewidth=1,legend=True)

#添加比例尺和指北針
tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10)
plt.axis('off')
plt.xlim(bounds[0],bounds[2])
plt.ylim(bounds[1],bounds[3])
plt.show()

結果如圖11所示:

065ce5f4-3f35-11ed-9e49-dac502259ad0.png▲ 圖11區域間OD可視化結果

5、交互可視化

在TransBigData中,我們可以對出租車數據使用簡單的代碼在jupyter notebook中快速進行交互可視化。這些可視化方法底層依托了keplergl包,可視化的結果不再是靜態的圖片,而是能夠與鼠標響應交互的地圖應用。

tbd.visualization_data方法可以實現數據分布的可視化,將數據傳入該方法后,TransBigData會首先對數據點進行柵格集計,然后生成數據的柵格,并將數據量映射至顏色上。代碼如下:

#可視化數據點分布
tbd.visualization_data(data,col=['lon','lat'],accuracy=1000,height=500)

結果如圖12所示:

0680fc1e-3f35-11ed-9e49-dac502259ad0.gif▲ 圖12數據分布的柵格可視化

對于出租車數據中所提取出的出行OD,也可使用tbd.visualization_od方法實現OD的弧線可視化。該方法也會對OD數據進行柵格聚合集計,生成OD弧線,并將不同大小的OD出行量映射至不同顏色。代碼如下:

#可視化數據點分布
tbd.visualization_od(oddata,accuracy=2000,height=500)

結果如圖13所示:

07876774-3f35-11ed-9e49-dac502259ad0.gif▲ 圖13 OD分布的弧線可視化

對個體級的連續追蹤數據,tbd.visualization_trip方法可以將數據點處理為帶有時間戳的軌跡信息并動態地展示,代碼如下:

#動態可視化軌跡

tbd.visualization_trip(data,col=['lon','lat','VehicleNum','time'],height=500)

結果圖14所示。點擊其中的播放鍵,可以看到出租車運行的動態軌跡效果。

0e230d0e-3f35-11ed-9e49-dac502259ad0.gif▲ 圖14出租車軌跡動態可視化

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gps
    gps
    +關注

    關注

    22

    文章

    2901

    瀏覽量

    166520
  • 數據
    +關注

    關注

    8

    文章

    7134

    瀏覽量

    89386
  • 存儲
    +關注

    關注

    13

    文章

    4353

    瀏覽量

    86062

原文標題:酷炫,Python實現交通數據可視化!

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    機器學習為什么需要數據預處理

    數據預處理是準備原始數據并使其適合機器學習模型的過程。這是創建機器學習模型的第一步也是關鍵的一步。 創建機器學習項目時,我們并不總是遇到干凈且格式化的數據。在對
    的頭像 發表于 08-24 09:20 ?1991次閱讀
    機器學習為什么需要<b class='flag-5'>數據</b><b class='flag-5'>預處理</b>

    請教大家一下關于數據預處理

    一般將獲得的加速度數據得進行數據預處理,常見的預處理方法有去掉趨勢相、還得將離散的數值積分獲得振幅。請問有做過的沒,請教一下。
    發表于 06-07 11:16

    拿到數據后的數據理解和預處理工作

    深度解析數據挖掘數據理解和預處理
    發表于 04-19 16:51

    Python數據預處理方法

    機器學習-Python實踐Day3(特征工程--數據預處理2)
    發表于 06-03 15:55

    數據探索與數據預處理

    目錄1數據探索與數據預處理21.1 賽題回顧21.2 數據探索性分析與異常值處理21.3 相關性分析52特征工程82.1 光伏發電領域特征8
    發表于 07-12 08:37

    數據預處理故障信息獲取

    數據預處理故障信息獲取1.目前,常用的故障診斷參數有電流、電壓、功率、轉矩、磁通、溫度、振動等物理量。其中定子電流信號相對于其它參數受環境等外界影響最小,也因為電流傳感器安裝方便而最容易獲取,因此
    發表于 09-06 08:43

    C預處理與C語言基本數據類型

    嵌入式系統設計師學習筆記二十九:嵌入式程序設計④——C預處理預處理指令表:(編碼規范:GB/T 28169-2011)關于宏定義 #denfine 詳解可點擊連接查看博主的另一篇文章 預定義宏預處理
    發表于 12-21 08:29

    C語言的編譯預處理

    在將一個C源程序轉換為可執行程序的過程, 編譯預處理是最初的步驟. 這一步驟是由預處理器(preprocessor)來完成的. 在源流程序被編譯器處理之前,
    發表于 09-20 18:17 ?47次下載

    Web使用挖掘數據預處理模塊、實現方法及發展前景

    數據預處理是Web使用挖掘的第一個環節。預處理的對象是Web 日志文件。由于Web 日志文件的格式是半結構化的,且日志數據不夠完整,因此
    的頭像 發表于 11-06 09:32 ?3617次閱讀
    Web使用挖掘<b class='flag-5'>中</b>的<b class='flag-5'>數據</b><b class='flag-5'>預處理</b>模塊、實現方法及發展前景

    什么是大數據采集和預處理

    一般情況下,大數據處理的流程為:數據采集和預處理數據存儲、數據分析和數據可視化。
    的頭像 發表于 02-15 14:22 ?4221次閱讀

    PyTorch教程之數據預處理

    電子發燒友網站提供《PyTorch教程之數據預處理.pdf》資料免費下載
    發表于 06-02 14:11 ?0次下載
    PyTorch教程之<b class='flag-5'>數據</b><b class='flag-5'>預處理</b>

    圖像預處理方法研究

    圖像預處理的主要目的是消除圖像無關的信息,恢復有用的真實信息,增強有關信息的可檢測性、最大限度地簡化數據,從而改進特征提取、圖像分割、匹配和識別的可靠性。一般的預處理流程為:1灰度化
    發表于 09-20 09:35 ?602次閱讀

    C語言有哪些預處理操作?

    C語言的預處理是在編譯之前對源代碼進行處理的階段,它主要由預處理器完成。預處理器是一個獨立的程序,它負責對源代碼進行一些文本替換和處理,生成
    的頭像 發表于 12-08 15:40 ?654次閱讀
    C語言有哪些<b class='flag-5'>預處理</b>操作?

    機器學習數據預處理與特征工程

    在機器學習的整個流程數據預處理與特征工程是兩個至關重要的步驟。它們直接決定了模型的輸入質量,進而影響模型的訓練效果和泛化能力。本文將從數據預處理
    的頭像 發表于 07-09 15:57 ?565次閱讀

    Minitab 數據清理與預處理技巧

    Minitab是一款功能強大的統計分析和質量管理軟件,在數據分析過程數據清理與預處理是至關重要的環節。以下是一些在Minitab中進行數據
    的頭像 發表于 12-02 16:06 ?501次閱讀
    主站蜘蛛池模板: 国产午夜视频在永久在线观看 | 国产日韩成人内射视频 | 99视频这里只有精品 | 丝瓜视频在线免费 | 久久这里只有精品视频e | 亚洲免费视频日本一区二区 | 国产69精品久久久久观看软件 | 亚洲精品乱码久久久久久v 亚洲精品乱码电影在线观看 | 久久精品视在线观看85 | 久久两性视频 | 精品国产品国语在线不卡 | 含羞草免费完整视频在线观看 | 男人插女人动态图 | 国产精品人妻99一区二 | 粗大分开挺进内射 | 亚洲精品一区三区三区在线观看 | 亚洲免费久久 | 韩国甜性涩爱 | 国产婷婷午夜无码A片 | 贵妃高h荡肉呻吟np杨玉环 | 欧美同志高清vivoeso | 亚洲狠狠97婷婷综合久久久久 | 亚洲视频中文字幕在线观看 | 亚洲精品国产第一区第二区 | 国产一级特黄aa毛片 | 竹菊精品久久久久久久99蜜桃 | 把手戳进美女尿口里动态图 | 99久久精品免费精品国产 | 久久强奷乱码老熟女 | 日本电影小姐 | 樱花草在线影视WWW日本动漫 | 在线免费视频a | BLACKED太粗太长 | 久久久久综合 | 内地同志男16china16 | 黑色丝袜在线观看 | 国产午夜一区二区三区免费视频 | 国产电影无码午夜在线播放 | 午夜福利体验免费体验区 | 动漫美女和男人下载 | 亚洲精品色播一区二区 |