1、TransBigData簡介
TransBigData是一個為交通時空大數據處理、分析和可視化而開發的Python包。TransBigData為處理常見的交通時空大數據(如出租車GPS數據、共享單車數據和公交車GPS數據等)提供了快速而簡潔的方法。TransBigData為交通時空大數據分析的各個階段提供了多種處理方法,代碼簡潔、高效、靈活、易用,可以用簡潔的代碼實現復雜的數據任務。
目前,TransBigData主要提供以下方法:
數據預處理:對數據集提供快速計算數據量、時間段、采樣間隔等基本信息的方法,也針對多種數據噪聲提供了相應的清洗方法。
數據柵格化:提供在研究區域內生成、匹配多種類型的地理柵格(矩形、三角形、六邊形及geohash柵格)的方法體系,能夠以向量化的方式快速算法將空間點數據映射到地理柵格上。
數據可視化:基于可視化包keplergl,用簡單的代碼即可在Jupyter Notebook上交互式地可視化展示數據。
軌跡處理:從軌跡數據GPS點生成軌跡線型,軌跡點增密、稀疏化等。
地圖底圖、坐標轉換與計算:加載顯示地圖底圖與各類特殊坐標系之間的坐標轉換。
特定處理方法:針對各類特定數據提供相應處理方法,如從出租車GPS數據中提取訂單起訖點,從手機信令數據中識別居住地與工作地,從地鐵網絡GIS數據構建網絡拓撲結構并計算最短路徑等。
TransBigData可以通過pip或者conda安裝,在命令提示符中運行下面代碼即可安裝:
pipinstall-Utransbigdata
安裝完成后,在Python中運行如下代碼即可導入TransBigData包。
importtransbigdataastbd
2、數據預處理
TransBigData與數據處理中常用的Pandas和GeoPandas包能夠無縫銜接。首先我們引入Pandas包并讀取出租車GPS數據:
importpandasaspd #讀取數據 data=pd.read_csv('TaxiData-Sample.csv',header=None) data.columns=['VehicleNum','time','lon','lat','OpenStatus','Speed'] data.head()
結果如圖2所示:
▲圖2 出租車GPS數據
然后,引入GeoPandas包,讀取研究范圍的區域信息并展示:
importgeopandasasgpd #讀取研究范圍區域信息 sz=gpd.read_file(r'sz/sz.shp') sz.plot()
結果如圖3所示:
▲圖3 研究范圍的區域信息
TransBigData包集成了交通時空數據的一些常用預處理方法。其中,tbd.clean_outofshape方法輸入數據和研究范圍區域信息,能夠剔除研究范圍外的數據。而tbd.clean_taxi_status方法則可以剔除出租車GPS數據中載客狀態瞬間變化的記錄。在使用預處理方法時需要傳入數據表中重要信息列所對應的列名,代碼如下:
#數據預處理 #剔除研究范圍外的數據,計算原理是在方法中先柵格化后柵格匹配研究范圍后實現對應。因此這里需要同時定義柵格大小,越小則精度越高 data=tbd.clean_outofshape(data,sz,col=['lon','lat'],accuracy=500) #剔除出租車數據中載客狀態瞬間變化的數據 data=tbd.clean_taxi_status(data,col=['VehicleNum','time','OpenStatus'])
經過上面代碼的處理,我們就已經將出租車GPS數據中研究范圍以外的數據和載客狀態瞬間變化的數據予以剔除。
3、數據柵格化
柵格形式(地理空間上相同大小的網格)是表達數據分布最基本的方法,GPS數據經過柵格化后,每個數據點都含有其所在的柵格信息。采用柵格表達數據的分布時,其表示的分布情況與真實情況接近。
TransBigData工具為我們提供了一套完整、快速、便捷的柵格處理體系。用TransBigData進行柵格劃分時,首先需要確定柵格化的參數(可以理解為定義了一個柵格坐標系),參數可以幫助我們快速進行柵格化:
#定義研究范圍邊界 bounds=[113.75,22.4,114.62,22.86] #通過邊界獲取柵格化參數 params=tbd.area_to_params(bounds,accuracy=1000) params
輸出:
{'slon': 113.75, 'slat': 22.4, 'deltalon': 0.00974336289289822, 'deltalat': 0.008993210412845813, 'theta': 0, 'method': 'rect', 'gridsize': 1000}
此時輸出的柵格化參數params的內容存儲了柵格坐標系的原點坐標(slon、slat)、單個柵格的經緯度長寬 (deltalon、deltalat)、柵格的旋轉角度(theta)、柵格的形狀(method參數,其值可以是方形rect、三角形tri和六邊形hexa)以及柵格的大小(gridsize參數,單位為米)。
取得柵格化參數后,我們便可以用TransBigData中提供的方法對GPS數據進行柵格匹配、生成等操作。
完整的柵格處理方法體系如圖4所示:
▲圖4 TransBigData所提供的柵格處理體系
使用tbd.GPS_to_grid方法能夠為每一個出租車GPS點生成,該方法會生成編號列LONCOL與 LATCOL,由這兩列共同指定所在的柵格:
#將GPS數據對應至柵格,將生成的柵格編號列賦值到數據表上作為新的兩列 data['LONCOL'],data['LATCOL']=tbd.GPS_to_grids(data['lon'],data['lat'],params)
下一步,聚合集計每一柵格內的數據量,并為柵格生成地理幾何圖形,構建GeoDataFrame:
#聚合集計柵格內數據量 grid_agg=data.groupby(['LONCOL','LATCOL'])['VehicleNum'].count().reset_index() #生成柵格的幾何圖形 grid_agg['geometry']=tbd.grid_to_polygon([grid_agg['LONCOL'],grid_agg['LATCOL']],params) #轉換為GeoDataFrame grid_agg=gpd.GeoDataFrame(grid_agg) #繪制柵格 grid_agg.plot(column='VehicleNum',cmap='autumn_r')
結果如圖5所示:
▲圖5 數據柵格化的結果
對于一個正式的數據可視化圖來說,我們還需要添加底圖、色條、指北針和比例尺。TransBigData也提供了相應的功能,代碼如下:
importmatplotlib.pyplotasplt fig=plt.figure(1,(8,8),dpi=300) ax=plt.subplot(111) plt.sca(ax) #添加行政區劃邊界作為底圖 sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.1),linewidths=0.5) #定義色條位置 cax=plt.axes([0.04,0.33,0.02,0.3]) plt.title('Datacount') plt.sca(ax) #繪制數據 grid_agg.plot(column='VehicleNum',cmap='autumn_r',ax=ax,cax=cax,legend=True) #添加指北針和比例尺 tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10) plt.axis('off') plt.xlim(bounds[0],bounds[2]) plt.ylim(bounds[1],bounds[3]) plt.show()
結果如圖6所示:
▲圖6 tbd包繪制的出租車GPS數據分布
4、訂單起訖點OD提取與聚合集計
針對出租車GPS數據,TransBigData提供了直接從數據中提取出出租車訂單起訖點(OD)信息的方法,代碼如下:
#從GPS數據提取OD oddat=tbd.taxigps_to_od(data,col=['VehicleNum','time','Lng','Lat','OpenStatus']) oddata
結果如圖7所示:
▲圖7 tbd包提取的出租車OD
TransBigData包提供的柵格化方法可以讓我們快速地進行柵格化定義,只需要修改accuracy參數,即可快速定義不同大小粒度的柵格。我們重新定義一個2km*2km的柵格坐標系,將其參數傳入tbd.odagg_grid方法對OD進行柵格化聚合集計并生成GeoDataFrame:
#重新定義柵格,獲取柵格化參數 params=tbd.area_to_params(bounds,accuracy=2000) #柵格化OD并集計 od_gdf=tbd.odagg_grid(oddata,params) od_gdf.plot(column='count')
結果如圖8所示:
▲圖8 tbd集計的柵格OD
添加地圖底圖,色條與比例尺指北針:
#創建圖框 importmatplotlib.pyplotasplt fig=plt.figure(1,(8,8),dpi=300) ax=plt.subplot(111) plt.sca(ax) #添加行政區劃邊界作為底圖 sz.plot(ax=ax,edgecolor=(0,0,0,1),facecolor=(0,0,0,0),linewidths=0.5) #繪制colorbar cax=plt.axes([0.05,0.33,0.02,0.3]) plt.title('Datacount') plt.sca(ax) #繪制OD od_gdf.plot(ax=ax,column='count',cmap='Blues_r',linewidth=0.5,vmax=10,cax=cax,legend=True) #添加比例尺和指北針 tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10) plt.axis('off') plt.xlim(bounds[0],bounds[2]) plt.ylim(bounds[1],bounds[3]) plt.show()
結果如圖9所示:
▲ 圖9 TransBigData繪制的柵格OD數據
同時,TransBigData包也提供了將OD直接聚合集計到區域間的方法:
#OD集計到區域 #方法1:在不傳入柵格化參數時,直接用經緯度匹配 od_gdf=tbd.odagg_shape(oddata,sz,round_accuracy=6) #方法2:傳入柵格化參數時,程序會先柵格化后匹配以加快運算速度,數據量大時建議使用 od_gdf=tbd.odagg_shape(oddata,sz,params=params) od_gdf.plot(column='count')
結果如圖10所示:
▲圖10 tbd集計的小區OD
加載地圖底圖并調整出圖參數:
#創建圖框 importmatplotlib.pyplotasplt importplot_map fig=plt.figure(1,(8,8),dpi=300) ax=plt.subplot(111) plt.sca(ax) #添加行政區劃邊界作為底圖 sz.plot(ax=ax,edgecolor=(0,0,0,0),facecolor=(0,0,0,0.2),linewidths=0.5) #繪制colorbar cax=plt.axes([0.05,0.33,0.02,0.3]) plt.title('count') plt.sca(ax) #繪制OD od_gdf.plot(ax=ax,vmax=100,column='count',cax=cax,cmap='autumn_r',linewidth=1,legend=True) #添加比例尺和指北針 tbd.plotscale(ax,bounds=bounds,textsize=10,compasssize=1,accuracy=2000,rect=[0.06,0.03],zorder=10) plt.axis('off') plt.xlim(bounds[0],bounds[2]) plt.ylim(bounds[1],bounds[3]) plt.show()
結果如圖11所示:
▲ 圖11區域間OD可視化結果
5、交互可視化
在TransBigData中,我們可以對出租車數據使用簡單的代碼在jupyter notebook中快速進行交互可視化。這些可視化方法底層依托了keplergl包,可視化的結果不再是靜態的圖片,而是能夠與鼠標響應交互的地圖應用。
tbd.visualization_data方法可以實現數據分布的可視化,將數據傳入該方法后,TransBigData會首先對數據點進行柵格集計,然后生成數據的柵格,并將數據量映射至顏色上。代碼如下:
#可視化數據點分布 tbd.visualization_data(data,col=['lon','lat'],accuracy=1000,height=500)
結果如圖12所示:
▲ 圖12數據分布的柵格可視化
對于出租車數據中所提取出的出行OD,也可使用tbd.visualization_od方法實現OD的弧線可視化。該方法也會對OD數據進行柵格聚合集計,生成OD弧線,并將不同大小的OD出行量映射至不同顏色。代碼如下:
#可視化數據點分布 tbd.visualization_od(oddata,accuracy=2000,height=500)
結果如圖13所示:
▲ 圖13 OD分布的弧線可視化
對個體級的連續追蹤數據,tbd.visualization_trip方法可以將數據點處理為帶有時間戳的軌跡信息并動態地展示,代碼如下:
#動態可視化軌跡 tbd.visualization_trip(data,col=['lon','lat','VehicleNum','time'],height=500)
結果圖14所示。點擊其中的播放鍵,可以看到出租車運行的動態軌跡效果。
▲ 圖14出租車軌跡動態可視化
-
gps
+關注
關注
22文章
2901瀏覽量
166520 -
數據
+關注
關注
8文章
7134瀏覽量
89386 -
存儲
+關注
關注
13文章
4353瀏覽量
86062
原文標題:酷炫,Python實現交通數據可視化!
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論