國際人工智能聯合會議(International Joint Conference on Artificial Intelligence,簡稱為IJCAI)是人工智能領域中最主要的學術會議之一,在會議上發表的學術成果在整個AI領域都有深遠的影響。IJCAI-PRICAI-20于2021年1月在日本舉行,但由于疫情原因,本次會議多次調整議程。日前,深蘭科技終于收到了姍姍來遲的榮譽,在NetML競賽獲得兩冠一季的好成績,尤其在AI視頻競賽中“深蘭AI智能掃路機”獲得Best Industrial Video最佳工業應用視頻獎。
昨日,作為指導委員會成員,上海市經濟和信息化委員會、中國智慧城市工作委員會、中國城市環境衛生協會智能環衛專業委員會、長三角產業發展研究院、AIII人工智能產業研究院和深蘭科技(排名不分先后),共同倡議發起新一代人工智能環衛智能化產業聯盟,旨在進一步集聚智能環衛領域專家學者和領跑企業,聯合環衛清潔領域的產、學、研、用、資和服等單位,創新突破關鍵核心技術,加速建設人工智能環衛技術創新生態體系。深蘭科技作為其中的唯一的人工智能企業,其冠軍團隊的技術實力,為環衛智能化的推進再添砝碼!
最佳工業應用視頻獎
IJCAI-PRICAI20 AI視頻競賽作為國際會議競賽中不多見的形式,為研究人員和AI從業人員提供了一個展示平臺,以視頻的方式呈現易懂、有趣的人工智能,并體現其對社會的價值。參賽者的視頻在會議的展廳中循環播放,最終獎項由參會者投票和專業評委評定產生,可謂是眾望所歸。
視頻以深蘭AI智能掃路機的第一視角,以擬人的方式模擬環衛工人一天的作息,以及在不同環境下的工作流程,巧妙地展示了機器人的自動檢測目標、躲避障礙、判斷交通信號、數據同步等能力,以及其背后的自動駕駛、數據管理等核心系統。視頻敘述清晰,畫面風格和配樂充滿科技感,引人入勝。短短4分鐘的視頻內容豐富,以講故事的形式讓人不知不覺中了解了產品的主要信息。
這款AI智能掃路機通過在實際交通狀況下的行駛,AI智能掃路機在停車、大轉、障礙物避讓等方面開展了多場景測試和優化調整,已基本滿足了無人駕駛環衛道路保潔的要求,目前已在上海、深圳、天津等多地投入運營。
NetML競賽獲兩冠一季
NetML競賽是由英特爾公司贊助,在IJCAI-PRICAI20上組織的一場基于機器學習的流量分析競賽。本次比賽借助IJCAI-PRICAI20參加者的專業知識,幫助網絡研究人員與ML / AI社區進行互動,促進網絡流量分析新方法的研究和開發。深蘭科技DeepBlueAI團隊在7個賽道中取得了兩冠一季的好成績。分別在Track2和Track4獲得冠軍,在Track5獲得季軍。
賽題介紹
隨著互聯網的發展,網絡流量日益增多,同時惡意流量也在不斷增加。如搶票軟件、明星打榜、惡意爬蟲等。為了探索更好的網絡流量的分析方法,在這場比賽中,主辦方NetML提供了3個不同的相關數據集(CICIDS2017,NetML,non-vpn2016),并且將label分成了3種不同的粒度,分別是top,mid 和 fine。top就是二分類區分正常流量與惡意流量;mid和fine 還需要對惡意流量進行進一步的分類。CICIDS2017數據集和NetML數據集沒有mid粒度,所以一共有7個任務對應7個賽道。
評測指標
對于多分類任務:
overall = F1*mAP 。其中,F1 是每個類的f1-score乘以每個類的樣本占比, mAP是所有類的平均準確率。
對于二分類任務:
overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),FAR = FP/(TN+FP)。
賽題分析
三個數據集都是10w到50w行級別的數據量,62列特征,包含了發送接收地址與端口, 發送接收包大小,時間,hdr信息,pld統計信息,tls信息,http請求信息,dns信息等網絡信息。數據集之間的區別是收集源不一樣,二分類與多分類標簽不一樣。
經過分析,賽題有主要有以下難點:
數據處理。原始特征數量比較多而且類型復雜,包括很多類型是列表的列如dns的相關信息。如何從這類列表中提取特征是主要問題。
針對不同粒度的label提取特征。當前特征對top粒度二分類可能有用,但是區分不了剩下的多分類。
競賽方案
自動列表類型特征提取:由于列表類型的數據是無法直接喂給模型的,所以我們對列表類型進行了聚合,從而提取了一些統計數值特征。
自動特征工程:由于原始數據特征數量較多,我們選擇自動特征工程進行處理,以實現短時間內有效信息的盡量提取,并節約人工成本。我們將原始特征主要分成了類別類和數值類,并在根據類型做出不同的特征。
特征選擇:經過上面兩步,我們做的特征已經超過一千列了,但其中大多數是無效特征。為了避免過擬合和加速模型訓練速度,我們使用了兩種特征選擇方法將特征減少到1/5。首先,我們通過lightgbm模型根據信息熵輸出的特征重要性把這些完全沒用的特征篩選出來;然后,我們選用第二種特征選擇的方法是label 重排列,使用它可以篩選出一些無效的特征。label 重排列方法的主要思想是,通過label的隨機打亂,并逐次學習,得到隨機狀態下重要性的分布,學習到哪些特征的重要性是“虛高”的。
指標優化:預測完之后,我們發現每個類別的比例與原始數據類別比例差別較大,導致得分偏低,尤其是在多分類任務中。我們就通過后處理調整閾值的方式去調整每個類別的占比。
模型融合:我們分別使用了lightgbm,catboost,xgboost這些模型。采用加權平均的方法進行融合,權重由每個單模型的效果決定。
總結
DeepBlueAI團隊針對網絡流量分析任務,通過數據分析、自動列表類型特征提取,自動特征工程, 在經過特征選擇,指標優化和模型融合等設計了一個網絡流量識別算法。該算法在本次比賽中取得了2冠1季的好成績,有望幫助互聯網識別出惡意流量,形成一個良好的網絡環境。
責任編輯:lq
-
機器人
+關注
關注
211文章
28632瀏覽量
208002 -
智能化
+關注
關注
15文章
4940瀏覽量
55634 -
人工智能
+關注
關注
1794文章
47642瀏覽量
239674
原文標題:賽道 | 世界冠軍加持環衛智能化 深蘭獲IJCAI20兩冠一季+最佳工業應用視頻獎
文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論