色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

初探AI測試分析

Testin云測 ? 來源:Testin云測 ? 2024-11-12 10:25 ? 次閱讀

人工智能中,算法不只是用代碼敲出來這么簡單的,而是由訓練數(shù)據(jù)、標簽神經(jīng)網(wǎng)絡(luò)的結(jié)合產(chǎn)生的,這是機器學習的本質(zhì)。算法本身沒有直接洞察力,也不能直接像缺陷一樣被修復:它屬于“黑盒開發(fā)”。

人工智能系統(tǒng)需要具備應(yīng)用于不同數(shù)據(jù)和不同應(yīng)用場景的能力。訓練數(shù)據(jù)和標簽的選擇會引起偏差和透明度的風險,可能對真實情況產(chǎn)生重大影響。測試人工智能的重點在于這些風險。人工智能測試需要道德、社會和意識,以突出用戶、預期,并將這些預期轉(zhuǎn)化為可重復運行和自動化的測試用例。人工智能測試包括設(shè)置指標,將測試結(jié)果轉(zhuǎn)化為對系統(tǒng)的有意義和可量化的評估,以便開發(fā)人員優(yōu)化系統(tǒng)。

1. 介紹

毫無疑問,未來屬于人工智能。它已經(jīng)進入了我們的日常生活,并被世界各地的大公司所使用。人工智能的適用性似乎無窮無盡。然而,仍然存在許多疑慮和擔憂。例如,在自動駕駛汽車的情況下:事故責任、不穩(wěn)定的物體識別以及與不可預測的人類交通參與者的復雜互動阻礙了它的廣泛推廣。人工智能的一些可能令人恐懼的影響已經(jīng)顯現(xiàn)出來。人工智能算法可以制造和擴大偏差。例如,在緬甸的種族清洗中,數(shù)以萬計的羅興亞人被殺害,100萬人流離失所。Facebook算法支持了已經(jīng)存在的種族緊張局勢,這偏差觀點得到強化,因為它被優(yōu)化為點擊成功則被獎勵。負面信息在搜索結(jié)果中越來越多地出現(xiàn)。每個AI軟件開發(fā)人員都在與這些疑慮和風險作斗爭。AI測試,什么是缺陷,如何修復它?如何確保系統(tǒng)在各種輸入做正確的事情?如何獲得正確率的信心?結(jié)果對所有相關(guān)方公平嗎?當前的發(fā)展、觀點和價值觀是否反映在算法中?從測試的角度來看,AI的最大風險是什么,如何處理這些風險?

2. 介紹

2.1. AI 屬于黑盒開發(fā)

在人工智能中,算法、系統(tǒng)在標準、決策和行動方面的行為,并沒有明確地體現(xiàn)在代碼中。在非人工智能開發(fā)中,代碼直接表達了算法。在人工智能中,算法是訓練數(shù)據(jù)、參數(shù)化、標簽和神經(jīng)網(wǎng)絡(luò)選擇的產(chǎn)物,而且無法在代碼中體現(xiàn)。代碼、神經(jīng)網(wǎng)絡(luò)只是通過訓練產(chǎn)生算法的系統(tǒng)的一個組成部分,這是機器學習的本質(zhì)。

2.2. 機器學習和神經(jīng)網(wǎng)絡(luò)

機器學習和人類學習之間有很強的相似性。以一個孩子第一次學習使用一個概念為例。這個孩子被告知,它抱著的毛茸茸的生物是一只“貓”。現(xiàn)在,這個孩子開始用自己的神經(jīng)網(wǎng)絡(luò)工作。貓的概念與不是貓的物體(如“爸爸”)進行比較。神經(jīng)網(wǎng)絡(luò)的工作方式是找到一種配置自己的方法,如果它看到貓,它會將其歸類為貓,而不是爸爸。它通過找到差異、標準(如皮毛、胡須、四條腿等)來做到這一點。但我們不知道這些標準到底是什么。它們也可能是“捉老鼠”、“呼嚕聲”或“白色”。我們無法在大腦中找到貓的概念及其標準,也無法直接在大腦中糾正它。

神經(jīng)網(wǎng)絡(luò)由許多代碼塊(“節(jié)點”)組成,這些代碼塊按層排列,每個節(jié)點層都連接到其上下層。節(jié)點沒有被預先編程以執(zhí)行特定任務(wù)。節(jié)點只是小型的計算器,處理頂層呈現(xiàn)給它們的部分并返回計算結(jié)果。給定兩張圖片,一張是貓,一張是爸爸,它將嘗試不同的配置,以找到一種配置,將一個樣本識別為貓,另一個樣本識別為爸爸。它將找出差異,以便其配置將在下一次給出正確的分類。

2.3. 算法=數(shù)據(jù)+編碼+標簽

因此,該系統(tǒng)產(chǎn)生的算法由從樣本中衍生出的模型組成,因此它可以對輸入進行分類和識別,并給它們打標簽。該算法是神經(jīng)網(wǎng)絡(luò)的產(chǎn)物,但主要基于訓練數(shù)據(jù)和標簽。因此,算法不是代碼,而是代碼+訓練數(shù)據(jù)+標簽。

2.4. 模糊邏輯和數(shù)學

雖然整個系統(tǒng)所做的只是計算,產(chǎn)生數(shù)字,但這些數(shù)字不會產(chǎn)生布爾結(jié)果:例如:“這是爸爸”或“這是一只貓”。結(jié)果將是從節(jié)點和層中計算的所有數(shù)字的總和,每個數(shù)字都表示根據(jù)每個給定的標簽滿足標準的程度。這幾乎不可能(在0-1區(qū)間)達到1。其次,它還會給樣本給出評分。因此,呈現(xiàn)給系統(tǒng)的新圖片可能會將“貓性”評為0.87,將“爸爸性”評為0.13。結(jié)論是,樣本是一只貓,但它不是100%的貓,也不是0%的爸爸。因此,人工智能的最終產(chǎn)品是計算、概率,而不是100%的確定性。

2.5. 開發(fā)與糾錯

神經(jīng)網(wǎng)絡(luò)的開發(fā)包括開發(fā)神經(jīng)網(wǎng)絡(luò)本身,但大多數(shù)開發(fā)人員使用現(xiàn)成的神經(jīng)網(wǎng)絡(luò)。接下來,他們需要配置神經(jīng)網(wǎng)絡(luò),使其能夠接收手工的輸入并配置標簽。最后,神經(jīng)網(wǎng)絡(luò)的層可以參數(shù)化:計算結(jié)果可以加權(quán),以便某些結(jié)果對最終結(jié)果的影響比其他結(jié)果更大。這些是開發(fā)人員擁有的主要調(diào)整工具。如果系統(tǒng)表現(xiàn)不令人滿意,則可以調(diào)整參數(shù)。這不是一個重點的缺陷修復,而是糾正一個缺陷決策的例子。參數(shù)化將影響結(jié)果,但每次調(diào)整都會對整體性能產(chǎn)生影響。在人工智能中,存在大量的“回歸”:對不打算改變的系統(tǒng)部分產(chǎn)生不必要和意想不到的影響。訓練數(shù)據(jù)和標簽也可能成為影響系統(tǒng)的候選因素。在人工智能的某些問題上,例如欠擬合,擴大訓練數(shù)據(jù)很可能會改善系統(tǒng)。欠擬合指的是模型無法很好地擬合訓練數(shù)據(jù),無法捕捉到數(shù)據(jù)中的真實模式和關(guān)系。欠擬合可以比喻為一個學生連基本的知識都沒有掌握好,無論是老題還是新題都無法解答。這種情況下,模型過于簡單或者復雜度不足,無法充分學習數(shù)據(jù)中的特征和模式。

2.6. 整體評估和指標

當缺陷修正無法聚焦,每次微調(diào)都會導致大規(guī)模回歸時,大規(guī)模回歸測試是必要的。問題“我們是否修復了這個缺陷?”成為一個次要問題。我們想知道每次更改后的整體行為。我們想知道與其他版本相比,系統(tǒng)的整體性能如何。在整體評估中,我們需要考慮AI的輸出:計算結(jié)果既不是真也不是假。每個結(jié)果都是一個等級。因此,最終結(jié)果應(yīng)該進行全面比較、權(quán)衡和合并,以便我們可以決定一個版本是否優(yōu)于另一個版本,是否應(yīng)該使用它。結(jié)果將是基于預期和它們相對重要性的輸出價值的度量。

3. AI風險

我們將在這里討論最重要的風險。這些風險是人工智能的典型風險,可能會對人工智能的質(zhì)量、客戶、用戶、人們甚至世界產(chǎn)生嚴重影響。在開始測試之前,應(yīng)該考慮這些風險,為測試人員提供重點提示。在分析測試結(jié)果時,應(yīng)該考慮這些風險。

作為對意外結(jié)果的因果分析,這可以為優(yōu)化系統(tǒng)提供線索。例如:欠擬合的系統(tǒng)最需要更多樣化的訓練數(shù)據(jù),過擬合的系統(tǒng)需要簡化標簽。

3.1. 偏差

人工智能的主要風險是“偏差”的類型。在人類智能中,我們稱之為偏差。由于訓練數(shù)據(jù)和概念的限制,我們看待事物過于簡單(簡化)或存在(偏差)。概念的高粒度可能意味著系統(tǒng)無法充分概括,導致結(jié)果毫無用處。

3.1.1. 選擇偏差

如果訓練數(shù)據(jù)選擇遺漏了現(xiàn)實世界中的重要元素,這可能會導致選擇偏差。與實際結(jié)果相比,上次歐洲選舉的民意調(diào)查預測,荷蘭的歐洲懷疑黨將獲得比實際選舉高得多的勝利。民意調(diào)查沒有過濾人們是否真的會投票。歐洲懷疑論者被證明比其他選民更有可能不投票。

3.1.2. 固定偏差

急于驗證一個高度相信或投入的假設(shè)可能會導致選擇或過度重視證實該論點的數(shù)據(jù),而忽視可能存在的缺陷。科學家、政客和產(chǎn)品開發(fā)者可能容易受到這種偏差的影響,即使他們有最好的意圖。一個醫(yī)療援助組織為了籌集更多資金,夸大了可能的糧食危機,顯示死亡人數(shù)上升,但沒有顯示與饑荒和總?cè)丝跀?shù)無關(guān)的死亡人數(shù)。

3.1.3. 欠擬合

缺乏多樣性的訓練數(shù)據(jù)會導致欠擬合。學習過程將無法確定關(guān)鍵的判別標準。訓練軟件識別狼和狗,將哈士奇識別為狼,因為它沒有學到狗也可以在雪中看到。如果我們只在荷蘭獲得與毒品相關(guān)的新聞信息,會發(fā)生什么?

3.1.4. 過擬合

當標簽對于人工智能系統(tǒng)的目的來說過于多樣化和多樣化時,就會出現(xiàn)過度擬合。過擬合(Overfitting)指的是模型在訓練數(shù)據(jù)上表現(xiàn)得過于優(yōu)秀,但在未見數(shù)據(jù)上表現(xiàn)較差。過擬合可以比喻為一個學生死記硬背了一本題庫的所有答案,但當遇到新的題目時無法正確回答。這種情況下,模型對于訓練數(shù)據(jù)中的噪聲和細節(jié)過于敏感,導致了過度擬合的現(xiàn)象。

3.1.5. 異常值

異常值是極端的例子,對算法有太大的影響。如果你的1歲大的孩子看到的第一只貓是無毛貓,這將對他對貓的概念產(chǎn)生重大影響,需要用多個正常貓的例子來糾正。

3.1.6. 混淆變量

模式識別和分析通常需要結(jié)合數(shù)據(jù),特別是當尋找因果關(guān)系時。當不同數(shù)據(jù)模式因數(shù)據(jù)分析目的而相關(guān)聯(lián)而沒有實際因果關(guān)系時,混淆變量就會出現(xiàn)。人們通常認為,喝紅葡萄酒會引起偏頭痛發(fā)作,因為據(jù)報道,喝紅葡萄酒和偏頭痛是相繼發(fā)生的。新研究表明,偏頭痛發(fā)作是由食欲變化引起的,如對紅葡萄酒的渴望。喝紅葡萄酒是一種副作用,而不是偏頭痛的原因!

3.2. 可追溯性

對于非人工智能系統(tǒng),算法就是代碼。對于人工智能系統(tǒng),情況并非如此,因此我們不知道人工智能系統(tǒng)做出決策的確切標準。此外,很難監(jiān)督訓練數(shù)據(jù)的總體情況,因此很難很好地了解人工智能系統(tǒng)將如何表現(xiàn)。因此,當結(jié)果明顯不正確時,很難確定原因并糾正。是訓練數(shù)據(jù)、參數(shù)、神經(jīng)網(wǎng)絡(luò)還是標簽?可追溯性的缺乏導致過度自信和信心不足,并導致責任的不確定性(是軟件、數(shù)據(jù)、標簽還是上下文造成的?)以及缺乏可維護性。

4. 測試AI

減輕人工智能風險的關(guān)鍵是透明度。在偏差方面,我們需要了解訓練數(shù)據(jù)和標簽的代表性,但最重要的是,我們需要了解期望和結(jié)果對所有相關(guān)方的重要性如何反映在結(jié)果中。建立適當程度的信心和可追溯性也需要透明度。通過照亮代碼,將無法實現(xiàn)透明度。即使這是可能的,通過顯示代碼的熱圖,表明當分析對象的特定部分或產(chǎn)生層中的計算時,神經(jīng)網(wǎng)絡(luò)的哪個部分是活躍的,這意味著幾乎什么都沒有。觀察大腦內(nèi)部將永遠不會顯示思想或決定。它可以顯示哪個部分被激活,但所有的心理過程都涉及多個大腦部分,最重要的是過去的經(jīng)驗。人工智能系統(tǒng)是黑盒子,因此我們應(yīng)該像在黑盒測試中一樣測試它們:從外部,開發(fā)基于現(xiàn)實輸入的測試用例。從那里確定對輸出的期望。聽起來很傳統(tǒng),很熟悉,不是嗎?測試人工智能的基本邏輯可能很熟悉,具體的任務(wù)和元素卻大不相同。

傳統(tǒng)上,需求和規(guī)格是預先確定的,測試人員在開始時就可以使用它們。在人工智能中,需求和規(guī)格是如此多樣化和動態(tài),以至于不能期望它們在開始時完全和一次就確定。產(chǎn)品所有者和業(yè)務(wù)顧問應(yīng)該交付需求,但測試人員需要采取主動,以他們需要的形式、粒度和現(xiàn)實性獲得需求。

4.1. 神經(jīng)網(wǎng)絡(luò)、訓練數(shù)據(jù)和標簽

靜態(tài)測試可以及早發(fā)現(xiàn)缺陷。可以選擇神經(jīng)網(wǎng)絡(luò):有哪些替代方案?對于這項審查,需要對所有可能的神經(jīng)網(wǎng)絡(luò)及其特定質(zhì)量和缺點有廣泛的了解。訓練數(shù)據(jù)和標簽可以審查和評估風險敏感性:

1. 數(shù)據(jù)是否很好地反映了現(xiàn)實生活中的數(shù)據(jù)來源、用戶、視角和價值觀?是否有被忽視的相關(guān)數(shù)據(jù)來源?研究結(jié)果可能表明選擇偏差、確認偏差或不足。

2. 數(shù)據(jù)來源和數(shù)據(jù)類型是否平均分配?不同類型、不同組別的代表性如何?研究結(jié)果可能表明不足、選擇偏差、確認偏差或異常值。

3. 標簽是否公平地反映了現(xiàn)實生活中的群體或數(shù)據(jù)類型?標簽是否與系統(tǒng)應(yīng)分析的現(xiàn)實情況或模式相匹配?研究結(jié)果可能表明過度擬合、不足或混淆變量。

4. 數(shù)據(jù)是否足夠?期望的刷新速率是多少?是否匹配?現(xiàn)實世界中是否有事件在數(shù)據(jù)中沒有得到充分反映?

4.2. 識別用戶

該系統(tǒng)的所有者并不是唯一有價值的視角!像搜索系統(tǒng)這樣的AI系統(tǒng)是其用戶世界的重要組成部分,也是那些被其“貼標簽”的人的重要組成部分。AI系統(tǒng)的質(zhì)量可能具有道德、社會和政治方面的意義和影響,因此需要加以考慮。AI的用戶往往是多樣化的,很難知道。他們不是一組固定的訓練有素的用戶,他們不會聚集在一個房間里,他們的行為和期望是可以管理的。他們可能是整個世界,就像搜索引擎的情況一樣:一個訪問阿姆斯特丹的美國游客或一個經(jīng)驗豐富的藝術(shù)愛好者在搜索“珍珠女孩”時,他們的需求和期望非常不同。

一個博物館的搜索引擎。游客想知道一張?zhí)囟ǖ膱D片是否用于展示,藝術(shù)愛好者也想了解背景信息和草圖。接下來:隨著世界的變化,用戶和他們的期望可能會在一夜之間發(fā)生變化。想想巴黎圣母院的大火對那些搜索“巴黎圣母院”或“巴黎大火”的用戶可能有什么影響。AI在DNA序列中識別病毒應(yīng)該考慮到不斷發(fā)生的可能突變。因此,測試AI首先要確定用戶或系統(tǒng)輸出將被使用的視角。這意味著研究系統(tǒng)使用的數(shù)據(jù)分析,采訪流程所有者或采訪真實用戶。

4.3. 分析用戶

識別用戶或數(shù)據(jù)組是一回事,確定他們想要什么、期望什么、需要什么、害怕什么或會如何表現(xiàn)是另一回事。測試人員需要的是用戶和視角的簡介:他們的背景是什么,他們想要什么,什么會讓他們反感或不安,他們有什么期望?一種創(chuàng)建簡介的技術(shù)是“Persona”。這種技術(shù)的關(guān)鍵是不要考慮整個用戶組,而是從該組中選擇一個人,并盡可能使其具體化。Persona的好處是,它讓用戶變得栩栩如生。這是一種從內(nèi)到外考慮用戶視角的技術(shù)。例如:美國游客的Persona可以是喬,一個水管工,住在芝加哥,白人,45歲,已婚,有兩個孩子。他讀書不多,但喜歡色彩鮮艷、制作精良的繪畫。他的愛好是釣魚和翻新舊音響設(shè)備。

4.4. 創(chuàng)建測試用例

對于測試人員來說,這部分可能是大部分工作。根據(jù)每個用戶的個人資料,輸入和預期輸出被確定下來。良好的個人資料將提供一個良好的基礎(chǔ),但可能需要來自研究和訪談的額外信息。識別測試用例永遠不會是完整的,也不會是決定性的:你不能測試一切,在人工智能領(lǐng)域也是如此。世界和用戶都在變化,因此需要在需求中反映出這一點。它從最重要的案例開始;它將不斷增長,需要永久維護。

4.5. 測試數(shù)據(jù)

使用哪些測試數(shù)據(jù)以及是否可以創(chuàng)建、發(fā)現(xiàn)或操作這些數(shù)據(jù)取決于上下文和生產(chǎn)數(shù)據(jù)的可用性。數(shù)據(jù)創(chuàng)建或操作(如圖像識別)是很難做到的,有時是無用的,甚至是適得其反的。使用工具來操作或創(chuàng)建圖像會帶來額外的變量,這可能會產(chǎn)生偏差!測試數(shù)據(jù)對現(xiàn)實世界圖片的代表性如何?如果算法在創(chuàng)建的數(shù)據(jù)中識別出只能在測試數(shù)據(jù)中找到的方面,測試的價值就會受到影響。AI測試人員從真實數(shù)據(jù)中創(chuàng)建測試數(shù)據(jù)集,并嚴格地將這些數(shù)據(jù)與訓練數(shù)據(jù)分開。由于AI系統(tǒng)是動態(tài)的,它所使用的世界是動態(tài)的,測試數(shù)據(jù)必須定期更新。

4.6. 度量

人工智能的輸出不是布爾值:它們是所有可能結(jié)果(標簽)的計算結(jié)果。要確定系統(tǒng)的性能,僅僅確定哪個標簽的得分最高是不夠的。指標是必要的。以圖像識別為例:我們想知道一張貓的圖片是否會被識別為貓。在實踐中,這意味著標簽“貓”的得分將高于“狗”。如果貓的得分是0.43,狗的得分是0.41,那么貓就贏了。但得分之間的微小差異可能表明故障概率。在搜索引擎中,我們想知道頂部的結(jié)果是否是用戶期望的前1名,但如果前1名的結(jié)果是列表中的第2名,聽起來就不對,但仍然比第3名要好。我們想知道所有相關(guān)結(jié)果是否都在前10名(這被稱為精確度),或者前10名中沒有冒犯性的結(jié)果。根據(jù)上下文,我們需要用指標來處理AI系統(tǒng)的輸出,對其性能進行評估。測試人員需要具備確定相關(guān)指標并將其納入測試的能力。

4.7. 權(quán)重和契約

對人工智能系統(tǒng)的總體評估還必須納入相對重要性。與任何測試一樣,一些結(jié)果比其他結(jié)果更重要。想想具有高度道德影響的結(jié)果,比如種族偏差。作為設(shè)計測試用例的一部分,它們對總體評估的權(quán)重應(yīng)根據(jù)風險和對用戶的重要性來確定。測試人員需要對這些風險敏感,能夠識別它們,將其轉(zhuǎn)化為測試用例和指標。他們需要了解系統(tǒng)使用情況和用戶心理的背景。人工智能測試人員需要同理心和世界意識。

在電影《機械戰(zhàn)警》中,墨菲警官的系統(tǒng)中有一個“首要指令”程序:如果他試圖逮捕他所在公司的董事總經(jīng)理,他的系統(tǒng)就會關(guān)閉。人工智能系統(tǒng)也可以有“首要指令”,或者出現(xiàn)無法接受的結(jié)果,比如冒犯性語言、色情網(wǎng)站或撞倒行人。我們稱之為“契約”:在測試結(jié)果中,這些可能不需要的結(jié)果應(yīng)該被標簽為阻止問題,或者至少應(yīng)該被給予很高的權(quán)重。

4.8. 測試自動化

人工智能測試需要大量的自動化。測試用例的數(shù)量要求它這樣做,并且需要對新版本進行重復測試。當人工智能系統(tǒng)不斷訓練時,測試是必要的,就像搜索引擎的情況一樣,其中存在來自實際數(shù)據(jù)的反饋回路。但是,即使當人工智能系統(tǒng)沒有不斷訓練并且系統(tǒng)版本穩(wěn)定時,不斷變化的環(huán)境也需要不斷訓練。即使系統(tǒng)沒有改變,世界也會改變。測試自動化包括一個測試框架,測試用例將在人工智能系統(tǒng)上運行,并且人工智能系統(tǒng)的輸出將被處理。以下是一個測試框架的基本設(shè)置。

4.9. 整體評估和優(yōu)化輸入

測試的結(jié)果不僅僅是一份需要修復的缺陷清單。如上文所述,如果沒有嚴重的回歸,缺陷是無法直接修復的。人工智能系統(tǒng)必須作為一個整體進行評估,因為隨著許多測試用例和回歸,沒有哪個版本是完美的。如果一個新版本比舊版本更好,程序員希望知道該采用哪個版本。因此,測試結(jié)果應(yīng)該綜合成一個總結(jié)果:一個量化分數(shù)。為了給程序員提供如何調(diào)整(訓練數(shù)據(jù)、標簽、參數(shù)化)的指導,他們需要知道需要改進的領(lǐng)域。這是我們可以接近缺陷修復的地方。我們需要度量、權(quán)衡和契約來實現(xiàn)有意義的總體評分和優(yōu)化線索。應(yīng)該分析低分測試用例的原因:是過擬合、欠擬合還是其他風險領(lǐng)域?

4.10. AI測試示例

167e5be8-905a-11ef-a511-92fbcf53809c.png

從左上到右下,然后從右上到左下:

1. 識別用戶群體

2. 為每個用戶群體創(chuàng)建角色

3. 寫測試用例:根據(jù)每個用戶組輸入的預期頂級結(jié)果、非預期結(jié)果、度量和權(quán)重,在AI系統(tǒng)中運行測試用例

4. 處理結(jié)果

5. 根據(jù)每個測試用例的總權(quán)重創(chuàng)建測試結(jié)果

6. 將結(jié)果與以前版本的結(jié)果進行比較

5. 總結(jié)

人工智能的世界非常動態(tài):算法不等同于代碼,而是訓練數(shù)據(jù)和標簽的結(jié)果。隨著世界的變化,訓練數(shù)據(jù)將不斷更新。人工智能的輸出不是布爾值,而是所有標簽的計算結(jié)果,這些結(jié)果可能都是相關(guān)的。盡管存在低透明度和偏差風險,但人工智能正被用于決策,是人們世界的重要組成部分。測試人員必須通過確定用戶群體及其特定期望和需求,并展示系統(tǒng)如何反映這些期望和需求,在創(chuàng)建透明度方面發(fā)揮作用。為此,需要一個自動測試框架來比較人工智能系統(tǒng)的許多版本,不斷監(jiān)測生產(chǎn)質(zhì)量,并為優(yōu)化提供指導。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 測試
    +關(guān)注

    關(guān)注

    8

    文章

    5339

    瀏覽量

    126809
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31161

    瀏覽量

    269550

原文標題:淺析AI測試

文章出處:【微信號:TestinChina,微信公眾號:Testin云測】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    MLCommons推出AI基準測試0.5版

    開放式機器學習工程聯(lián)盟 MLCommons 在美國加州當?shù)貢r間公布推出適用于消費類 PC 的 AI 性能的 MLPerf Client 基準測試的 0.5 版,這是該測試的第一個公開版本
    的頭像 發(fā)表于 12-12 16:47 ?357次閱讀

    智慧交通AI監(jiān)控視頻分析應(yīng)用方案

    隨著社會的進步和科技的不斷發(fā)展,互聯(lián)網(wǎng)技術(shù)和AI視覺分析技術(shù)日益成熟,為傳統(tǒng)交通監(jiān)控領(lǐng)域帶來了新的發(fā)展機遇。AI視覺分析技術(shù)的引入,不僅提升了交通監(jiān)控的智能化和自動化水平,還顯著減輕了
    的頭像 發(fā)表于 11-29 14:12 ?216次閱讀
    智慧交通<b class='flag-5'>AI</b>監(jiān)控視頻<b class='flag-5'>分析</b>應(yīng)用方案

    云端AI開發(fā)環(huán)境分析

    當今,云端AI開發(fā)環(huán)境作為支撐AI技術(shù)快速迭代與應(yīng)用部署的關(guān)鍵基礎(chǔ)設(shè)施,扮演著至關(guān)重要的角色。下面,AI部落小編為您分析云端AI開發(fā)環(huán)境。
    的頭像 發(fā)表于 11-25 10:27 ?172次閱讀

    AI模型托管原理分析

    AI模型托管是指將訓練好的AI模型部署在云端或邊緣服務(wù)器上,由第三方平臺提供模型運行、管理和優(yōu)化等服務(wù)。以下,AI部落小編將對AI模型托管的原理進行詳細
    的頭像 發(fā)表于 11-07 09:33 ?213次閱讀

    AI模型市場分析

    隨著人工智能技術(shù)的快速發(fā)展,AI模型已成為全球科技競爭的新高地、未來產(chǎn)業(yè)的新賽道以及經(jīng)濟發(fā)展的新引擎。下面,AI部落小編分析了當前AI模型市場。
    的頭像 發(fā)表于 11-01 09:51 ?182次閱讀

    使用AI大模型進行數(shù)據(jù)分析的技巧

    使用AI大模型進行數(shù)據(jù)分析的技巧涉及多個方面,以下是一些關(guān)鍵的步驟和注意事項: 一、明確任務(wù)目標和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標,這將直接影響模型的選擇、數(shù)據(jù)
    的頭像 發(fā)表于 10-23 15:14 ?916次閱讀

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第二章AI for Science的技術(shù)支撐學習心得

    人工智能在科學研究中的核心技術(shù),包括機器學習、深度學習、神經(jīng)網(wǎng)絡(luò)等。這些技術(shù)構(gòu)成了AI for Science的基石,使得AI能夠處理和分析復雜的數(shù)據(jù)集,從而發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和規(guī)律。 2. 高性能
    發(fā)表于 10-14 09:16

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析

    人工智能ai 數(shù)電 模電 模擬集成電路原理 電路分析 想問下哪些比較容易學 不過好像都是要學的
    發(fā)表于 09-26 15:24

    摩爾線程與師者AI攜手完成70億參數(shù)教育AI大模型訓練測試

    近日,國內(nèi)知名的GPU制造商摩爾線程與全學科教育AI大模型“師者AI”聯(lián)合宣布,雙方已成功完成了一項重要的大模型訓練測試。此次測試依托摩爾線程夸娥(KUAE)千卡智算集群,充分展現(xiàn)了其
    的頭像 發(fā)表于 06-14 16:31 ?604次閱讀

    STM CUBE AI錯誤導入onnx模型報錯的原因?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai
    發(fā)表于 05-27 07:15

    為什么用CubeIDE導入AI模型進行分析會報錯?

    python已經(jīng)安裝好了,但是在用CubeAI的時候,導入模型進行分析會報錯,無法分析。有知道為什么會報[AI:persondetection][12152] Failed to execute
    發(fā)表于 05-22 06:38

    UL Procyon AI 發(fā)布圖像生成基準測試,基于Stable Diffusion

    UL去年發(fā)布的首個Windows版Procyon AI推理基準測試,以計算機視覺工作負載評估AI推理性能。新推出的圖像生成測試將提供統(tǒng)一、精確且易于理解的工作負載,用以保證各支持硬件間
    的頭像 發(fā)表于 03-25 16:16 ?912次閱讀

    使用cube-AI分析模型時報錯的原因有哪些?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.ai
    發(fā)表于 03-14 07:09

    NanoEdge AI的技術(shù)原理、應(yīng)用場景及優(yōu)勢

    NanoEdge AI 是一種基于邊緣計算的人工智能技術(shù),旨在將人工智能算法應(yīng)用于物聯(lián)網(wǎng)(IoT)設(shè)備和傳感器。這種技術(shù)的核心思想是將數(shù)據(jù)處理和分析從云端轉(zhuǎn)移到設(shè)備本身,從而減少數(shù)據(jù)傳輸延遲、降低
    發(fā)表于 03-12 08:09

    是德科技推出AI數(shù)據(jù)中心測試平臺

    是德科技近期宣布,針對蓬勃發(fā)展的AI和ML基礎(chǔ)設(shè)施生態(tài)系統(tǒng),隆重推出了全新的AI數(shù)據(jù)中心測試平臺。該平臺專為加速AI/ML網(wǎng)絡(luò)驗證與優(yōu)化而設(shè)計,極大地提升了
    的頭像 發(fā)表于 03-08 10:17 ?743次閱讀
    主站蜘蛛池模板: 18岁末年禁止观看免费1000个| 四虎影院网红美女| 超碰在线97av视频免费| 亚洲免费国产在线日韩| 日本一卡二卡三卡四卡无卡免费播放| 久久99re2在线视频精品| 出差无套内射小秘书| 最新高清无码专区| 亚洲精品视频免费看| 日本最新在线不卡免费视频| 麻豆啊传媒app黄版破解免费 | 啊灬啊灬啊灬快灬深高潮啦| 伊人久久大香线蕉观看| 小黄文纯肉短篇| 三级黄色在线视频| 欧美日韩一级黄色片| 久久综合色一综合色88| 花蝴蝶在线高清视频观看免费播放| 俄罗斯bbbbbbbbb大片| A级超碰视频在线观看| 18禁无遮遮挡羞漫画免费阅读| 亚洲精品另类有吗中文字幕| 我在厨房摸岳的乳HD在线观看| 人与畜禽CROPROATION免费| 墨西哥美女主播| 老头操美女| 快播性爱电影| 久久久高清国产999尤物| 精品午夜国产福利观看| 狠狠久久免费视频在线| 国产亚洲AV无码成人网站| 国产精品久久久久永久免费看| 多肉np一女多男高h爽文现代| yy8090理论三级在线看| xxxx69日本| writeas雷狮直播| caoporm国产精品视频免费| 99久久久国产精品免费蜜臀| 69国产精品成人无码视频| 2022久久精品国产色蜜蜜麻豆| 中文字幕在线视频在线看|