科技行者如何為數據標記提速?使用訓練數據平臺就對了

如何為數據標記提速?使用訓練數據平臺就對了

如何為數據標記提速?使用訓練數據平臺就對了

2021年2月17日 12:32:30 科技行者
  • 分享文章到微信

    掃一掃
    分享文章到微信

  • 關注官方公眾號-科技行者

    掃一掃
    關注官方公眾號
    科技行者

任何組織在開啟自己的AI探索之旅前,首先需要明確一點:數據標記是監督機器學習系統中成本最高、最為耗時的部分之一。無論選擇外包標記還是內部標記,組織都需要選擇一套TDP進行工作管理。

來源:科技行者 2021年2月17日 12:32:30

關鍵字:AI 數據

如今,幾乎每家上市企業都在積極討論人工智能技術對自身運營方式的重大影響。從特斯拉使用AI技術改善自動駕駛性能,到Levis通過AI強化產品決策能力,每個人都熱切想要在AI領域占據一席之地。

如何為數據標記提速?使用訓練數據平臺就對了

但要實現這一目標,組織的智能度必須進一步提升。為了逐步發展出嚴肅AI,我們需要采用監督學習方法,而監督學習的效果又由標記數據的質量決定。原始數據需要經過漫長的標記過程,而后方可用于增強監督學習模型,由此產生的預算甚至可能給組織帶來可感受的壓力。過去十年以來,組織高管在存儲數據并將數據轉化為收入方面,主要擁有三種選項:

1.DIY并建立自己的定制數據標記系統。為人力、技術及時間層面的重大投資做好準備并調撥預算,借此建立起一套規模龐大、可永久保存的健壯生產系統。聽起來不難?也許吧,畢竟谷歌和Facebook都成功了。但這一切未必適合您,因為那些科技巨頭擁有出色的人才與幾乎無窮的IT預算,足以建立并維護這些復雜的標記系統——換言之,這類企業的預算甚至與世界上某些小國的GDP相當。另外,即使您擁有充足的人力與時間來從零開始構建大規模生產系統,您的組織能接受這項長期延續的巨額投資嗎?

2. 外包。專業服務合作伙伴當然很給力,但您仍然需要開發自己的內部工具。這種方式還可能帶來其它風險,因為此類解決方案要求將第三方數據與您自己的專有數據混合起來,通過顯著擴大數據樣本量在理論上獲取質量更高的模型。您是否對自己的數據審計跟蹤能力有信心,保證其能夠在持久數據標記要求的整個生命周期中保持專有性?即使您的供應商倒閉,您在AI旅程中作為競爭優勢開發出的流程是否可重復且始終可靠?您積累了數十的知識產權(數據)可能因此而不慎泄露,導致其落入同樣與您合作伙伴聯手構建系統的競爭方手中。以自動駕駛汽車行業為例,Scale.ai已經成為領域中規模最大的服務商,幾乎所有相關機構都與其保持合作關系。

3. 使用訓練數據平臺(TDP)。這些屬于相對較新的市場解決方案,可提供一套統一平臺,將負責收集、標記并饋送數據的所有作業匯總至監督學習模型當中,或者幫助用戶自主構建新模型。這種方法可幫助不同規模的組織獲得等同于Salesforce及Hubspot等客戶關系管理商的方式建立標準化工作流程。其中一些平臺還使用集成化機器學習算法自動執行復雜任務,借此進一步降低工作難度。更重要的是,TDP解決方案能夠幫助數據科學家擺脫繁重的任務,將主要精力集中在構建實際結構(而非構建及維護復雜而脆弱的定制化系統)當中。目前比較重要的TDP廠商包括Labelbox、Alegion以及Superb.ai。

我們為什么需要訓練數據平臺

任何組織在開啟自己的AI探索之旅前,首先需要明確一點:數據標記是監督機器學習系統中成本最高、最為耗時的部分之一。隨著機器學習系統逐步發展成熟并可用于生產環境,數據標記任務仍然不會停止。這項任務將永遠存在并不斷增長。無論選擇外包標記還是內部標記,組織都需要選擇一套TDP進行工作管理。

TDP旨在促進整個數據標記過程,加快產生高質量數據的速度,由此幫助組織快速創建高性能的AI模型與應用程序。如今,已經有部分企業在強調TDP技術的重要性,但真正能被稱為“TDP”的解決方案仍然非常有限。

其中有兩點非常重要:業務準備情況與直觀的使用界面。如果未對業務做好充分準備,IT部門將拒絕使用。如果界面不夠直觀,用戶也會尋找其他更易于使用的方案。此外,任何負責處理敏感的、對業務至關重要的信息的系統,也都需要具備企業級的安全性與可伸縮性保障,否則同樣無法正常起效。而實際情況甚至證明,這類目標也許永遠無法實現。IT消費化至少已經持續了十年,但Instagram這類簡單易用的應用都很難在組織內普及。Salesforce的自動化工具之所以能夠從Siebel手中奪取市場,靠的就是輕松愉快的用戶體驗與便捷的云交付。

除了這些基礎之外,數據注釋、管理與迭代同樣非常重要。如果候選系統無法滿足這三項要求,那么其同樣不能算是真正的TDP。下面來看關于這三項核心指標的更多細節:

注釋。TDP必須提供可用于智能自動注釋功能的工具,即盡可能自動做出更多標記。高水平的TDP應該能夠處理有限數量、帶有專業標簽的數據。我們以放射科醫師處理的X光片為例,系統需要首先從圖像中識別出腫瘤,而后再做出預標記。而審核人員的工作,就是糾正各類錯誤標記問題。機器會為標記結果提供一項置信度輸出,例如特定標簽正確標記的可能性為80%。對審核人員來說,優先級最高的工作應該是檢查并糾正機器認為置信度不足的標簽。因此,組織應努力推動注釋自動化并投入于相關專業服務,確保數據標記的準確性與完整性。好消息是,目前與注釋相關的多數任務無需人工即可輕松完成。

管理。TDP應該用作數據訓練項目中的中央記錄系統。數據科學家與其他團隊成員將在TDP中開展協作,通過與傳統項目管理工具的集成、或者在平臺本體之內,創建工作流并分配任務。

由此得出的數據集,還可供后續項目使用。以美國為例,每年約30%的房屋會投保房屋保險。為了預測風險并做出準確定價,保險公司需要分析多種數據——例如房齡、是否有游戲池或者蹦床,或者房屋與樹木間的距離。為了推進這個過程,企業現在使用計算機視覺通過衛星圖像為保險公司提供連續分析支持。在對新興市場中的房屋進行分類時,企業應該使用TDP重復使用現有數據集。例如,如果某家公司有意進軍英國市場,則應該能夠重用來自美國的現有訓練數據,以此為基礎稍加更新以適應當地差異(例如英國本地的建筑材料選擇)。這些迭代周期,將使企業提供高準確度數據,同時迅速做出調整以適應美國及其他地區的房屋情況變化。

這意味著您的TDP需要提供與其他軟件相集成的API,借此對接項目管理應用、數據收集與處理工具,并幫助組織通過SDK建立自定義工具、擴展TDP。

迭代。真正的TDP必須承認這樣的現實:帶有注釋的數據永遠不會保持靜態。相反,數據會不斷變化,隨著更多數據加入數據集而持續迭代,并由模型提供關于數據有效性的反饋。而保持數據準確性、客觀性的關鍵,就是迭代。我們需要測試模型、改進模型、再次測試、持續循環。拖拉機的智能噴霧器能夠在50%的概率將除草劑準確噴向雜草,而隨著訓練數據中的雜草圖像越來越多,計算機視覺模型的后續迭代有望逐步將準確率提升至90%或更高,同時幫助噴霧器更準確地識別出那些不需要噴灑除草劑的植物。這個過程可能相當耗時,而且在高自動化水平的支持下,往往仍需要審核人員的參與。通過一次次迭代,我們可以推動模型逐步走向最佳狀態。而TDP的目的就是加速這種迭代,并確保每次迭代都能給模型帶來積極的改進,由此節約時間和金錢。

展望未來

正如十八世紀的標準化與可互換部件引發了工業革命一樣,用于定義TDP的標準框架也開始將AI技術推向新的高度。盡管尚處于起步階段,但真正的TDP管理平臺能夠以更可靠的方式將原始數據(特別是寶貴的知識產權)轉化為標記數據,由此幫助組織在所在行業中建立起實際競爭優勢。

在另一方面,高層管理人員還需要切實理解通過投資挖掘AI潛在財富的必要性。以往,組織只能在自主構建、外包或者直接采購之間做出選擇,三者都會帶來高昂的成本。更重要的是,自主構建與外包還可能帶來巨大的隱性成本,導致組織難以成功邁入新的業務領域。真正的TDP能夠“降低”這一高成本決策的風險,同時有效保護企業的核心競爭優勢,即知識產權。

    大香大香伊人在钱线久久_波多野结衣家庭教师_被强奷很舒服好爽好爽的视频