Google、軟銀都陣亡過!盤點 AI 專案失敗的 4 大原因
Posted on2021/02/04
若水AI Blog
【我們為什麼挑選這篇文章】為了適應未知多變的世界,許多企業搶做「數位轉型」,從公司營運的各層面如客戶體驗、商業模式、企業文化到作業流程等,透過科技的導入來提升效率與效能;而對製造業企業而言,原料採購、物流管理、庫存調配、生產、行銷等環節則是企業主進行數位轉型會優先考量的面向。
在這之中,AI 的運用扮演很關鍵的角色,如何將 AI 應用到上述各層面並實際執行,是許多企業面臨的挑戰,有哪些要點是執行 AI 專案時需特別留意的?(責任編輯:賴佩萱)
作者:若水 AI 資料資料處理部負責人 簡季婕
2020 年,突如其來的新冠肺炎疫情(Covid-19)改變了許多產業的命運,同時加速推促 AI 落地的速度,AI 人工智慧的應用將成為企業的新日常。
若水 AI 資料服務團隊本著為臺灣 AI 應用落地盡份心力的初衷,順著這波改變,推出全新系列內容:與機器學習(ML : Machine Learning)、AIOps 智慧運維(Artificial Intelligence for IT Operations)有關的實用文,分享各界專家在每一天如何持續營運、優化 AI 架構以及資料處理的基本功。
【若水導讀】AI 專案順利通關的三個絕招:
1. AI 資料來源要多元,避免學習偏誤
2. 標註前,請先建立客觀的 AI 資料標註(Data Annotation)原則
3. 讓 AI 人工智慧成為組織的共同語言,會更容易成功
企業都想做 AI,但實際上沒那麼簡單
根據《臺灣人工智慧學校 AI Academy Taiwan》2019 年針對臺灣各大產業 1,095 位業界校友的調查統計,成功導入 AI 人工智慧的臺灣企業僅占 20%。放眼國際,許多全球知名企業的 AI 專案也慘遭滑鐵盧:
Google 在泰國落地測試智慧醫療失敗,拖慢醫療流程;美國杜克大學發佈的 PULSE 演算法誤將歐巴馬的頭像還原為白人,引發種族歧視爭議。
在日本,軟銀(Softbank)社長孫正義原本打算以 AI 機器人取代銷售人員,沒想到 AI 機器人無法應付實際場域的複雜性,計畫負責人只好承認失敗:「我們把機器學習(Machine Learning)想得太簡單了」。
AI 專案難實際執行,問題出在哪?
若水經手過臺灣、日本超過 200 個的 AI 資料處理專案,從橫跨各大產業領域的專案經驗,整理出企業 AI 之所以無法順利落地的四大原因。
1. AI 模型訓練過程中沒有加入實際場域的資料
無論是剛導入 AI 而產生資料處理需求的新手企業,還是已有 AI 專案經驗、為了 retrain 模型再度找上若水的老手企業,都曾經在同一個地方卡關:AI 資料標註品質有做到位元,但 AI 模型卻無法應用落地 。
為什麼?
原因在於,客戶並未以「實際場景」的資料來進行 AI 模型訓練。
現在市面上有許多開放資料集(Open Dataset)或是免費的商用網路圖片,企業通常會優先使用這些免費資源進行 AI 資料標註(Data Annotation)讓機器學習,但是放到實際場域測試後,經常發現 AI 模型成效不佳,無法適用於實際場景,最終還是需要回過頭再進行第二次模型訓練(Model Training)。
因此 在 AI 專案開始前,建議企業首先需要在內部建立資料資料流(Data Pipeline),而在收集資料時,不只使用開放資料集(Open Dataset),也須確保有使用符合實際應用場景的資料來訓練 AI 模型,全盤考量資料類型、角度等多元性,避免機器學習偏誤 。
2. AI 資料標註原則定義不夠客觀
與企業工程師對接 AI 資料處理需求時,當我們詢問這批人臉辨識(Face Recognition)的 AI 資料標註的原則是什麼,常常會接到諸如此類的回答:「頭太小的話,就不要標註數據」。
一般人的邏輯覺得很合理的事情,對於機器學習(Machine Learning)來說卻是一大挑戰。 機器學習需要知道的是趨近「絕對客觀」的原則 ,例如,所謂的頭太大、太小,換算成具體數值會是幾乘幾大小的 pixel?如果圖片背景融色或模糊,也需要標註起來嗎?
一旦 AI 資料標註原則不夠客觀,AI 模型很容易隨著人的「主觀認定」來學習,當專案換了一位工程師,機器學習出來的效果可能也會跟著變 。在我們的經驗,原則的訂定最好透過「對話」,藉由反覆詰問,才能加快釐清目標。有了歸納、定義出客觀的 AI 資料標註原則。就會加快模型學習(Model Learning)成效。
為了清楚定義圖片融色或模糊的問題,我們採用國際照明委員會(International Commission on Illumination)訂定的 Delta E 標準,和影像(圖像)品質評估標準 BRISQUE,和客戶確認彼此認知是否一致。
根據國際標準,人的肉眼能分辨得出來的色差,至少會在 Delta E 值 2 以上。所以,當一張影像測出來 Delta E 值小於 2,就表示這張圖的融色程度太高,無法標註。
假如客戶希望「太模糊的圖片不要標註」,團隊也會根據 BRISQUE(影像品質評估標準)的標準,輸出不同模糊指數的圖片,請客戶確認所謂的模糊,具體來說是 70% 還是 80%。
3. AI 模型訓練(Model Training)沒有循序漸進
以肢體行為辨識(Posture Estimation)為例,Coco Dataset 從一開始只辨識人體 7 大主要關鍵點(Key Point),後來逐步發展成 25 點,甚至快 40 點,有些客戶會希望若水 AI 團隊可以一次就標註 40 個關鍵點,直接拿去機器學習(Machine Learning)。
說起來,機器學習和教小孩很像,一下子給太多的特徵點(Feature Points)反而會「揠苗助長」,導致 AI 模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶,一開始想用難度較高的 Segmentation 方式讓模型學習人的行為,但是人的行為百百種、語意切割(Segmentation)的變異度也高,就比較難學得好。
當這些客戶再回頭來找若水,通常會比較循序漸進,從小地方開始逐步改進 AI 模型。
4. 缺乏管理層的理解與支持
AI 熱潮讓許多企業趨之若鶩,然而 AI 要能夠順利落地,除了上述三項實務建議,企業管理層對於 AI 的認知和支持更是一大關鍵。
許多臺灣企業的 AI 數位轉型主導者,可能是傳統公司裡面有豐富資歷的 CTO 技術長或管理階層,對於 AI 人工智慧這個全新領域的概念,比較缺乏深度的理解,也沒有類似 AI 模型訓練和測試的相關經驗,從上述 4 個原因去追尋難以落地的根源,或許能有所助益。
資料來源:https://buzzorange.com/techorange/2021/02/04/ai-project-difficulties/?fbclid=IwAR04ZC1-1MquyCObEI5HIfTKtV-OkcfxL_R8vRin4YgQMl8cnhS_6aM59vU
同時也有1部Youtube影片,追蹤數超過4萬的網紅Raymond Regulus,也在其Youtube影片中提到,政府統計九月樓市衰過沙士! 物業市場統計資料: https://data.gov.hk/tc-data/dataset/hk-rvd-tsinfo_rvd-property-market-statistics 香港傳媒隱瞞2兆美元債多年, 特朗普話佢地FAKE NEWS假新聞一樣!! 各區樓市劈...
dataset 統計 在 Charles Mok 莫乃光 Facebook 的最佳貼文
【數據監察:封關有無漏洞?有幾多內地人用其他簽注入境?】
2月5日我建議政府資訊科技總監辦公室透過『資料一線通』發放以下數據集,以助公眾監察武漢肺炎疫情相關資訊,包括:
1. 出入境旅客人次的統計數字(入境事務處)
- 每日出入境旅客人次的統計數字
- 透過各出入境控制站入境的中國旅客統計數字(個人旅遊簽注、團隊旅遊簽注、商務簽證、勞工簽證、探親簽證、逗留簽證等)
資料來源:https://www.immd.gov.hk/hkt/message_from_us/stat.html
2. 公立醫院急症室服務及住院病床使用率的數據(醫院管理局)
- 公立醫院急症室服務及住院病床使用率
- 公立醫院服務需求高峰期重點數據(急症室首次求診人次、經急症室入內科人次、兒科住院病床於午夜時的佔用率)
資料來源:https://www.info.gov.hk/gia/general/202002/07/P2020020700185.htm
-------------------------------------------------------------------
【2月6日 資科辦回覆】
莫議員:
謝謝你於二月五日提出的開放數據建議。
自2019年四月起開始,入境事務處在「資料一線通」網站的「節日期間出入境旅客人次的統計數字」數據集(https://data.gov.hk/tc-data/dataset/hk-immd-set5-statistics-passenger-traffic-festive-period )已蓋涵節日期間每日出入境旅客人次的統計數字。我們已把你建議入境事務處開放更多數據轉交他們考慮。
此外,我們亦把你建議開放公立醫院急症室服務及住院病床使用率數據轉交醫院管理局考慮。
入境事務處及醫院管理局會積極作出跟進。
政府資訊科技總監辦公室
#莫乃光 #開放數據 #武漢肺炎
dataset 統計 在 台灣公道伯 王金平 Facebook 的最佳貼文
#公道伯神機妙算 | 能源篇
我們呈現2018年的公投結果與經濟部回應方式,
並列出台灣實際能源數據比對接下來的能源危機,
最後提出因應的相關建議。
參考資料:
用電統計資料 https://data.gov.tw/dataset/6064
106年各能源別發電量占比 http://bit.ly/2SA1tkB
dataset 統計 在 Raymond Regulus Youtube 的最佳貼文
政府統計九月樓市衰過沙士! 物業市場統計資料:
https://data.gov.hk/tc-data/dataset/hk-rvd-tsinfo_rvd-property-market-statistics
香港傳媒隱瞞2兆美元債多年, 特朗普話佢地FAKE NEWS假新聞一樣!!
各區樓市劈價之声不絕, 之前絞殺全港業主一片兩週突破15萬views, 力壓杜汶澤Genius Bar !! 香港2兆美元外債只要驚动一千几百個有實學的金融才俊已足夠, 雪球效應, 死亡螺旋經已發動, 顺者昌, 逆者亡 !! Please like, share, comment and subscribe, 出貢獻 種善業 得生果 多勞多得
你的時間到了, GOD WILL JUDGE YOU, WE ONLY ARRANGE THE MEETING !! 個天会審判你, 我只係負責帶路, 都係揾食姐...
假新聞 FAKE NEWS:
TVB, ATV, 香港01, 蕭若元, 鄭經翰, 沈大師, 852郵報, D100, 黃毓民, RFA自由亞洲, 蘋果日報, 蘋果動新聞, 壹週刊, 妄想世界, 劉細良, 桑普傑斯, 升旗易得道, 香港花生, 城寨, 巴打台, MyRadio, MIHK, Ragazine, 我要做富翁, 黎則奮, 游清源, Tony Choi, 吳志森, 李慧玲, coco哥, RTHK 香港電台, 壹鳩大事回顧, 劉夢熊, 東網電視, 林鄭月娥, South China Morning Post, 黃秋生, 100毛, 毛記電視, 東方昇, 專家Dickson, 國家級任務, 今日問真啲, 黄之鋒, 楊岳橋, 李獻計, 寶達PAT PAT, 何志光, 香港本地前線, 世界之子WorldSonnie, 龍心, 長毛梁國雄, 中出羊子, 劉小麗, 黄洋達, 陳雲, 快必譚得志, 杜汶澤, 關鍵時刻, 東森新聞, 中時電子報, 習近平, 八八通Gossip, 秘史趣聞, 劉德華, 周潤發
及全港其他大小傳媒KOL, 來! 全部一起來, 軒轅光正求一敗!
郭文貴斷言, 傳大鱷索羅斯Kyle Bass再沽空港元港元脫勾聯繫匯率香港樓市加支爆, 我話杜汶澤喱騷 Chantale Belle 贝依霖全港最索! Again I don't know the exact time but YOUR TIME is running out.
To join us send me a simple resume. Thanks.
Email: TheVictoriansClub@gmail.com
Facebook: https://facebook.com/raymond.regulus.80
dataset 統計 在 挖掘大數據!政府資源與open data [臺大圖書館HELP講堂 ... 的推薦與評價
綜合型開放資料查詢平台:Google Dataset Search、Open data network ... TAIWAN、PRIDE政策研究指標資料庫、公開資訊觀測站、中華民國 統計 資訊 ... ... <看更多>