為了活下去,全球最大的零售商沃爾瑪變身數據公司
文:王茜穎 / 若水 Flow AI Blog 編輯團隊
【本文重點】:
1. 今天,人工智慧不再是一種選擇,而是生存下去的基本必須品。
2. 為了預測消費趨勢、提高供應鏈和營運效率,沃爾瑪張開數據網,即時監控2000億筆的內部交易數據,200 個外部數據。
3. 從行銷、採購、品管、上架、庫存管理到配送,AI 正在改寫超市地景和運作方式。
零售業是一個國家最古老的行業。但你發現了嗎?全球最大的零售業龍頭沃爾瑪 Walmart,正在把自己變成一家數據公司。
它不得不。它最大的競爭對手,吃下線上零售市場一半江山的電商龍頭亞馬遜,不斷探索線下經營。繼實體書店、無人便利店 Amazon Go、收購全食超市(Whole Foods Market)之後,2019年再度推出 Amazon 4-star,銷售在亞馬遜網站上獲得4顆星以上評價的商品,準備對線下零售市場攻城掠地。
「今天,人工智慧不再是一種選擇,而是生存下去的基本必須品。」知名暢銷作家Bernard Marr 說。《華爾街日報》形容這是一場「不斷升級的科技地面戰」。
如何確保對的產品在對的時機,放在對的位置,做出對的定價,以方便對的人購買,是競爭白熱化的零售業的致勝關鍵。
即時監控2000億筆的內部交易數據,200個外部數據
為了抓出客戶需求、提高供應鏈和營運效率,沃爾瑪阿肯色州本頓維的總部設立了@WalmartLabs 和 Data Café(Collaborative Analytics Facilities for Enterprise,企業協作分析工具),監控過去幾週高達2000億筆的內部交易數據,以及氣象、經濟、電信、社交媒體、油價、鄰近沃爾瑪的重大事件(如:體育賽事)、美國最大評論網站Yelp、信用徵信網站Experian等200個外部數據。
沃爾瑪每週預測全美4700家店,共500億件商品需求,「我們每個週末都提出一套新的預測,」「我們有12小時完成所有的預測,約3天完成所有的訓練。」@WalmartLabs 傑出數據科學家和數據科學主任John Bowman說。
但沃爾瑪的規模實在太大了,Bowman說原有的開源軟體,「隨著我們擴大演算法規模,加入愈來愈多的數據,涵蓋愈來愈多的類別,開始遇到嚴重問題」,目前其預測模型是由內部改寫和開發的機器學習演算法組成,每項商品的預測,都建立在350個數據特徵上。
除了預測消費風向,最基本的,「用來確保門市和配送中心的庫存水位,足以滿足預測的需求。它不只幫沃爾瑪控制庫存成本,也確保架上的庫存足以應付來客或網路訂單。」前@WalmartLabs印度班加羅爾主任Nitin Sareen指出。
沃爾瑪 Walmart 同時收集所有顧客的消費紀錄、住在哪裡、並從店內的免費無線網路追蹤其產品喜好。2017年的報導指出,沃爾瑪掌握了6成美國成人,近1.45億人口的詳細資料。「我們想知道世界上所有的產品,我們想瞭解世界上每一個人,然後我們想要擁有連結兩者,促成交易的能力。」前沃爾瑪全球電子商務與科技執行長Neil Ashe曾說。
它的「社會基因體計畫」(Social Genome Project)監控社交媒體上的公開對話,參透消費者的社交DNA,藉以預測消費趨勢。沃爾瑪開發的Shopycat禮品推薦APP,「透過社會基因體計畫,分析朋友的臉書上的讚、分享、發文等動態,解除送禮壓力,提高送禮樂趣。」
當人們在線上展現我們的喜怒哀樂時,沃爾瑪就從分析臉書和推特的對話,在趨勢轉成需求前,成功預測棒棒糖蛋糕機、電動榨汁機的需求,立刻進貨、鋪貨。
數據讓沃爾瑪(Walmart)能預測未來趨勢,抓出過去錯誤
除了預測未來,即時數據和分析,讓沃爾瑪從異常銷售數字中,立即抓出定價失誤,或發覺特定門市根本未將商品上架的問題。機器學習把解決問題的時間從2~3週,大幅縮短為20分鐘。「若你得花上一週或一個月分析你的銷售數字,才能獲得洞見,你那段時間的營收已經蒙受損失。」沃爾瑪資深統計分析師Naveen Peddamail說。
為了收集消費者資訊,沃爾瑪甚至在2012年推出了自己的搜尋引擎Polaris。今年2月,沃爾瑪再度收購以色列科技新創Aspectiva,利用其自然語言處理功能 (Natural Language Processing),讓電腦擁有理解人類語言的能力,分析客戶的產品評論等用戶生成內容,並結合其瀏覽行為,以提供個人化的產品推薦。
沃爾瑪每小時產生約美國國會圖書館館藏167倍的數據,這些通通餵給雲端。沃爾瑪和微軟聯手建立全球最大的私人雲,每小時從百萬名消費者身上收集2.5 petabytes非結構化的數據,做出行銷、採購、鋪貨、庫存管理等各種決策。有一說,此舉是要和亞馬遜的Amazon Web Services (AWS)一別高下。
衝刺電子商務戰場,營造個人化體驗、用AI 工智慧鞏固生鮮市場
電子商務上,沃爾瑪仍看不到 Amazon 亞馬遜的車尾燈。
為此,沃爾瑪接連併購 Jet.com、Bonobos、中國電商 JD.com、及砸160億美元買有「印度亞馬遜」之稱的 Flipkart,去年沃爾瑪亦翻新官網,挾其龐大的數據能力,用消費者的所在地、瀏覽和購買歷史,加強區域與個人的個人化體驗。
例如,顯示當地熱門商品、通常一起合購商品、「我的門市」生鮮配送服務;提供「輕鬆續訂」功能,類似亞馬遜網站上的快速按鈕(Dash button)。去年第四季,沃爾瑪的電子商務營收成長43%,eMarketer並預測今年底沃爾瑪將分食4.6%的市場,較去年成長4%,居全美電商第三名。
沃爾瑪抓緊數據,苦苦追趕,有其苦衷。根據Accenture 2016年的調查,58%的消費者傾向在有個人化推薦的網站購物,一旦沒有,最快60秒就會失去興趣;SmarterHQ的報告則指出,在這樣的情況下,47%的消費者會直接轉往亞馬遜,便宜了沃爾瑪的頭號競爭對手。
為了拉抬線上銷售,沃爾瑪祭出廉價生鮮優勢。去年底全美有1600家門市提供生鮮配送,3100家門市設提貨中心。亞馬遜迅速回防,今年4月,旗下的全食超市推出第三波降價,以及2小時生鮮配送,1小時店內提貨,要挖沃爾瑪牆角。
這是一塊沃爾瑪輸不起的戰場。不同於亞馬遜,生鮮佔沃爾瑪全美近6成營收。金雞母保衛戰,沃爾瑪用AI和相機打造「新鮮度演算法」,名之「伊甸園」(Eden),用AI檢查蔬果缺陷和新鮮度,預測腐壞日期,確保蔬果從農場到貨架全程新鮮,終結食物(成本)浪費。在全美43個配送中心試用6個月,已替沃爾瑪省下8600萬美元,預計5年內將省20億美元。
在此之前,沃爾瑪必須派員在配送中心先目視檢查送進來的生鮮,接著再手動檢查是否符合美國農業部和沃爾瑪內部的食品標準。
「伊甸園源自我們生鮮營銷團隊工程師間的一場駭客松。」沃爾瑪部落格說。在6個月內,他們量化了美國農業部和沃爾瑪內部的食品標準,並發給稽查員一支iPhone,用Eden的APP記錄各種蔬果在不同生命週期時的樣貌,是否符合各項食品標準。這百萬張照片的資料庫,成了人工神經網絡進行深度學習最佳教材。
當稽查員在現場拍下照片時,機器將比對資料庫中的圖像,經過一層層,千百萬個神經元的數值運算後,評估蔬果新鮮度,預測保存期限,最後決定接受或退貨。沃爾瑪還把iPhone送到農夫手上,讓他們在農產品運送前先拍照,通過伊甸園把關再上路,從頭減少因品質而被退貨所衍生的成本。
「這代表(我們)能更有效率地催熟香蕉,當番茄還長在藤上時,就預測出它的保存期限,或依此調整蔬果上架的優先順序。」沃爾瑪供應鏈技術副總工程師Parvez Musani分析。販賣生鮮是一場和時間賽跑的賭局。時間,就是金錢。
除了產地和配送中心的品管,他們發現運輸過程中的溫度,也會影響蔬果新鮮度。為此,伊甸園即時監控蔬果在貨車裡的溫度,若發現溫度飆升導致蔬果「短命」2天,則立刻重新安排貨車路線,送到較近的配送中心,減少損失。
Musani舉例,沃爾瑪的明星商品香蕉,來自7個拉丁美洲國家,鋪貨到全美4千多家門市。不久的未來,在跨洲、跨國、跨州的長途運送過程中,伊甸園會重新估算「新鮮度」,決定香蕉運到哪裡。「最後香蕉會運到較近的門市,確保最新鮮,消費者樂於買一串美味香蕉,人人皆大歡喜。」
跟 Amazon 亞馬遜搶食 AI 語音購物市場
眼紅於亞馬遜語音助理Alexa登堂入室,開口即可在亞馬遜下單,沃爾瑪也想搶食語音購物市場。
近來的專利申請,透露沃爾瑪打算在產品中內建物聯網電子標籤,以監控家用品的使用情況,例如追蹤保存期限,或你提起洗潔精的次數,藉此推測何時需要補充,自動加入你的購物清單,並為沃爾瑪提供顧客行為的龐大數據,包括產品使用的時間和頻率。
今年4月起,直接呼喚Google Assistant也能在沃爾瑪下單,可在全美超過2100家門市提現貨,800家門市領取網購商品。由於語音下單容易指示不清(例如:買2罐洗衣精),為求準確,沃爾瑪顧客的消費記錄將和Google Assistant帳號綁定,以判斷脈絡。
儘管目前語音購物對營收的貢獻很小,分析師紛紛預測這是未來趨勢。為了「不落人後」,沃爾瑪甚至投資一家針對上流社會的個人購物服務新創Jetblack,會員可用簡訊「遠端遙控」購物員幫他們購物,年費要價600美元。
簡訊的文字,是絕佳的機器訓練素材。「沃爾瑪正在利用Jetblack的大批人力來訓練其AI,盼其有朝一日能提供自動化的個人購物服務,為搜尋欄消失,聲控購物成為主流的那一天,提早做好準備,」Jetblack執行長Jenny Fleiss告訴《華爾街日報》。該報分析,沃爾瑪將該投資視為AI和語音購物的研究中心,打算用它來打造和亞馬遜Alexa抗衡的秘密武器。
而JetBlack正是從沃爾瑪位於矽谷的科技孵蛋器Store No.8孵出來的新創公司。為了尋找下一代的零售科技,沃爾瑪透過Store No.8來孵化、投資新創,與創投和學術界合作,開發機器人、虛擬實境、機器學習和AI技術。
AmazonGo會是沃爾瑪的未來嗎?
自去年10月底,沃爾瑪旗下的倉儲式商店Sam’s Club宣布將在德州開第一家無結帳員的超市後,大家都在揣測沃爾瑪超市何時會跟上AmazonGo的無人店。
4月底,沃爾瑪公布了它的「未來超市」。它改造了紐約州Levittown的門市,化身「零售智能實驗室」(Intelligent Retail Lab),在真實運作的超市裡,裝滿感應器、攝影機、並建有龐大的數據中心。「這些硬體佈線之長足以爬聖母峰5次,處理能力之強大每秒能下載3年份的音樂(27000小時)。」沃爾瑪的部落格寫著。
5萬平方呎,3萬件商品,超過百名員工,可以確定的是,沃爾瑪的未來藍圖,不是AmazonGo。
具有人工智慧的攝影機,並非用來分辨消費者拿了什麼,好自動結帳,而是用來監控貨架上的存貨。機器「看見」架上商品,準確辨識品項和數量,並對照預測銷售需求的量,即時通知員工哪些商品空了,立刻補貨,或哪些放太久,立即下架。如此一來,確保架上永遠有貨,而且絕對新鮮。
這不是沃爾瑪第一次用AI來即時盤點庫存。
走進今天的沃爾瑪,你可能會碰到Auto-S貨架掃描機器人,穿梭在繁忙的貨架間。
自駕車的感應器和人工智慧,讓它能即時辨識路徑中的障礙物,優遊於樑柱、顧客、店員之間,避免碰撞。身高2英尺(約60公分),機器手臂最高可達8英尺高,裝有高解析度相機可快速掃描架上存貨、標價標籤和商品位置,而且免傳雲端,運用卡尼基美隆大學研發的Hawxeye人工智慧,機器人可現場用機器學習進行圖像辨識,加快分析速度,減少無用數據。
不到1小時,機器人就掃完數十個貨架,找出缺貨、庫存過低、沒有標籤、標價錯誤和錯置的商品,通知店員處理。在過去,這得花上一群人數天時間才能完成。
目前全美有50家沃爾瑪使用Auto-S貨架掃描機盤點架上商品。目前總里程650英里(近1千公里),尚未發生任何事故。來源:KPIX CBS SF Bay Area / 沃爾瑪
這提升了顧客的便利性,確保他們總能在對的貨架上找到想買的東西。對沃爾瑪而言,這能降低人事成本,減少貨架空間的浪費,但它還有更重大的意義:「驅動這類新科技的動力,是走向全通路零售的必要性。為了提供當天、低價或最後一哩運送,你必須以這些門市做為配送中心。但要實現這個目標,他們真的需要即時掌握架上有什麼,」Auto-S的製造商Bossa Nova執行長Bruce McWilliams接受Venturebeat採訪時說。
入口處的自助提貨塔就是明證,只要掃描你的網路訂單條碼,45秒內你的貨就會出現在輸送帶上,取貨變得跟「高科技自動投幣機」一樣方便。自駕車配送也進入測試階段。
去年11月,沃爾瑪宣布與福特合作,用自駕車宅配;7月,和Waymo(Alphabet旗下子公司,專門研發自駕車)聯手,在亞利桑那州小規模試點,「http://xn--walmart-6p3l44vn4ljhs1l8c981cucbz07isk0a.com/grocery下單,選擇到店取貨,我們的個人購物助理便會依據取貨時間,細心準備訂單上的商品。剩下的就交給Waymo。Waymo會接送顧客往返門市取貨,你可以利用這段時間完簡訊、小睡、工作,隨心所欲。」沃爾瑪部落格如此描述。
這一切聽起來,像是科幻小說?
沃爾瑪可不這麼認為,「今天,變化的速度很快。10年前,多數客戶還在讀第一代iPhone的消息,懷疑是否實用。現在,他們用手機上買東西,就期望宅配到府或店裡取貨 – 而且通常是當天,幾小時內,甚至幾分鐘內,」沃爾瑪執行長董明倫(Doug McMillon)說,「零售商得適應這些變化 – 在某些領域甚至引領潮流 – 不然就會落後並消失。」
附圖:圖說:去年改版後的沃爾瑪網站,新功能包括當地熱門商品、快速追蹤訂單、快速續訂、我的當地門市服務等,強化區域及個人化體驗。來源:沃爾瑪
圖說:伊甸園的APP介面,機器藉由照片的圖像辨識和比對,預估蔬果新鮮度。來源:沃爾瑪
圖說:只要45秒,16英尺高的自助提貨塔,就會準備好你訂的商品。來源:沃爾瑪
資料來源:https://ai-blog.flow.tw/walmart-ai-data-retail
「微軟文字轉語音下載」的推薦目錄:
- 關於微軟文字轉語音下載 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
- 關於微軟文字轉語音下載 在 李開復 Kai-Fu Lee Facebook 的精選貼文
- 關於微軟文字轉語音下載 在 Re: [討論] 上字幕的流程問題- 看板youtuber - 批踢踢實業坊 的評價
- 關於微軟文字轉語音下載 在 Re: [討論] 上字幕的流程問題- 看板youtuber - 批踢踢實業坊 的評價
- 關於微軟文字轉語音下載 在 最像人类声音的免费语音合成服务|微软azure(2023) - YouTube 的評價
- 關於微軟文字轉語音下載 在 Ai應用-微軟免費文字轉語音不給用了。 別擔心馬上 ... - YouTube 的評價
- 關於微軟文字轉語音下載 在 微軟文字轉語音下載-在PTT/MOBILE01上電腦組裝相關知識 的評價
- 關於微軟文字轉語音下載 在 微軟文字轉語音下載-在PTT/MOBILE01上電腦組裝相關知識 的評價
- 關於微軟文字轉語音下載 在 skygongque/tts: 微软azure文本转语音音频下载 - GitHub 的評價
微軟文字轉語音下載 在 李開復 Kai-Fu Lee Facebook 的精選貼文
近年接受的最長也是最細緻的採訪,人物雜誌記者像私家偵探一樣,從我和朋友的交談,從各種出乎我意料的文字視頻資料裡面,打開了我內心深處最真實的一面。有不少獨家的秘聞,歡迎點擊。
李開復:最大化戰爭的倖存者
本文來自《人物》雜誌
文|李斐然
編輯|朱柳笛
攝影|尹夕遠
……………………………………
坐在李開復對面是一種持續的挫敗和絕望。技術要比人性更根深蒂固地活在他身上,那種感覺很像是跟Siri聊天,全程剔除人類情緒。這讓人產生一種不太對勁的迷惑:如果他參加圖靈測試,能通過嗎?
這種最大化的氣質只在一種狀態是合理的,那就是科學家的實驗室。這原本可以成為一個最典型的科學家故事,一個天才,迷戀技術,與機器共存,活在實驗室裡。但顯然,李開復早在30多年前就放棄了這條路,這也是他的故事中最有意思的一部分——天才決定離開實驗室,投身複雜、渾沌、充滿局限又充滿活力的商業社會,活在人群中。
┃最大化戰爭
李開復的西裝褲口袋是一個精確測試後確定的尺寸,它和最新款iPhone的尺寸貼合,既不會淺到放不進去,又不會深到不容易取出來。在重要場合,他會戴寬度7釐米的細領帶,比市面上大部分領帶細1釐米,因為他經過實驗發現,這樣的搭配顯瘦。就連他的笑容,都像是一個受過專業訓練的職業偶像營業時的idol smile,這是他大部分照片裡的固定微笑的弧度。
坐在這樣的李開復對面是一場持續的心理危機。他的人生經歷被量化,像一個可查詢的資料庫,他的回答基本上全部出自他出版過的8本書,以及迄今為止發表過的公開演講、訪談和文字記錄。如果你讀過這些內容,就可以準確預測他每一次的答案。因為不管問題是什麼,他都會繞回到這些公開信息的範疇之內,邏輯落點始終是——“世界因你而不同”,每個人都要“做最好的自己”,而現在,我們應當關注“AI未來”。這些是他的自傳標題,也是他研究後發現最適宜大眾傳播的話題。
他的生活是一場最大化的戰爭,在有限條件裡,最大化時間,最大化效率,最大化確定性,不允許冗餘。偶爾助理給他在兩個時間段中安排了休息,會遭到他委婉的批評:時間沒有得到充分利用。
這場最大化戰爭貫穿了李開復30多年的職業生涯,他擁有一個商業偶像的完美履歷:畢業於學術頂尖的哥倫比亞大學和卡內基·梅隆大學,工作過技術最頂尖的科技公司,蘋果、SGI、微軟、Google,而後在2009年創辦創新工場,投身中國的創業熱潮。
在每一個階段,他都創造過最大化的奇跡:在蘋果,他曾將尚處於實驗室階段的前沿語音辨識系統,壓縮了1000倍後應用在當時的蘋果電腦裡;在微軟,他創建了微軟中國研究院,這成為後來世界知名的微軟亞洲研究院,走出來許多AI領軍人物,被《麻省理工學院技術評論》稱為“世界上最火的電腦實驗室”;Google中國也在他的推動下,從一個人到700人的團隊,實現了最具歷史意義的當地語系化。
過去10年中,他的最大化戰場是中國的互聯網創業。創新工場所投資的項目超過350個,已經誕生了17家估值超過10億美元的獨角獸,基金規模超過20億美元。“創業本身就是一場最大化。人們在創業環境中得到的成長,是在其他環境裡不會得到的。創業就是做出了有限性和無限性之間的連接,達到了人的最大化。”
技術造就的商業奇跡,是過去10年間中國互聯網的獨特景象。技術高度集中化了效率,放大了個人的力量,讓所有人親歷了一場肉眼可見的奇跡——一個創業者能改變所有人購物的方式,一個聊天工具能顛覆此前所有的通訊龍頭企業,一個網紅主播能直接決定一款口紅的生產……中國市場成為全世界資本最為矚目的新大陸,它吸引著一個又一個人投身這片土地的最大化戰爭,在這裡,任何一個人都有可能親手創造一場影響14億人的奇跡。
“看到時代的變遷,看到迎頭而來的機會,總在想怎麼去調整自己,才能捕捉到這些機會。如果你讓我每天做一樣的事情,我會枯燥到死。”李開復說,“每一年我說不出來我做了兩三件很驚人的事情,好像就白活了。”
不過,這場最大化戰爭也多少吞噬了人性。在家裡,他陪家人的時間是經過精密規劃的最大化策略,“既不會少到讓她們抱怨我不是好丈夫、好父親,又不會多到影響工作效率”。妻子謝先鈴有次跟他吵架,氣到離家出走,不接電話,不回短信。結果,李開復選擇用技術回應。他在Google搜了大概1000條道歉短信,從裡面挑了50條比較接近他的口吻的,自己又寫了50條,湊成了一個100條道歉信的資料庫,然後寫了一個程式,每隔45分鐘隨機發送短信,不間斷地一直發,連續發送到第三天的時候,妻子敗給了程式,認輸回家。
創業夥伴陶甯從微軟時代就認識了李開復,那時候,連跟他吃飯都是一場智力競賽,要一邊吃一邊玩難度極高的推理遊戲。她注意到,同樣使用語音輸入,李開復的語音轉化準確率要比周圍所有人都高。因為他常年訓練自己,用機器習慣的穩定狀態說話,“不要只train機器,還要train自己。”
與他結識近14年的黃蕙雯是創新工場現任CMO,起初她並不想接受這份工作,就跟李開復說,北京霧霾好重,我不要搬過去。結果過了一會兒,她在微信上收到了他的答覆,他依次發來中國氣象局的監測結果、社科院的研究報告,以及協力廠商機構的觀察統計。李開復糾正她,準確的事實是,北京的空氣品質已經有了大幅改善。這構成了李開復強悍的說服力,但也讓黃蕙雯不得不沖他吐槽:“你一定要每天都過得這麼用力嗎?”
所以,坐在他對面是一種持續的挫敗和絕望。技術要比人性更根深蒂固地活在他身上,那種感覺很像是跟Siri聊天,全程剔除人類情緒。這讓人產生一種不太對勁的迷惑:如果他參加圖靈測試,能通過嗎?
這種最大化的氣質只在一種狀態是合理的,那就是科學家的實驗室。這原本可以成為一個最典型的科學家故事,一個天才,迷戀技術,與機器共存,活在實驗室裡。但顯然,李開復早在30多年前就放棄了這條路,這也是他的故事中最有意思的一部分——天才決定離開實驗室,投身複雜、渾沌、充滿局限又充滿活力的商業社會,活在人群中。
┃與複雜共存
商業世界有一些暗號。特別是創業者見投資人時,他們一般不會直接說出自己的想法,你只能去捕捉一些訊號——聊天中他有沒有看手錶,中途接電話有沒有回來,如果聊了半小時他還在提問,要麼這次有戲,要麼他不懂這個賽道,想讓創業者幫他普及一下背景。最直接的失敗徵兆是,“我後面還有個會。”
但是,李開復會給出不太一樣的訊號。他愛談論技術,見他需要準備好充分的資料材料,以備他即時提問。他尤其鍾情于技術天才,有時甚至會打破自己縝密的時間規劃,跟他們多聊。可是,如果技術天才只講技術,他會直截了當地告訴對方,“你的想法太天真了。”
他的本質是一個電腦科學家。在成為投資人、創業者、職業經理人之前,他是足以躋身世界一流的人工智慧專家。電腦博士李開復設計過一款人工智慧博弈程式Bill,擊敗當時奧賽羅棋世界冠軍;他還使用一種叫做“隱瑪律可夫模型”(HMM)的方法,建造出世界上第一套非指定語者連續性大詞彙語音辨識系統Sphinx。學術界一種開玩笑的說法是,衡量一個人的研究高低,就去看他的論文能在多少年後還持續折磨著後輩入行必讀。而李開復的論文,直到今天還有程式師將其翻譯成中文,細細研讀,距離他發佈這些論文已經33年了。
走出實驗室後,他親歷過這個時代幾乎每一次最重要的技術變革,參與它們的落地。陶寧記得,即便在微軟、Google這樣的頂尖公司,想要讓技術進入產業也是一場惡戰,李開復要反反復複做演示,跟不同人群磨合,他們之中大部分人不懂技術,“99%不是你的技術同類”,但他們又有自己的立場和顧慮,李開復的工作就是需要彌合這種人群之中的認知差異。
商業是人構成的戰場,在這裡,贏的關鍵是學會與複雜共存。尤其在中國創業,是一場全世界最殘酷的戰爭。所有參與者將最大化推向極致,只有親自下場,你才能明白這種現實的顛覆性力量。天才的最大失利往往不是技術缺憾,而是誤讀了人,誤讀了人性,誤讀了人群之中的風向。
在微軟的時候,到美國總部開會,坐滿一屋子的天才工程師總提中國盜版,討論的主題都是怎麼抓、怎麼告、怎麼正版化、能賣多少錢。“我說你們根本不懂中國人的思維,我就帶他們來中關村,教微軟的人怎麼理解中國市場。”
李開復設計了一套小實驗,他讓來北京的美國高管們先去一趟當時的電腦大賣場海龍大廈,每人發同樣的錢,買一個電腦回來,去親眼看看在中國做生意是什麼樣子。結果在中關村購物一圈,連最理性的CTO都陷入了中國充滿感染力的消費亢奮之中,回來熱情地跟李開復說,什麼都有,什麼都有,什麼都有!那是一種誰也阻止不了的商業生命力。只有親歷才能明白,你沒法跟一顆破土而出的種子講道理,靠理智否定它的生長。它會不惜一切代價活下來,最優解是與它共生。
過往的經歷把他訓練成一個務實主義者。2006年,他參加香港科技大學前沿研究討論會,臺上坐著諾貝爾物理獎得主楊振寧,時任科大校長、物理學家朱經武,還有著名數學家、菲爾茲獎和阿貝爾獎得主邁克爾·阿蒂亞爵士。他們熱烈地討論“詩人科學家”這個議題,數學好美啊,數學充滿想像力,只有他不太同意。
李開復很客氣,這是他身上的另一個重要特質。他婉轉地提醒:“這個世界需要有像他們那樣偉大的科學家,留在高校研究院,來探索數學之美,但是也需要像我們這樣的工程師,來把它做成有價值的東西,解決人類的問題。這兩者缺一不可。”
他必須要學會在人群中生存。王詠剛是創新工場CTO,也曾在Google工作了10多年。他知道,跟形形色色的人談技術,是個苦差事,講深了大家聽不懂,講淺了大家覺得沒有用。碰上完全不懂技術的人,尤其是傳統產業的老闆,也得講得下去才行。他有一次聽到李開復不得不跟一個地方老闆解釋,“AI是一種新時代的Excel”,因為Excel對他們來說已經代表了複雜,他耐心地解釋,“像Excel那樣,你把資料填進去,結果就能算出來。”
“我就沒有開復那樣的好脾氣,講不明白我就不想說了。但是他還是很有熱情,能在不同場合,耐著性子,讓所有人聽懂。”王詠剛說。
“市場接受了,技術就得到了承認;市場不接受,再奇妙的技術也不名一文。”李開復曾這樣寫道,市場是一切技術的試金石,只有不適應市場的技術,沒有不適應技術的市場。就算是地球上最偉大的科技公司,技術不能落地,也在市場一文不值。
整個過程都要對抗人群中的懷疑、不解和誤會。智明星通的CEO唐彬森說,10年前覺得李開復不像個投資人,每天叮囑他關注技術趨勢,“老發一些沒什麼用的話”,“我們還在創業苦哈哈的,滿腦子想的還是人怎麼招啊,工資怎麼發啊,他老說要all in移動互聯網,老說比爾·蓋茨的名言,‘人們永遠會高估一兩年的發展,而低估了未來10年的發展。’我當時心想,手機螢幕就這麼點大,性能又特別差,能怎麼樣?”
如今,技術奇跡驗證了李開復的判斷。前不久,創新工場10周年紀念,他給李開復發了一條資訊,“偉大的時代需要有偉大的想像力。”
然而,人群之中,質疑總免不了。出現負面評論的時候,陶甯和李開復經常爭論。李開復希望能把事實解釋清楚,但陶寧告訴他,如果他相信,自己事業的目標是把技術落實進產業裡,就必須專注於技術的落地,“活在一種不理解中,學著與噪音、反對、誤解共存”,對這個世界說,那好吧。
“你說他沒有生氣過10分鐘、1小時,他肯定是不高興的,但是他得用理性的方式去處理。”陶寧說。“況且,創業中太多你想要做的事情,已經填滿你的時間了。像開復這樣從學界跳到工業界,面對客戶、投資人、產品、團隊,他已經生活在人群之中了,必須學會接受過程中的噪音。”
這大概就是時代留在他身上的一種複雜性。他的技術信仰分成兩半:前一半是個科學家,能寫最複雜的論文,調教機器理解人類;後一半是個商人,能洞悉客戶的需求,教會人類理解機器。自始至終,他都是流動在兩者之間的人。
┃吞噬與救贖
技術將李開復的最大化戰爭推向了頂峰,他不僅要最大化技術在商業上的效益,還要最大化自己的影響力。
微博最熱的時候,他給自己的微博寫了一個AI程式,讓機器自動抓取即時熱門的話題,以及與他有交集的主題,以影響力排序轉發,連發送時間都是精准實驗的結果,間隔10分鐘發會掉粉,間隔40分鐘發又不能實現每天發送量最大化,衡量過後得到最優解,間隔30分鐘發一條,每天發送25條,以實現每天穩定漲粉的目標。機器全程類比人類發送的隨機性,避開整點發佈,以免留下機器痕跡,機器甚至能代替他自動回復留言,為他增加粉絲互動頻率,維持熱度。
那段日子,向來平靜的李開復持續生活在一種強烈的情緒衝擊裡,憤怒、喜悅、興奮、焦躁,所有血流都沖向大腦。他每天都會檢查自己的粉絲數,如果沒有達到增長預期就會不高興。他變得對最大化數值有所偏執,“一場演講沒有1000個人我就不去,每天微博不新增1000個粉絲我就不開心,一個記者來採訪我,讀者不夠多我就拒絕。”
一切都是最大化的工具。曾經的創新工場合夥人王肇輝結婚,邀請李開復致辭,儀式結束後,他發現李開復寫了中文發言稿、英文發言稿,在微博、推特、臉書全平臺上都發佈了一遍。作為新聞發言人的他感到高興和感動。但是,李開復大女兒上大學收到的父親的信,也被父親同步發在了網上。雖然贏得了點擊率,女兒卻非常不高興。
今天回憶起這一切,最大化影響力的念頭“就像腫瘤一樣長在我身上,頑強、固執,並且快速擴張”,直到疾病的突然到來。
在經歷了常年的熬夜、高壓、疲勞作戰的生活後,李開復的體檢報告裡檢測出腹部存在26個腫瘤,醫生確診為淋巴癌四期。當整個中國互聯網在井噴似的蓬勃發展時,李開復花了17個月養病。最大化戰爭暫時休戰。
休假對於他來說,是一個非常陌生的概念。一開始,他還不能正確融入這種生活裡面。在動完手術的幾個小時後,他還試圖再度投入工作。他在家的臥室裡搭建了一個工作臺,用金屬臂把顯示器懸掛在枕頭上方,躺著回復郵件。
因為生病的緣故,他提前立下遺囑。寫遺囑的時候,他第一次認真注視自己手裡的筆,“那支筆曾在上萬冊書上簽名,暢銷的自傳,鼓勵中國年輕人努力工作、開拓事業的書,這些書每一本反響都很好,如今,同一支筆卻見證了我的失敗。”
寫完遺囑,他坐在母親旁邊,母親已患阿爾茲海默症多年,只能勉強認出他。直到那一刻他才意識到,自己最大化的影子還有另一面。自傳是一個朝氣蓬勃的故事,但對當時在美國陪讀的母親而言,那是寂寞的回憶。沒有親人,沒有朋友,兒子上課的時候,她只能在家對著電視,一台一台換。因為語言不通,她只看得懂一個猜價格的節目,節目很熱鬧,但她也只能猜測這種熱鬧。從天亮到天黑,只有捱到兒子回家,才有人跟她說話。
成功人生的所有細節都顯現了另一個模樣。在臺灣養病期間,他試著參與家裡的裝修,兩個女兒告訴他,過去他花了大工夫,把房間佈置成公主房,買小星星的貼紙,自己一顆一顆貼在天花板上,但其實,她們並沒有想要成為公主。
小女兒說,她更想要收到爸爸的信,因為爸爸過去經常寫信,寫給爺爺奶奶,寫給媽媽,寫給姐姐,但是他已經很久沒寫了,自己高中畢業的時候,還會收到爸爸的信嗎?
生病期間,李開復重讀了許多年前自己父親寫來的家書。原來早在他事業的最開端,父親就曾在信裡,反復叮嚀 ——
先鈴、開復:
先後接到你們來信,一則以喜,一則以慮(我未用“憂”字)。喜看開復的研究受到別人的注意、重視,但我要說一句話是,做學問的要有自尊心,但更要有謙遜心。學習是無止境的。
經過了這麼多年後,他終於開始理解,和自己渴望的最大化不同,父親治學的根基恰恰是渺小。父親70歲的時候選擇當教師,教了幾十個學生。學生寫給他的訃文裡反復提到這位老師謙遜的治學觀點,他相信研究任何歷史最忌諱的是“成見”,“歷史是沒有官方說法的”,自己的觀點也不是最終的答案,應該歡迎反駁,包容不同的意見。
“我才發現,他寫給我的每一封信裡都隱含著一些人生建議。他教我怎樣去做一個更好的人,不要為了一些沒有價值的事情讓自己太忙碌,做人要謙虛,千萬不能驕傲。父親通過這些信,以非常溫和的方法來傳遞他的愛,而我感知得太晚了。”
在臺灣養病期間,住在他家附近的鄰居楊柏林是一位畫家。他看了李開復的故事,送來一幅畫。這幅畫是很多種顏色一起在流動,黑色包裹著紅色,藍色流向了金色,畫面正中央是蔓延開來的白色,如同水一樣,不斷流動,這是他所理解的李開復。
楊柏林說,他在李開復身上看到了自己。這位畫家一直以來的創作理念就是“影子和自我”,而在李開復身上,他看到這個主題的又一次呈現——“真實的我是影子的救贖,而影子的另一面,是我更遼闊的世界。”
┃回到人群中
病癒回到工作中,李開復回到了他的平和狀態。他是一個始終很客氣的人,很少生氣,總是保持弧度穩定的微笑。最大化模式並沒有完全消退,連軸轉地飛行、演講、開會。妻子常常問李開復,“你到底要幾歲退休啦?”
他還不想退休,多久都不想。他還在享受流動在人群中。今年秋天,李開復去烏鎮的世界互聯網大會演講,飛回北京沒幾天,又到釣魚臺國賓館參加中國發展高層論壇。在會議間隙的大廳,遇到的幾乎每個參會者都會跟他打招呼,停下來聊一聊。他像水一樣流動在不同群體之間,對決策者解釋技術的苦處,得給民營企業一些幫助,然後鼓勵研究員多參與實踐。
只是,贏已經不重要了。“經歷的災難多了,人就學得會客觀了。人從挫折中學到的東西,遠比成功裡學到的多。碰到好多問題,上報紙了怎麼辦,大會不能開了怎麼辦,他們說,開復你怎麼還這麼鎮定?我說我都被微軟告過了,這算什麼?我都得過癌症了,還怕什麼?”李開復說,“這一生活得已經很值了,得到了超過我能想像的很多東西,我已經很感恩了。如果我失去一切,那也值了。”
在互聯網世界,這也許是一種不合時宜的平靜。他的辦公室位於中關村,就在樓下吸煙區,休息時間會有許多掛著工牌的人聚在一起抽煙,他們鎖著眉頭,抱怨美國貿易管制黑名單、競爭對手使過的黑招、擴大市場的壓力……互聯網,一種焦慮、廝殺、競爭的象徵,是全世界最殘酷的競爭市場。焦慮是他們被這個技術時代所塑造的一種底色。
經歷過技術時代屢次變革,現在的李開復覺得,在10年中國互聯網中誕生的最有價值的不是產品本身,而是產品背後精於執行的人。“我覺得中國創業者是很強大的一批人,整體來說他們不會是很恐懼的人,一方面有自信,相信自己一定能完成,萬一真的做不成,那就公司關了再創一家,做一家倒一家,倒一家就再開一家,真正厲害的創業者都是這樣起來的。”
一個重要的領悟是,人的最大化,不能做簡單的量化。一個不能透露姓名的創業者說,當時他有一個合夥人,很多投資人不看好,都不願意投。但李開復對他說,“我知道這個事你肯定會踩坑,但我也知道如果出了問題,你也可以收拾得了,所以我們冒一點風險,還是會投。大不了到時候麻煩一點,幫你解決問題。早期多犯點錯誤,總比後邊犯錯成本小得多。”事實證明,他的合夥人果然出了問題,但這名創業者也的確熬過了這個錯誤,帶著公司成長為市場的關鍵玩家。
最近,李開復開闢了一個新的最大化戰場——讓AI落地。
他在創新工場設立了一個人工智慧工程院,給學生做技術夏令營,找傳統產業談合作,還聯繫了大學,幫忙設計人工智慧的教材。作為人工智慧工程院的執行院長,王詠剛常常和他一起出差,去工場考察。他在一家工場車間呆了一天,生產線上1000多個人,王詠剛挨個去看每個人的工作,看看能不能用自動化取代。車間工人用很細的鑷子,貼一張小小的貼片。一個工人一整天困在自己的工位上,反復這個枯燥的動作,拿起來、貼上,再拿起來、再貼上。這是一個亟需得到解放的重複性勞動,但是,今天的AI只能在虛擬世界起效,做語音和人臉識別還可以,一旦進入真實世界,又粗糙又笨拙,遠遠不能取代細活兒。
“那天出來我就在想,未來AI是一個無論怎麼想像都不過分的發展。讓它發展取代工人,這不是一個效率問題,而是一個人道問題。人類是不應該被困在這種枯燥的重複性勞動裡的,應該做一些更自由的事情。今天的AI還在非常非常早期的起步階段,如果AI真正能落地達到90分的話,世界會變得非常不一樣。這是我或者開復,以及一些做AI科研的人所相信的AI。”王詠剛說。
這又將是一個漫長而複雜的過程,就像是他所親歷的每一次技術落地,又要跟決策者建言,又要面對陌生人的迷茫和質疑,想辦法讓人聽得懂,又要耐心勸服創業者相信,這背後是下一場技術奇跡。但李開復似乎很享受這件事,每天連軸轉地面談,演講,參加討論。
1983年,李開復在卡內基·梅隆大學電腦科學系攻讀博士學位,那裡是世界人工智慧尖端研究的前沿陣地。他的博士生研究計畫中這樣寫道:
“人工智慧是人類學習過程的闡明,人類思考過程的量化,人類行為的解釋,以及對智慧原理的瞭解。它是人類瞭解自身的最後一步,我希望投身這門新的、有前景的科學。”
今天重讀這番宣言,李開復似乎的確在用自己的時間,踐行著這場實驗,他把自己訓練成機器的思維模式,量化自己的行為,去教機器理解人類,更重要的是,通過對機器的理解,把它推向人類,實現“人類瞭解自身的最後一步”。
“我確實是用了20年的時間,才慢慢地瞭解他,他不是一個完美的人,也不是個最理性的人,他是一個像我們一樣的人,是一個領導,一個下屬,一個朋友,一個長輩,一個丈夫,一個父親,一個兒子,他是一個生活在人群之中的人。”陶寧說,“他的主線是忠於技術,圍繞著技術他做了所有事情,做了研究,做了產品,做了投資,收集了人才,也獲得了很多朋友。技術改變了他的人生,他也因為身處這樣的技術時代,改變了別人的一生。”
┃只屬於自己的房間
現在的李開復試著活在一場最大化的寬鬆裡面。他已經不怎麼再發微博了,自動定時發佈的程式已經終止了,他只會偶爾上去看看評論。過去看電影,他會按照IMDB排序,從9.2到6.5依次看,他在家裡裝了160T的伺服器,確保他準確擁有全部6.5分以上的電影。現在也沒關係了。他最近在重看《教父》,看了好多遍,他現在喜歡教父那樣的英雄,說不上是英雄,卻也並不是壞人,一生與人性的種種複雜面共存,是一個活在人群中的人。
李開復有一個秘密,那就是吃。他熱愛美食,也熱衷於研究美食。每年大董上新菜,他都會受大廚邀請試菜,跟大廚討論菜品。曾有一家出版社知道了他的美食喜好,想給他出一本美食書。但是,在李開復決定之前,王肇輝就直接拒絕了:“我說不行,只要我還在PR這個崗位上管事,就不可能有機會。我不希望開復的公眾形象變得不專注。我希望科技、投資是占他人生符號99%的東西。不能讓人感覺不務正業,跑去做美食了,這不合適。我不同意這樣的事情出現。”不過現在,這個秘密也不需要隱藏了。講述美食時候的李開復,有一種毫無掩飾的由衷快樂,他花了整整10分鐘時間,認真描述如何煮一顆最完美的雞蛋。這是他經過反復試驗、調試,推算出的完美雞蛋烹飪資料。
他選擇Google工作的其中一個條件是,參與Google中國餐廳的籌建。幾乎每個和他在Google共事過的人都記得,每天中午的試菜環節,會看到一個神采奕奕的李開復點評菜,面試大廚,提很多專業問題。
現在不需要爭奪最大化流量了,他開始允許自己說點真正想說的話,吃到好吃的東西,他會給它們拍特寫,傳上網。其實,如果沒有其他人反對,李開復還挺想寫美食的。但是,他是一個溫和的人,不喜歡跟人起衝突。他也尊重別人的專業,只要是他認定的資深人士的建議,他大多會接受。所以,這個出版計畫最終流產,李開復只說了一句話,“那好吧。”
病癒之後,為了讓更多人對AI感興趣,李開復願意去展露更多真實。他參加了奇葩大會。在去錄製的車上,他準備了一份詳盡的發言稿。助理提醒他,那兒鼓勵現場即興,你自由發揮就好啦。但這是李開復所不習慣的場景,他反問,“自由……怎麼自由?”
結果,奇葩大會收穫了嘉賓語音聲波最平穩的一期節目。錄製結束後,蔡康永跑來找他的助理:“開復在幹什麼啦,讓他來玩的,一上來就講課,也不跟我們打招呼,難道他是緊張嗎?”
習慣是不容易更改的,他還是喜歡活在精確的最大化裡。臨近採訪結束的時候,李開復展示了自己手機相冊,裡面有兩部評分7.9分的電影。“這是我最近發現的兩部電影,我還沒有看過。”他說回家後會把這兩部電影下載來看,所以此時此刻,寫稿還不能寫“李開復看過IMDB上所有6.5分以上的電影”,準確的說法是“所有6.5分以上的電影,減去兩部”。
生活也依然追求一種最大化,但如果沒做到,那也沒關係。李開復在家裡追求極簡,一切都要藏起來,相冊藏在抽屜裡面,電視藏在油畫後面,電腦藏在飄窗裡面,音響藏在房間隱蔽的壁龕後面。他試圖也把妻子的化妝品藏起來,為此設計了一個能夠裝400個瓶子的鏡櫃,完美容納妻子現有化妝品。然而,住了一段時間後,滿載的鏡櫃外面不知道為什麼又冒出來100瓶。於是,他從自己的護膚品裡拿了20瓶出來,也放在外面。李開復說,這是適應環境的新策略,既然要存在冗餘,就讓冗餘也搭配著來,在一種新的平衡裡,與冗餘共存。
他再一次開始寫信。小女兒畢業上大學那一年,他給她寫了一封不再公開發表的信。信的最後一段是:
我問媽媽想說點什麼,媽媽讓我告訴你,我們非常愛你。我問她,這句話是不是應該說,我們愛你,比昨天多一點,比明天少一點。她點點頭,眼睛裡閃爍著一點光,那就像是在你小時候第一次聽到這句話時,同樣的光芒。
後來不久,小女兒把回信文在自己的身上。一個是Stay Gold,它出自美國詩人弗羅斯特的詩,原意是,美好總是容易消逝(Nothing Gold Can Stay),但她改了一下,對她來說,美好也可以永不消失。另一個是一組數學符號,那是長大之後終於領悟的父親的關心,一個大於號,一個小於號。
今天的創業依然是一場最大化戰爭,但作為親歷者,他也得到了珍貴的經驗:“最大化會發揮人的潛力,但也會犯錯誤。我學到的就是不要去算計到這麼細,分清楚哪些是自私的最大化,哪些是真正對世界有意義的最大化。”
李開復的家裡現在有兩間書房。一間是給外人看的,是他完美一面的呈現,乾淨到空無一物的書桌,所有物件都可以完美收納,曾經的獎狀、獎盃和畢業證書,整齊地排列在櫃子裡,是展示給世界看的戰利品。
另一間書房非常狹小,裡面完全沒有裝飾,沒有吊頂,沒鋪地板,抬頭就是黑壓壓的暖氣管道,屋裡只有一把歪到有點散架的椅子,勉強可以坐下。這裡放著他在家裡佈置的伺服器,以及所有不想被外人看到的東西。
這裡藏著所有他生活的秘密回憶。曾經手寫給妻子的情書,父親寫的信,自己的病歷,過去工作用的舊名片,只對自己有意義的工作紀念物,亂糟糟地堆在一起。他跟自己約定,老了退休了,他就把這些回憶按順序整理好。但現在還不用,這樣就好。
只有在那個房間裡,他不用活在最大化裡。這是他精緻的家裡唯一一個亂糟糟的地方,沒有條理,沒有分類,不用小心翼翼。他時不時要去那兒維護伺服器,跑資料的十幾分鐘時間裡,讀一會兒信,發一會兒呆,想念父親和母親。所有情緒都允許得到短暫的表達,懷念,生氣,懊悔,沮喪,難過,也有希望。這是最大化戰爭的一條縫隙,只在這裡,活著一個真實的李開復。
微軟文字轉語音下載 在 Re: [討論] 上字幕的流程問題- 看板youtuber - 批踢踢實業坊 的推薦與評價
首先 我是網頁搜尋到這篇文的
平常沒來這版,不過因為網路上討論很少
就稍微回覆一下,做個筆記順便讓之後需要的人能夠方便些
你遇到的就是文字還有語音轉換的問題
這要分兩個部分講
第一個部分是文字轉語音TTS (Text to Speech)
先推薦一個軟體
Balabolka
網址在此
https://cross-plus-a.com/balabolka.htm
(有中文版)
安裝完之後打開 把文字放進去就可以叫他唸了
他所調用的語音引擎是windows內建的
假如系統是WIN10新版本,可以調用SAPI5的語音
預設的繁體中文語音是涵涵(微軟會把語音取名子)
如果想用另外兩個SAPI5的語音(雅婷.志威)
請參考這裡
https://class.kh.edu.tw/19061/bulletin/msg_view/400
下載REG登錄檔 裝好之後就有了
以上是Balabolka調用本機(不連網)的語音引擎
假如是想要用線上語音引擎
在Balabolka->工具->Use online TTS services
快速鍵shift+ctrl+D
就可以使用一堆的線上TTS
而且可以直接轉存聲音檔
Google TTS1 TTS2是免費的 直接把文字打進去就能用
Google Cloud TTS要收錢
但是效果真的比較好
免費體驗網址在這
https://cloud.google.com/text-to-speech
註冊方式請參考
https://www.youtube.com/watch?v=y_vQvAqgqgA
免費:每月免費100萬字(WaveNet)
收費:每100萬字 16美元
小量使用通常不會收到錢
另外Google Cloud TTS裡面的standard語音和Google TTS2是一樣的,不要浪費額度去開
另外一個是Micosoft Azure TTS
一樣是收錢
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/text-to-speech/
註冊方式:
https://www.youtube.com/watch?v=WZi0fhJtLJI
免費:每月免費50萬字(神經網路)
收費:每100萬字 NT$480.868
然後裡面的涵涵.雅婷.志威是電腦WIN10就有內建可以調用 不要浪費額度去開
至於其他線上TTS 不成氣候 不推
第二部分
語音轉文字
一樣是GOOGLE還有AZURE兩家
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/speech-to-text/#features
https://cloud.google.com/speech-to-text?hl=zh-TW
我拿上面文字轉語音的音檔去餵
成功率挺高的,就是有些字會識別成同音字,這要手動修正一下
但是拿演講的錄音檔輸入進去
辨識就是很糟糕了
有在用pyTranscriber應該就知道體驗的結果
反正就是目前的語音轉文字 必定還要花時間去修正
不過順便提一下
之前在看有話好說的節目,節目使用交大的AI軟體,準確率幾乎是100%
連來賓突然講台語照樣輸出
不過目前沒有公開,花錢也買不到,假如公開在台灣腔轉文字就是打爆GOOGLE和AZURE
※ 引述《h07860251 (無法顯示)》之銘言:
: 最近嘗試做影片
: 計畫是使用GOOGLE語音+自動上字幕
: 結果實際使用完全跟想像的不一樣
: 超級不順利
: 首先
: 為了生成GOOGLE語音
: 事先用記事本紀錄了腳本
: 然後嘗試使用網路上說的兩種方法
: 第一種是使用GOOGLE翻譯網頁讓他朗讀+電腦錄音軟體錄製
: 缺點:網頁有字數限制(看起來是限制5000字)、而且耗時很久
: 第二種是像 Sound of Text 網頁方法的但字數更短
: 或是說使用F12從Media 抓取的話 太長會被自動分段也不是很方便...
: 總之GOOGLE語音檔會有一種沒分割的完整檔,或是小段小段的分割檔
: 不是影片去搭配語音,就是語音去切割搭配影片
: 這兩種要看狀況,都有適合的時機
: 然後影片跟聲音製作完成要去製作字幕的時候
: 使用網路上推薦的免費AI字幕生成(pyTranscriber)
: 結果正確率低到爆炸,GOOGLE語音比人聲難辨識阿
: 而且該軟體網路上說使用的是 Google 語音識別來產生的字幕
: 結果自己產出的語音自己的辨識系統分不出來....
: 為了調整正確率
: 使用網路上推薦的免費字幕編輯軟體(Aegisub)
: 搭配使用起來因為已經有腳本了
: 原本想說應該只要複製貼上過去很快就結束
: 結果他斷句怪怪的,又要細部微調
: 感覺做了很多無用功.......
: 最後要上傳YOUTUBE
: 自己本身也習慣內建字幕
: 去網路上找合成影片跟字幕的軟體
: 結果合成上去發現字體不一樣
: 然後排版也不太一樣... 應該是軟體差異造成
: 只是沒看到想用的免費軟體....(大陸的先不要...)
: 感覺我整個流程繞了超級大圈
: 有沒有什麼建議可以提供
: 在下感激不盡....
: -----
: 順帶一提,目前我使用Shotcut這款(免費軟體)來剪輯
: 查了一下,這款是可以上文字,但是還沒有支援SRT字幕等等功能
: 之前是有用過DaVinci Resolve (聽說調色特別厲害)
: 只是他雖然說是免費的,但是還是跟付費版有差別
: 上網查了一些教學,結果是付費版才有的功能
: 大失望就換軟體了...
: 最後再問一下
: GOOGLE語音是可以隨便使用(包含商業使用)嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.239.186.13 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/youtuber/M.1626333090.A.FD7.html
... <看更多>
微軟文字轉語音下載 在 最像人类声音的免费语音合成服务|微软azure(2023) - YouTube 的推薦與評價
文字转语音 是现在目前最火,或者最懒的配音方式。对于那些不想使用自己声音,或者不会录音,或者懒于配音的朋友,使用各种 文字转语音 软件是最佳的选择 ... ... <看更多>
微軟文字轉語音下載 在 Re: [討論] 上字幕的流程問題- 看板youtuber - 批踢踢實業坊 的推薦與評價
首先 我是網頁搜尋到這篇文的
平常沒來這版,不過因為網路上討論很少
就稍微回覆一下,做個筆記順便讓之後需要的人能夠方便些
你遇到的就是文字還有語音轉換的問題
這要分兩個部分講
第一個部分是文字轉語音TTS (Text to Speech)
先推薦一個軟體
Balabolka
網址在此
https://cross-plus-a.com/balabolka.htm
(有中文版)
安裝完之後打開 把文字放進去就可以叫他唸了
他所調用的語音引擎是windows內建的
假如系統是WIN10新版本,可以調用SAPI5的語音
預設的繁體中文語音是涵涵(微軟會把語音取名子)
如果想用另外兩個SAPI5的語音(雅婷.志威)
請參考這裡
https://class.kh.edu.tw/19061/bulletin/msg_view/400
下載REG登錄檔 裝好之後就有了
以上是Balabolka調用本機(不連網)的語音引擎
假如是想要用線上語音引擎
在Balabolka->工具->Use online TTS services
快速鍵shift+ctrl+D
就可以使用一堆的線上TTS
而且可以直接轉存聲音檔
Google TTS1 TTS2是免費的 直接把文字打進去就能用
Google Cloud TTS要收錢
但是效果真的比較好
免費體驗網址在這
https://cloud.google.com/text-to-speech
註冊方式請參考
https://www.youtube.com/watch?v=y_vQvAqgqgA
免費:每月免費100萬字(WaveNet)
收費:每100萬字 16美元
小量使用通常不會收到錢
另外Google Cloud TTS裡面的standard語音和Google TTS2是一樣的,不要浪費額度去開
另外一個是Micosoft Azure TTS
一樣是收錢
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/text-to-speech/
註冊方式:
https://www.youtube.com/watch?v=WZi0fhJtLJI
免費:每月免費50萬字(神經網路)
收費:每100萬字 NT$480.868
然後裡面的涵涵.雅婷.志威是電腦WIN10就有內建可以調用 不要浪費額度去開
至於其他線上TTS 不成氣候 不推
第二部分
語音轉文字
一樣是GOOGLE還有AZURE兩家
體驗網址:
https://azure.microsoft.com/zh-tw/services/cognitive-services/speech-to-text/#features
https://cloud.google.com/speech-to-text?hl=zh-TW
我拿上面文字轉語音的音檔去餵
成功率挺高的,就是有些字會識別成同音字,這要手動修正一下
但是拿演講的錄音檔輸入進去
辨識就是很糟糕了
有在用pyTranscriber應該就知道體驗的結果
反正就是目前的語音轉文字 必定還要花時間去修正
不過順便提一下
之前在看有話好說的節目,節目使用交大的AI軟體,準確率幾乎是100%
連來賓突然講台語照樣輸出
不過目前沒有公開,花錢也買不到,假如公開在台灣腔轉文字就是打爆GOOGLE和AZURE
※ 引述《h07860251 (無法顯示)》之銘言:
: 最近嘗試做影片
: 計畫是使用GOOGLE語音+自動上字幕
: 結果實際使用完全跟想像的不一樣
: 超級不順利
: 首先
: 為了生成GOOGLE語音
: 事先用記事本紀錄了腳本
: 然後嘗試使用網路上說的兩種方法
: 第一種是使用GOOGLE翻譯網頁讓他朗讀+電腦錄音軟體錄製
: 缺點:網頁有字數限制(看起來是限制5000字)、而且耗時很久
: 第二種是像 Sound of Text 網頁方法的但字數更短
: 或是說使用F12從Media 抓取的話 太長會被自動分段也不是很方便...
: 總之GOOGLE語音檔會有一種沒分割的完整檔,或是小段小段的分割檔
: 不是影片去搭配語音,就是語音去切割搭配影片
: 這兩種要看狀況,都有適合的時機
: 然後影片跟聲音製作完成要去製作字幕的時候
: 使用網路上推薦的免費AI字幕生成(pyTranscriber)
: 結果正確率低到爆炸,GOOGLE語音比人聲難辨識阿
: 而且該軟體網路上說使用的是 Google 語音識別來產生的字幕
: 結果自己產出的語音自己的辨識系統分不出來....
: 為了調整正確率
: 使用網路上推薦的免費字幕編輯軟體(Aegisub)
: 搭配使用起來因為已經有腳本了
: 原本想說應該只要複製貼上過去很快就結束
: 結果他斷句怪怪的,又要細部微調
: 感覺做了很多無用功.......
: 最後要上傳YOUTUBE
: 自己本身也習慣內建字幕
: 去網路上找合成影片跟字幕的軟體
: 結果合成上去發現字體不一樣
: 然後排版也不太一樣... 應該是軟體差異造成
: 只是沒看到想用的免費軟體....(大陸的先不要...)
: 感覺我整個流程繞了超級大圈
: 有沒有什麼建議可以提供
: 在下感激不盡....
: -----
: 順帶一提,目前我使用Shotcut這款(免費軟體)來剪輯
: 查了一下,這款是可以上文字,但是還沒有支援SRT字幕等等功能
: 之前是有用過DaVinci Resolve (聽說調色特別厲害)
: 只是他雖然說是免費的,但是還是跟付費版有差別
: 上網查了一些教學,結果是付費版才有的功能
: 大失望就換軟體了...
: 最後再問一下
: GOOGLE語音是可以隨便使用(包含商業使用)嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.239.186.13 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/youtuber/M.1626333090.A.FD7.html
... <看更多>