曾幾何時,人們與手機、汽車交互的方式從選擇指令變成了自然對話,這種方式讓人們享受了方便,因為技術不斷發展,AI 助手能為我們做的事情也越來越多。
前段時間,丹麥的「合成黨」(The Party)成為了熱門新聞,這個新組織曾希望在 11 月的大選中獲得議會席位,其公眾形象和名義領袖是 AI 聊天機器人「拉爾斯」( Lars)。
根據該黨的創始人、藝術家和研究員 Asker Staun?s 的說法,如果該黨進入議會,人工智能將決定政策和議程(比如建立每月 13799 美元的全民基本收入,是丹麥平均工資的兩倍以上),而人類將充當該計劃的解釋者。不過最終,支持合成黨的簽名未能達到選舉所要求的 2 萬個,合成黨 AI 黨魁也就失去了機會。
雖然 AI 制定政策看起來還是一個遙不可及的嘗試,但與人交流、推薦和購物已是當今人工智能的「基本能力」了——很多品牌的手機上、智能音箱里都內置有這樣的智能助手,其功能我們每天都可以接觸到。
但和面向研究和技術展示的聊天機器人不同,人們在使用語音助手訂機票、點外賣時帶有明確的目的,如何在連續對話中獲取信息、正確理解用戶意圖并完成特定任務,是相關 AI 算法面臨的重要挑戰,現有的語音助手在不同場景中的表現也參差不齊。
在這篇文章中,我們選取了四個中高頻生活場景和市面上常見的五款語音助手進行測評,看看它們在這些場景中到底能做哪些事情,哪些方面還沒有做好。
四個高頻場景包括點外賣、選餐廳、訂電影票和訂酒店。參與評測的語音助手包括天貓精靈(天貓精靈 IN 糖)、玩秘(獨立 APP)、小度(小度智能屏 1S)、曉悟(獨立 APP)和 Siri(搭載于蘋果手機)。
評測過程中,我們先在這些語音助手上嘗試了各個場景,然后根據體驗的情況選出了這些產品各自擅長的領域進行進一步評測。最終,每款語音助手只參與一個場景的詳細測評,每場測評包含 100 句(50 輪)對話。
以下是測評結果。
外賣場景
在外賣場景中,我們首先測試了天貓精靈。
在菜品的劃分上,天貓精靈基本能夠按照用戶需求找到對應的菜品,比如「大閘蟹」、「炸雞」、「小龍蝦」,并主動播報店名,詢問用戶是否購買。此外,它也可以幫你尋找附近的美食,并告訴你距離多遠、有什么特色菜等信息,有時候甚至能提供一些百科知識,比如大閘蟹的吃法。這使得其前兩輪的對話往往進行得比較順利。
不過,在后續的對話中,天貓精靈非常容易「跑題」,點外賣過程中會突然跳轉到購物、歌曲播放、百科知識等不相關的場景。比如,用戶說「換個別的」,天貓精靈會誤以為用戶想要點歌,然后就開始播放歌曲,讓用戶摸不著頭腦。
這種場景區分的失誤有時也會發生在首輪對話中:
另外,對于菜品的細粒度信息,天貓精靈似乎掌握比較有限,比如不能區分菜系。而且在用戶不滿意當前推薦的時候,天貓精靈可能會就此結束對話(而不是繼續推薦)。此時,用戶就不得不重啟新一輪的對話。
另一個參與外賣場景測評的是輪子科技出品的玩秘 APP(華為、榮耀等品牌的手機的語音助理中也搭載了玩秘。據了解,玩秘 APP 中的 NLP 模型有重大升級,因此這里選取玩秘 APP 作為測評對象)。
首先,在菜品的劃分上,玩秘 APP 支持多種點單方式,你既可以說「我想喝咖啡」、「我想吃牛排」或者「我想吃 xx 飯店」,也可以說「我想吃點清淡的」、「我想吃點辣的」,這些玩秘都能聽懂,首輪對話輕松過關。
如果你對推薦滿意,它會幫你加入購物車,甚至還會幫你湊夠起送價并提醒你填寫備注。
下單之后,它還支持配送時間查詢和自動催單功能。
如果你對推薦不滿意,玩秘會繼續推薦,而不是結束對話。值得注意的是,玩秘能夠理解到很多表示拒絕的詞,比如「不愛吃」、「太油了」、「太貴了」,然后在下一輪推薦中主動避雷,并把你的偏好記錄下來,對話再長也不會脫離外賣場景。
不過,由于中國菜品非常復雜,而且用戶的個性化需求也比較豐富,玩秘在理解過程中也會偶爾出錯,比如不理解回鍋肉中有肥肉,不知道茶樹菇屬于素菜等。
此外,和我們評測的另外幾款語音助手一樣,玩秘在菜品價格對比方面還不太成熟,有時候無法按照用戶需求推薦更加便宜的菜品。
餐廳推薦場景
在餐廳推薦場景中,我們選擇了小度來進行測試。
在首輪問答中,小度支持多種餐廳篩選方式,比如按照評分(「永旺評分最高的餐廳」)、距離(「離我最近的西餐廳」)、菜品(「想吃龍蝦」)等等,這點和外賣場景的兩個語音助手是類似的。在達到用戶滿意之后,小度會詢問用戶是否導航前往,還能在導航開始后切換不同的導航方式。
不過,如果你想進一步了解餐廳的詳細信息,比如特色菜、是否有包廂…… 小度往往沒辦法提供。
而且,在沒有聽懂的情況下,小度的導航功能似乎非常容易誤觸。
此外,和外賣不同的一點是,餐廳往往會帶一些社交屬性,比如有些酒店可以辦婚禮。小度在這方面的意圖理解能力似乎還不太成熟,需要用戶給出更明顯的需求描述。
電影票預訂場景
在電影票預訂場景中,我們選擇了曉悟來進行測試。
首先,當被要求推薦電影時,曉悟能準確地找出當前正在影院上映的電影,而不是將院線電影和網絡電影混為一談,這是一些手機語音助手容易混淆的地方。其次,它還能匹配到指定地點的電影院,并導航前往,還有自動選座等功能。
不過,美中不足的是,曉悟基本上不支持按照常用時間段(如上午場、下午場)選電影,也很難給出電影的詳細信息(如電影內容、類型、票價對比)。更重要的是,對于不同的問題,曉悟有時會連續給出相同的答案,很多情況下可能答非所問。在電影場景所需要的長對話中,這會對用戶的耐心形成一定的考驗。
此外,在與選座相關的交互中,曉悟的自然語言理解能力也有待加強。
酒店推薦場景
在酒店推薦場景中本地外賣系統,我們選擇了搭載在蘋果手機上的 Siri 進行測試。
「Hey,Siri,給我定個酒店。」對于這種簡單、直接的要求,Siri 應對起來似乎沒有什么壓力,它會推薦一個距離用戶較近且評分尚可的酒店,也可以導航前往或者給酒店打電話,甚至可以幫用戶尋找附近的美食等信息。
但如果你想知道更細粒度的信息,比如酒店房型、價格、是否包含早餐等,Siri 往往沒有辦法提供。這種情況下,它可能變身「搜索引擎」,搜出和當前話題無關的內容展示給你。
此外,與前幾款語音助手相比本地外賣系統,Siri 的交互明顯更依賴屏幕,播報內容比較有限,很多時候給出的回答都是「我找到了這些結果」,而不是在用戶詢問「哪一個」的時候給出一個具體的推薦,或者一個明確的答案。
所以總體來看,我們基本可以依靠 Siri 獲取一些酒店推薦信息,但要想依靠這些信息直接預訂,信息量還遠遠不夠,而且「下訂單」這一動作也不能靠 Siri 來完成。
評測結論
在 Siri 誕生之初,它的創始人就假設,語音助手應當是「執行引擎」,而不是簡單的「搜索引擎」。
從測試結果來看,五款語音助手基本都實現了從簡單的「搜索引擎」到復雜的「執行引擎」的跨越,可以幫我們找店、導航、下單甚至選座、湊起送費…… 但在意圖理解能力和面向任務的連續對話能力方面,幾款語音助手的表現還存在較大差異。在各自經歷的 100 句對話中,幾款語音助手的理解率分別為:天貓精靈(44%);玩秘(82%);小度(44%);曉悟(32%);Siri(40%)。
可以看出,玩秘在測評中的表現尤其亮眼,在外賣場景中不僅能準確分辨菜品類型、口味等信息,還能理解用戶通過不同措辭表達的意圖,在多輪對話中成功地保持了對話場景和邏輯的一致性,這些都是強大的意圖理解能力和連續對話能力的表現。據了解,這些得益于其背后的公司輪子科技自主研發的基于貝葉斯網絡的 NLP 算法框架。該框架可以模擬人類因果認知系統,實現高理解準確度的語義解析 NLP 解決方案,因此才能如此出色地應對訂外賣等語義理解難度較高的場景。
可以預見的是,隨著用戶對語音交互接受程度的提高,大家的期望也會越來越高,會希望語音助手能夠協助我們更便捷地完成那些需要了解垂直領域才能完成的任務,而這正是玩秘等幾款語音助手正在努力的方向。這些語音助手致力于提高人們生活的便利程度,體現了人工智能的社會價值和實用價值,未來將有非常廣闊的發展空間。
本文來自微信公眾號,作者:,36氪經授權發布。
免責聲明:部分文章信息來源于網絡以及網友投稿,本站只負責對文章進行整理、排版、編輯,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內容的真實性,如本站文章和轉稿涉及版權等問題,請作者在及時聯系本站,我們會盡快為您處理。