下一個革命性的人機互動方式會是什麼？

作者：由 David Chang 發表于體育時間：2014-09-15

知乎使用者2018-11-14 19:01:12

我只分析分析，不做任何預測~

1。首先我們來下個定義

這個題目吼大，我覺得一開始需要對“革命性”有個相對清晰的定義。

什麼是革命性的人機互動方式？我覺得是新場景下人與資訊世界交流時使用的與現在完全不同的行為模式。

從微觀上，也就是從互動方式上看，這幾十年來有兩個明顯的革命性人機互動方式：（1）操控計算機從DOS指令到用滑鼠進行圖形介面的操作（2）操控手機從物理按鍵到多點觸控（這裡需要強調“多點”，多點觸控和單點觸控革命性意義完全不同，正如幾十年前PDA早已是觸控屏但流行不起來，但iPhone一出來便風靡全世界）。儘管我們還有各種語音互動手勢互動的發展，但目前為止這兩個革命性的互動塑造了我們今天資訊時代的生活：我們用移動和點選滑鼠+敲打鍵盤操作電腦，我們用手指操作手機/平板——來與資訊世界溝通。

兩個顯著的革命性互動

我們簡單分析這兩個互動革命的異同，會發現一個重要的點：人操作資訊物體的方式越來越直觀和自然：打命令列刪除檔案不如直接把檔案拖進回收站，點選放大鏡放大照片不如兩個指頭向外一拉。

從宏觀上看，也就是從人的生活上看，所謂革命性，應該是滲透到日常，滲透到每種行業和群體、每個年齡層、每個人。現在幾乎每個腦力勞動從業者或學習者都需要使用電腦，幾乎每個有社交需求的人都需要使用手機。就討論人機介面/介面而言，產生革命性互動的裝置和人機介面一定是人人都能有並且隨處能使用——人數量+空間與時間維度的貫穿才有革命的資本，這意味著它可能會更加輕便、易攜、甚至看不見。

而場景也可以從宏觀考慮：二十年前我們會下樓和小夥伴玩，但現在很多孩子會選擇坐在電腦前上網、玩遊戲；二十年前我們在公車通勤時睡覺想事情發呆，但現在大家在地鐵上刷手機——都是這兩個革命性互動帶來的新社會場景。而下一個革命性的人機互動方式，必然也會出現一個和現在完全不同的人人都有的新場景。

人與資訊世界互動場景（圖片未找到出處，侵刪）

那經過簡單的分析彷彿可以對“革命性的人機互動方式”下個定義了：

【Human維度】人使用更加符合現實世界的直覺且自然的行為

【Computer維度】計算載體可以隨處使用，私有化更強，更小輕便、易攜（但必須提供有效的output，例如視覺介面，聽覺介面，觸覺介面。。。）

【Scene維度】幾乎人人都會用，人人都在用，日常生活必不可少，社會的新場景

2。我們拿這個定義分析一下現有的答案

那麼，如果大體能夠認同這個定義的方向，我們可以來分析一下現有的大家的一些觀點：

“基於手指操作的”/“和手有關”：

。。。我理解這只是說了某種用作輸入的身體部位，不算是互動。其實用手指操作的互動有無數種。

“我希望手持裝置擁有視覺”：

描述的是一個概念，也不是互動，怎麼和這個有視覺的手持裝置溝通，才是人機互動方式。。。

“

場互動”：

雖然有互動兩個字，但描述的還是一個概念。所謂場互動，其實我理解就是Situated Interaction ［1］，或者更廣義一點，Ubiquitous computing 普適計算，雖然我也很好看它的革命性，但它依然不算是某種互動方式。在普適計算的語境下，人怎麼和裝置們交流，才是人機互動方式。

“大尺寸螢幕的互動”：

從互動方式角度來說，它也很泛。前面回答只定義了輸入部位，這個回答只說了人機介面是什麼。但從我們的定義中也能發現這個答案想表達的互動可能成為革命的可能性不大，首先不會每個人隨時隨地都搬出一個大螢幕，使用場景很有限；就算螢幕是投影的而不是物理的，那麼每個人都需要很大的空間來操作或者放置螢幕；地鐵上大家想要看個新聞咋辦“誒哥們，你操作到我的螢幕了”。但換句話說，拋開我們所下的定義，如果是在同位協同工作場景中，它很可能會成為主流。

“語音互動”：

算是一個互動方式了，並且很自然很直覺，人人都會，成本也很低，並且攜帶的設裝置可以很小（例如電影《Her》描繪的）。儘管我們會考慮很多技術問題，比如複雜語義和情感的處理，但先拋開不談的話，語音真是個很不錯的互動方式。有人會說，公眾場合下用語音是件奇怪的事情，所以語音互動物理場景只能是在私人空間中。其實這是一個很社會心理學的問題，如果未來社會出現的新場景是，每個人都在對著自己裝置言語，那麼在公眾場合你使用語音互動也會很自然了。當然，在安靜的環境下，確實得有輔助的互動方式存在。

“腦互動”：

算是比較未來感的互動方式，我認為它一定是“革命性”的，但不會是“下一個”。人腦和計算機其實早就可以傳遞、接受、控制一些簡單的資訊了，但還十分不穩定，無法進行復雜的互動，在人腦還沒研究透徹的今天，它離尋常百姓都能無障礙使用的場景可能還很久很久。。。［2］

。。。。。

3。現有答案不滿意，那我們從定義出發再思考一圈

感謝大夥兒提供了很多有趣的思路。現在讓我們從定義出發重新思考這個問題。我們拿剛剛定義的維度，與目前主流的也就是上一波革命帶來的互動方式——螢幕多點觸控相比較。

滿足“人操作比現在更自然和符合直覺”的條件，在未來五年有技術成熟的可能性：

我們用目光來表達聚焦和感興趣甚至溝通（Gaze-based Interaction）

我們用語言來和人交流：語音互動（Voice Interaction）

我們在現實世界中操作物體的方式很三維，會拿前拿後放上放下還會旋轉，而不像手機介面一樣只能在平面上拉動拖拽（3D Interaction / Tangible Interaction）

滿足“計算載體隨處使用，輕便且私有化”的條件，在未來五年有技術成熟的可能性：

一個類似藍芽耳機的智慧裝置可以只讓你聽到聲音（周圍人聽不到）

一個類似於眼睛或者投射在視野前的智慧裝置可以只看你看到畫面（周圍人看不到）

一個貼上在手臂、手背或者是手指上的柔性介面裝置

說到這裡問題又來了，我們曾經用手指可以很簡單的進行資訊物體的選擇+操作，而剛剛提到的這些可能性好像並不像手指操作這麼簡單。比如用計算機說“C4單元格”遠沒有直接手指一點它來的方便（心疼TNT一秒），用眼睛去刪除一條資訊也遠沒有手指操作方便。到這裡，很多答友就下了結論“手指精確度最高！成本最低，未來還是用手指來操作！”。前半句我同意，至於後面嘛，我覺得需要補充一下一個我們可以討論這個話題的基礎——多模態互動（Multi-Modal Interaction）。

4。多模態互動可能是基礎

模態是什麼？通俗來說人身體和世界交流的基本渠道都可以稱為模態：視覺、聽覺、觸覺、味覺，甚至從某種程度說手勢和肢體語言都可以。。。

每個模態有它本身的優勢和缺點，例如選擇一個物體，看一下它遠比手指點選它高效得多；執行一個複雜操作，用白話表達你的意圖遠比自己拆解成步步的手或者滑鼠的操作高效得多。（所以例如類似TNT的使用場景，可能更多的是“把這些資料的平方差算出來”，而不是“選擇C4到C8，然後。。。”）。

我們回到現實生活，你會發現人和外界交流時一定是多模態互動的，和人交流你要看要聽要說，挑選衣服你要看要摸要聞。多模態互動帶來的不僅是資訊更加精確和全面，還有自然和符合習慣的感覺。

多模態人機互動流程環［3］

5。來，繼續開腦洞

說完多模態互動，再回到我們剛剛說的互動可能性。既然我們要與微小的計算機裝置上進行，在視覺模態受限的情況下（因為小螢幕，或者沒有螢幕，或者是非物理螢幕），我們可以利用其它模態來補充，並且發揮各個模態的優勢。如果我們把和資訊體的互動簡化成

“選擇-簡單處理-複雜操作”

的流程，

那麼眼動互動可以用於選擇，手指可以使用者簡單處理，語音可以用於複雜操作

。這麼一組典型的多模態互動的流行，可能會出現在不遠的將來。

那麼我們可以想想可能的場景了：

地鐵早高峰期間每個人都在忙著自己的事情：他們站著坐著，眼睛都在動。它們透過眼睛的位移和凝視時間等操控只有他們能看到的裝置介面（裝置：也許是眼鏡，也許是某種更輕便的AR裝置）。查公交、查路線、看天氣、看日程一氣呵成，不用再低頭。聽音樂的人想要切到下一首歌，用右手食指在左手手背上向右一搓（裝置：左手手背上貼上著柔性觸控介面），向上一搓調大音量。業務繁忙的人嘴裡小聲說“幫我check一下昨天Steve的郵件”，隨即郵件內容呈現在戴著的眼鏡上。

感覺說不清楚畫一下好惹

（左）用眼動進進行選擇和瀏覽，語音進行復雜互動（右）用手指進行簡單互動

發揮各個模態的優勢去模擬人的自然互動行為，並且支援複雜的操作，是我覺得成為下一個革命性的人機互動方式的基礎。

當然我多模態互動的組合無窮多，根據場景的不同能發揮不同的潛力，因為思考廣度有限，我就只提供了一種可能性啊哈。

最後還是想再說明一下很多人的觀點和疑問 “未來人不需要主動互動，因為計算機會根據場景的變化和人的需求自然而然的提供人需要的服務。” 是的沒錯，不論是普適計算還是場景智慧，不論是物聯網生活空間還是智慧城市，這個趨勢一定是在的並且一定會達到（我的答案其實也是建立在穩定的場景智慧、增強現實技術、語音識別技術、柔性材料普及下）。但這種場景下，人需要去做什麼？人怎麼和資訊世界交流？是這個問題需要的解答。當我們不在描述下一個革命性的場景，而是在分析在下一個革命性的場景下，人會有哪些完全不同的行為的時候，也許我的這個答案會有幫助~

參考資料

［1］ Schmidt， Albrecht， Walter Van de Velde， and Gerd Kortuem。 “Situated interaction in ubiquitous computing。”CHI‘00 extended abstracts on Human factors in computing systems。 ACM， 2000。

［2］ Millán， José del R。， et al。 “Combining brain–computer interfaces and assistive technologies： state-of-the-art and challenges。” Frontiers in neuroscience 4 （2010）： 161。

［3］ Dumas， Bruno， Denis Lalanne， and Sharon Oviatt。 “Multimodal interfaces： A survey of principles， models and frameworks。” Human machine interaction。 Springer， Berlin， Heidelberg， 2009。 3-26。

Chris Lex2019-09-07 16:29:40

答：實體/物理介面與數字化相結合是一個值得探索的方向，終極形式則是寧靜技術（Calm technology）所倡導的“隱匿”的介面。

首先，實體介面的優點是數字化介面不具備的：傳統紙張等實體介面能帶給我們的觸控感，而這種這種觸覺刺激，能夠給人的大腦以更強烈的意識感和體驗感。螢幕的未來應該是融合物理和數字體驗。這裡舉一個案例：日本富士通實驗室的一個探索。透過在紙張等實體介面上增強觸控介面，實現真實世界和虛擬世界之間的無縫資料傳輸：

https：//www。zhihu。com/video/1153704373824634880

這個系統透過提取手指的顏色和輪廓特徵來識別使用者手指的形狀。其他控制相機影象的顏色和照明，具體取決於周圍的環境光。糾正單個手指之間差異的技術可以穩定地提取使用者的手指，這樣手指受環境和個體變化的影響最小：

透過增強使用者指尖的影象，該系統能夠獲得足以進行觸控檢測的精度級別，該技的指尖跟蹤速度為每秒300毫米/秒，從而能夠遵循自然手指運動。

而隨著普適計算（Ubiquitous computing）的發展，我認為人機互動介面的終極形式還是寧靜技術（Calm technology）所倡導的“隱匿”的理念。“技術應無縫地融入我們的生活，而不是讓我們時時感到技術的戰慄與恐懼；我們不會消失在電腦空間中，而是電腦將消失在我們的生活當中。在平靜互動（calm interaction）中，人們不會一直遭受資訊“轟炸”，而會因為互動而感到“安心”。出色的互動設計讓人們可以用最少的精力實現目標。

無印良配 mui：嵌入到自然木材質內的感測器與顯示

寧靜技術（Calm technology）這一理念認為：影響最深遠的技術應該是隱匿不見的，它們如纖維般融入日常生活，絲絲入扣，直至不可分辨。舉例來說，一雙舒適的鞋子、一支好用的鋼筆，乃至星期天早晨給訂報的家庭送《紐約時報》這樣的活動，它們在技術含量上絲毫不遜於個人計算機。為什麼前者常常令人平靜，而後者卻常常令人暴怒呢？我們認為其中的差異就在於它們佔用注意力的方式不同。

寧靜技術的實現有賴於普適計算的普及，普適計算又稱普存計算、普及計算（英文中叫做pervasive computing或者Ubiquitous computing）這一概念強調和環境融為一體的計算，而計算機本身則從人們的視線裡消失。在普適計算的模式下，人們能夠在任何時間、任何地點、以任何方式進行資訊的獲取與處理。

舉個例子，雖然我們還沒有意識到，我們已經生活在聯網裝置時代，比如，我們很少閱讀關於洗衣機的文章，也不太會去參加洗衣機技術大會。但是，這樣的裝置就在我們身邊。為它們提供動力的是第一種普適技術：電。電已經融入我們的環境，所以我們只能看到它對其他技術的影響。如果計算機和其他裝置能像電一樣隱於無形，不需要任何維護，那麼世界會是什麼樣子呢？韋澤和布朗所設想的技術會讓我們迴歸生活而不是脫離生活，會給我們帶來歡樂而不是焦慮，會培養人際關係，會讓我們更有人性。在他們所預見的世界裡，我們把技術當作工具，而不是被技術奴役；我們用技術進行創造，而不是消費；技術不再是我們前進路上的障礙，而是我們與生活中最重要的事情之間的紐帶；技術讓我們迴歸自我，並重新與他人聯絡在一起。同理，對於手機、電腦等智慧產品的介面而言，未來硬生生的UI介面越來越少，反而介面會融入到我們的生活當中。

寧靜技術（Calm technology）對未來介面的描述：普適計算更加智慧，介面已經融入到我們生活當中去。我們需要做的可能僅僅是一個手勢，一句語音回覆。沒有必要像現在這樣每天花大把時間面對著幾寸的手機螢幕

參考：

https：//www。

fujitsu。com/us/products

/computing/peripheral/scanners/fcpasolutions/capturepro/

王亞輝2019-09-08 21:25:18

人機互動的本質，仍然是透過智慧化及數字化互動技術，進一步加強和延伸人與周圍事物的自然互動能力。所有人機互動方式都是在擴充套件人的感覺和知覺能力，從而實現自然流暢的互動。

目前的互動技術很多，以觸屏為主的

實體介面互動

［1］

佔據目前的主流地位，

語音互動逆勢而上

，正在智慧家居、車機等應用領域大展拳腳，眼動互動、手勢互動、腦電波互動、VR、AR和MR等技術也在某些特定領域發揮著重要的作用。

先引入一個概念：

從“被動互動”到“主動互動”

人工智慧時代到來，人與機器的關係、人與資料的關係、人與資訊的關係在發生著本質的變化，在這個數字化的智慧時代，傳統的

基於從命令到反饋的人機互動方式

正在被打破。被動互動的邏輯很簡單，由人給機器發號施令，機器執行並輸出結果反饋給人。

整個過程直接高效，但是並不智慧。

GUI

基於大資料並融合多感測器資訊的

“主動互動”，與被動互動相反，由機器為起點，主動輸出執行結果或使用建議給使用者，使用者根據結果或提供的建議完成具體的互動任務，在這個過程中，機器透過分析感測器獲得的大資料資訊，主動的從外界的資訊中做出判斷，

計算出使用者在當前情境下使用者需要的資訊，不再需要人來輸入或下達命令，而這個過程的輸入和輸出完全由機器來完成。

下面影片是對我理解AI與HCI比較有啟發性的影片，分享給大家！