在一篇題為《瞬間法學碩士:有限內存下的高效大型語言模型推理》的論文中,研究人員設計了一種系統(tǒng),可以將模型數(shù)據(jù)(通常存儲在設備 RAM 中)存儲在固態(tài)驅動器 (SSD) 上。
論文地址:
具體來說,研究證明,在 SSD 上運行的 LLM 的大小最多可達可用 DRAM 大小的 2 倍。
與傳統(tǒng)CPU加載方式相比,推理速度提升4-5倍,GPU提升20-25倍。
他們發(fā)現(xiàn),通過利用設備上最便宜的存儲空間,模型可以運行得更快、更高效。
此外,蘋果研究人員還創(chuàng)建了一個名為 EELBERT 的系統(tǒng),可以將大型模型壓縮為較小的尺寸,而不影響其性能。
壓縮Google Bert模型后,大小減少了15倍,僅為1.2兆字節(jié),質量僅降低了4%。
然而,這也帶來了一些延遲問題。
論文地址:
總而言之,蘋果正在試圖解決機型領域的一個核心矛盾:機型越大越好用,但耗電量更大,在終端上運行速度也更慢。
與其他科技公司一樣,蘋果也在這方面尋求平衡。
Siri完成超級進化!
蘋果對人工智能的研究最終解決了一個關鍵問題,即如何讓 Siri 變得更好。
在內部,蘋果團隊設想開發(fā)一種使用人工智能助手的方法,而不需要喚醒詞“Hey Siri”或“Siri”。
沒有聲音提示蘋果有哪些產(chǎn)品,那么設備如何通過“直覺”判斷是一個人在說話呢?
這個問題比語音觸發(fā)檢測更具挑戰(zhàn)性。
蘋果研究團隊不得不承認,這是因為可能沒有一個主要觸發(fā)器來標記語音命令的開始。
論文地址:
這可能就是為什么另一組研究人員開發(fā)了一種可以更準確地檢測喚醒詞的系統(tǒng)的原因。
論文地址:
具體來說,作者提出了一種語音觸發(fā)(VT)多通道聲學模型,其中前端多通道輸出直接輸入到VT模型中。
他們采用了TAC(Transform-Average-Conatenate)模塊,并通過合并傳統(tǒng)通道選擇中的通道進行修改,使得模型在存在多個說話人的情況下能夠聚焦于目標說話人。
與基線信道選擇方法相比,該方法的誤拒絕率降低了30%。
在另一篇論文中,研究人員訓練了一個模型,以更好地理解人工智能助手不太容易理解的罕見單詞。
論文地址:
在這兩種情況下,LLM 的優(yōu)點在于理論上它可以更快地處理更多信息。
例如,在一項關于喚醒詞的研究中,研究人員發(fā)現(xiàn),如果他們不是試圖扔掉所有不必要的聲音,而是將所有聲音輸入模型并讓它處理哪些聲音重要,哪些聲音不重要,那么喚醒詞這樣的話效果就會可靠很多。
一旦 Siri 聽到你的聲音蘋果有哪些產(chǎn)品,Apple 就會做大量工作來確保它能夠更好地理解和溝通。
在另一篇論文中,蘋果還開發(fā)了一個名為 STEER 的系統(tǒng),旨在改善用戶和助手之間的溝通。
論文地址:
在另一個例子中,它使用LLM來更好地理解“模棱兩可的問題”,無論你說什么,它都能弄清楚你的意思。
在不確定的情況下,智能會話代理可能需要主動提出好問題,以更有效地解決問題,從而減少不確定性。
在另一篇也旨在幫助解決這個問題的論文中,研究人員利用大型模型使助手在生成答案時更加簡潔、更容易理解。
每一款蘋果應用都將被AI重構
除了注重原創(chuàng)技術開發(fā)外,蘋果還非常注重人工智能的日常應用。
對于蘋果來說,重點關注的領域之一是健康:
LLM可以幫助分析和處理各種設備收集的大量生物識別數(shù)據(jù),并幫助理解這些數(shù)據(jù)。
Apple 可以通過研究收集和整理你的所有運動數(shù)據(jù),使用步態(tài)識別和耳機來識別你的身份,并跟蹤和了解你的心率數(shù)據(jù),以監(jiān)測你的身體狀況并為你提供適當?shù)陌踩ㄗh。
蘋果還將人工智能視為一種創(chuàng)造性工具。
在 2 月份發(fā)表的一篇論文中,蘋果團隊采訪了一組動畫師、設計師和工程師,并構建了一個 KeyFramer 系統(tǒng)。
該系統(tǒng)允許用戶迭代地構建和改進生成的設計。
用戶只需先輸入提示,然后獲取工具包即可根據(jù)自己的喜好調整和完善圖像的某些部分。
論文地址:
此外,蘋果還開發(fā)了一款名為 MGIE 的工具,可以讓你通過描述內容來編輯圖片(例如“讓天空更藍”、“讓我的臉不那么怪異”、“添加一些巖石”等)。
論文地址:
研究人員在論文中表示,MGIE 可以清晰地推斷出視覺感知的意圖,而不需要簡短但模糊的提示,從而實現(xiàn)合理的圖像編輯。
“最初的實驗并不完美,但令人印象深刻?!?/p>
未來,蘋果也可能將AI運用到音樂中。
在一篇名為“資源受限的立體聲歌唱聲音消除”的論文中,研究人員探索了將歌曲中的聲音與樂器分開的方法。
論文地址:
例如,這種人工智能可能會在混音 TikTok 或 Instagram 上的歌曲時派上用場。
隨著時間的推移,蘋果會將一些功能構建到自己的iOS生態(tài)系統(tǒng)中,并以API的形式提供給第三方開發(fā)者。
蘋果之前一直在大肆宣傳其硬件功能,尤其是與普通的 Android 設備相比。
將所有這些功能與設備上注重隱私的人工智能相結合可能會成為蘋果的一大差異化因素。
這次iOS 18來了,網(wǎng)友們對蘋果一如既往地充滿期待。
值得一提的是,蘋果對多模態(tài)大模型的研究也引起了不少關注。
Ferret 是蘋果最大、最雄心勃勃的人工智能項目。輸入提示后,它可以專注于您選擇的特定事物并理解周圍的世界。
論文地址:
Ferret 甚至可以幫助您瀏覽應用程序、回答有關 App Store 評級的問題、描述您正在觀看的內容等等。
這項技術一旦應用,可能會徹底改變大家使用手機的方式,以及Vision Pro和智能眼鏡的使用方式。
雖然目前還只是研究成果,但如果能在今年春天順利運行,那將是一個聞所未聞的技術成就。
WWDC大會上即將發(fā)布的大規(guī)模人工智能模型,勢必將科技狂歡推向新的高潮。
蘋果可能會徹底改造其 iPhone 產(chǎn)品,這意味著你的下一部 iPhone 不一定是 iPhone。
這一切都在庫克的預料之內,讓我們拭目以待。
本文來自微信公眾號“新智元”(ID:AI_era),作者:桃子亨利??,36氪經(jīng)授權發(fā)布。