您當前的位置:首頁 > 舞蹈

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

作者:由 機器之心 發表于 舞蹈時間:2020-11-24

在前段時間舉辦的「Search On」活動中,谷歌宣佈,BERT 現在幾乎為谷歌搜尋引擎上的每一個基於英文的查詢提供支援。而在去年,這一比例僅為 10%。

機器之心報道,機器之心編輯部。

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

BERT 是谷歌開源的一款自然語言處理預訓練模型,一經推出就重新整理了 11 項 NLP 任務的 SOTA 記錄,登頂 GLUE 基準排行榜。

具體到搜尋引擎來說,BERT 可以幫助搜尋引擎更好地理解 web 頁面上的內容,從而提高搜尋結果的相關性。BERT 模型中創新性的 Transformer 架構是一大亮點。Transformer 處理一個句子中與所有其他單詞相關的單詞,而不是按順序逐個處理。基於此,BERT 模型就可以藉助某個單詞前後的詞來考慮其所處的完整語境,這對於理解查詢語句背後的意圖非常有用。

2019 年 9 月,谷歌宣佈將 BERT 用到搜尋引擎中,但僅有 10% 的英文搜尋結果得到改善;2019 年 12 月,谷歌將 BERT 在搜尋引擎中的使用擴充套件到 70 多種語言。如今,這家搜尋巨頭終於宣佈:幾乎所有英文搜尋都能用上 BERT 了。

BERT 對於搜尋引擎意味著什麼?

作為自然語言處理領域裡程碑式的進展,BERT 為該領域帶來了以下創新:

利用無標籤文字進行預訓練;

雙向上下文模型;

transformer 架構的應用;

masked 語言建模;

注意力機制;

文字蘊涵(下一句預測);

……

這些特性使得 BERT 對於搜尋引擎的最佳化非常有幫助,尤其是在消除歧義方面。用上 BERT 之後,對於比較長、會話性比較強的查詢,或者在「for」、「to」等介詞比較重要的語句中,谷歌搜尋引擎將能夠理解查詢語句中詞的上下文。使用者可以用更加自然的方式進行搜尋。

此外,BERT 對於搜尋中的指代消解、一詞多義、同形異義、命名實體確定、本文蘊涵等任務也有很大的幫助。其中,指代消解指的是追蹤一個句子或短語在某個語境或廣泛的會話查詢中指代的是誰或什麼東西;一詞多義指同一個詞有多個義項,幾個義項之間有聯絡,搜尋引擎需要處理模稜兩可的細微差別;同形異義是指形式相同但意義毫不相同的詞;命名實體確定是指從許多命名實體中瞭解文字與哪些相關;文字蘊含是指下一句預測。這些問題構成了搜尋引擎面臨的常見挑戰。

在過去的一年,谷歌擴充套件了 BERT 在搜尋引擎中的應用範圍,「搜尋引擎營銷之父」Danny Sullivan 和 G-Squared Interactive 的 SEO 顧問 Glenn Gabe 等人在推特中介紹了谷歌搜尋的最近亮點。

在谷歌搜尋中,有十分之一的搜尋查詢拼寫錯誤。很快,一項新的變革將幫助我們在檢測和處理拼寫錯誤方面取得比過去五年更大的進步。

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

另一個即將到來的變化是,谷歌搜尋將能夠識別網頁中的單個段落,並將它們處理為與搜尋最相關的段落。我們預計這會改善 7%的 Google 搜尋查詢。

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

Search On 2020:谷歌可以索引一個網頁的段落,而不僅僅是整個網頁。新演算法可以放大一段回答問題的段落,而忽略頁面的其餘部分。從下個月開始。

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

使用人工智慧,我們可以更好地檢測影片的關鍵部分,並幫助人們直接跳到感興趣的內容,而不需要創作者手動標記。到今年年底,10% 的谷歌搜尋將使用這項技術。

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

此外,谷歌還表示,他們還應用神經網路來理解搜尋相關的子主題,當你搜索寬泛的內容時,這有助於提供更多樣化的內容。這項服務預計年底推出。

谷歌搜尋:幾乎所有的英文搜尋都用上BERT了

參考連結:

https://

searchengineland。com/go

ogle-bert-used-on-almost-every-english-query-342193

https://

searchengineland。com/a-

deep-dive-into-bert-how-bert-launched-a-rocket-into-natural-language-understanding-324522

https://

blog。google/products/se

arch/search-on/

標簽: bert  搜尋引擎  搜尋  谷歌  查詢