跳到主要內容區塊
電子商務技術
首頁 經驗分享 依技術別導覽

【網站優化】2017年新考驗:搜尋引擎新趨勢「自然語言機制」

2016-11-07  |  點閱 : 385 次

【網站優化】2017年新考驗:搜尋引擎新趨勢「自然語言機制」

隨著時間的演進,Google搜尋引擎在諸多工程師不斷改寫程式、導入更精準的演算法下,今日的搜尋引擎已能更能近乎精準地,滿足每一位使用者的搜尋需求,加上手機裝置行動運算在軟硬體上的不斷提升,搜尋引擎從被動的數據接收,逐步進展到主動收集可能的任何線索,將這些線索及時彙整,並在第一時間回應搜尋者的需求,這樣的一套執行思路,已然是每個人手機上的現在進行式。然而,Google工程師們並未就此感到滿足,他們深信搜尋引擎除了快速處理資料外,還可以更加具有人性,讓每一份搜尋結果資料,和人類情緒作結合,創造出更多的搜尋價值可能。在參入了人類感情的真實評價判斷後,SEO將不再只有「關鍵字」這個戰場;依循此思維,以下便是本文奠基於「更加人工智慧化的搜尋引擎」之發展方向,所要提出的四個關於Google未來將發展的「自然語言機制」,所需要注意的核心議題,不但是SEO前端從業人員在網站優化上的重要新知,也是關鍵字行銷人員在關鍵字廣告領域上,不可不讀的未來趨勢。
 
網站優化_自然語言機制

何謂自然語言機制(Natural Language Processing)?這是一個結合了語言學、統計學、程式語言的複合領域,由Gooole的工程師操刀,由程式語言領域主導,結合語言學與統計學的學理知識,為的是模擬出接近人類閱讀文字時,對於該文章會有的邏輯價值判斷,引擎工程師在這部分的努力方向,大致可以分為下列四個重點,藉由這四個點的相輔作用,達成其目的:

(1)字頻判定機制(TF-IDF)

該機制,以計量統計學為基礎,用以評估一個字詞(關鍵字),對於一份網頁文本是否具有重要性和代表性,藉由TF-字頻(term frequency),即一個字詞出現在一段文版中的頻率,其重要性會隨著它在文件中出現的次數呈現正比增加;而IDF-逆文件判定(inverse document frequency),即一個字詞(關鍵字)出現的頻率,會隨著它在整個文本的總字詞庫中,出現的頻率次數呈現IDF値反比下降;以上兩個指標會彼此制衡,去判讀出某字詞(關鍵字)對於某類網頁文版,是否具有代表性和重要性。 試舉一個較明顯的例子: 若我們針對「醫療健康議題」收集大量的網路頁面文本,並將這些文本,分別針對「冷水」、「養生」進行這兩個字,何者對於「醫療健康議題」較具代表性、重要性的判讀時,我們可以預期,藉由「養生」字詞在文本中的大量出現,並且在頻率上會很顯著地多過「冷水」;同時,「養生」字詞所出現的文本,在這些文本的字詞庫中,若能具有適中出現的次數,這個「養生」則相對於「冷水」,對於網路上海量的健康議題文本資料,更具有代表性和重要性。搜尋引擎在未來,便會藉由這個判定機制,不斷地去比較數億個字詞之間,對於數百萬種議題之文本,何者更具有代表性,再將這些比較後得出的結果,作為提供給搜尋使用者搜尋結果時,重要的參考數據。 而針對字頻判定機制(TF-IDF),要特別補充的一個重點是,TF-IDF在面對大量的網頁文版時,會自動過濾掉一些連接詞、感情詞、動作詞、語氣詞,而將專有名詞、事務性字詞(特別名詞),列為重要關注的字詞,將之收進每一個文版的字詞庫中。所以,面對這樣的搜尋引擎趨勢,SEO/關鍵字行銷產業之從業人員,未來勢必要作出相關的因應,特別在頁面佈局、重要標籤語法操作上,會面臨新一番的專業考驗。

(2)同義詞判定機制

談到「同義詞判定機制」這件事,對於Google搜尋引擎來說,其實已經不是新鮮事了,早在10年之前,Google官方就已經在網路世界上,藉由大量的實體文本(報紙、雜誌、書籍、辭典),以及蜘蛛蟲程式在網路世界大規模收集資料,開始了這項長期且需要耐心的多語言「字詞收集計畫」,藉由大量字詞的收集,及其所依附文本的內容,判定哪些字詞之間,具有同樣的指涉意涵。而根據非官方人士的推測,Google已經完成了世界各語言中,百分之70的同義詞判定工作,即使是近代人們口語上常見的熱門字詞,也都已經在Google的資料庫中收錄完成。 而面對Google 如此高完成度的字詞收集計畫,同時該計畫持續不斷的進行中,SEO/關鍵字行銷相關產業人員尤其需要注意的是,引擎在字海茫茫的網路世界中,對於「同義詞的收集作為」這回事,會對於Anchor text和Backlink所標住的字詞,特別敏感且高度關注,意即當我們在撰寫每一篇網頁文本、美一個Anchor text和Backlink內的文字時,更要去精準判定所要表達的意念,避免造成引擎在整體文版、關鍵字詞的意念判讀上,把它和其他非預期的意涵作連結,讓所操作的網站在SEO/關鍵字行銷的價值上,偏離了原本的規劃的方向。

關鍵字行銷_自然語言機制

(3)多字詞判定機制

此乃Google搜尋引擎,針對習慣性輸入兩種以上關鍵字的使用者,所開發出的機器思維邏輯。簡單的說,此一機制在思維上的核心意念即為:字詞的同時出現(Co-occurrence),當許多個各具意義的字詞,同時被輸入在搜尋框,按下Enter鍵進行搜尋時,此刻引擎該如何去判定,使用者此刻想要找尋的答案是甚麼,該列出哪些結果提供參考。這樣近似於長尾關鍵字的思維,藉由多字詞間組合起一個共同的意涵,也正是搜尋引擎未來會持續加強的部分。 特別值得一提的是,未來當某字詞是單獨被進行搜尋時,與某字詞是和其他字詞進行組合(以space 空白健隔開)時,在搜尋結果上會又更巨大的差異,因為搜尋引擎將會更加重視多字詞同時出現時,彼此的交互關連、字詞輸入的順序、地理地區性關鍵詞…等更精確的多字詞分析面向。

(4)字距關聯性機制

此一以字詞間物理距離為基礎的判讀機制,預計在未來將被加入搜尋引擎的演算法中,幫助搜尋引擎在廣泛收集網路資料的過程中,收集某個字詞(關鍵字),在各自存在的文本中,與其鄰近的字詞所組成的意念,越是距離較近的字詞,會被預期有越高度的關聯性,好比同樣出現在第一個段落內的兩個字詞,會被引擎預期設定為,比分別出現在第一段、第四段的兩個字詞,具有更高度的相關連可能性。如此又一個由搜尋引擎,在網路世界上長期抓取的大數據的結果,將會讓未來的網路搜尋排名,更加客觀化、公正化。 字距,以html上編碼間的物理距離為基底,還可以延伸到html 在編碼上的位階意涵指涉,比方:常被用來製作清單的ul,dl標籤,未來在搜尋引擎的認定上,會優先導入「同位階」、「同類別」之概念,同時結合Google常期推廣的網頁語意結構化,未來SEO/關鍵字行銷人員在執行專案時,若沒有對此一規範和趨勢有通透的認知,所能揮灑的空間將會更加有限,因為搜尋引擎只會更加的聰明,網頁是否存在著高排名的價值,將面臨演算法更嚴格的字距機制檢視。

SEO_網站優化_關鍵字行銷

自然語言機制下,「網站優化/網站規劃/關鍵字廣告」的未來挑戰

當人類試圖用程式語言,模擬人類閱讀文章時的思維時,除了程式語法端的專業知識外,其實還是不脫以人性為出發點的思維。一篇文章的好或壞、是否具有代表性或高搜尋價值、與某字詞(關鍵字)是否具有高度關聯性,得以在字海茫茫的網路世界,因為你在鍵盤上輸入某個字詞後,按下搜尋,而被call出來出現在搜尋結果畫面上,除了SEO語法上的專業操作外,還是得扎扎實實地針對該字詞之相關領域、產業、客群、商業模式,進行通盤深入的了解,方可佈局出同時符合引擎高排名認可、滿足該產業客戶需求的網頁內容。自然語言機制的發展,對SEO/關鍵字行銷產業來說,就像是制訂了更公平的遊戲規則,等同向黑帽SEO業者宣告了他們的末日;從另一個角度來看,自然語言機制在搜尋引擎上的推行,也是對現階段雖然擁有高排名、但內容卻極為空洞貧乏的老網站,發出警告暗示的動作。

然而,對於一路走來,皆腳踏實地扎實的SEO專家業者來說,因著自然語言機制的推展,執行起手上的網站規劃案時,心理只會更加篤定,語法操作上也更有力道。扎實遵守於Google的各項官方規範,秉持Google的企業核心理念:fair,雖然會讓你的網站優化、SEO/關鍵字廣告佈局工程更加艱辛繁複,但只要拉長時間去看,絕對是細水長流的正確經營態度。

上一筆 友善搜尋使用者『三大實務經驗公開』
下一筆 數位趨勢【網站設計】不只追求潮流更注重使用者體驗!
選擇偉瑟
5大理由
政府肯定
關於偉瑟
成長歷程
專業團隊
服務︱方案
全方位服務
網站設計
RWD 設計
網站代管
關鍵字廣告
網站優化
無障礙網站設計
成功案例
政府網站
學校網站
企業網站
手機網站
系統網站
研討會網站
關鍵字網站
經驗分享
電子商務技術
網際網路產業
客服︱會員
常見問題
會員方案
加入會員
會員登入
忘記密碼
人力資源
職缺公告
薪酬 | 福利
外包︱合作
聯絡我們
全省聯絡方式
線上詢價表單
業務簡報
客戶登入
線上demo
投標合作
成功案例
合作說明
演講邀請
講師介紹
演講邀請