何謂自然語言機制(Natural Language Processing)?這是一個結合了語言學、統計學、程式語言的複合領域,由Gooole的工程師操刀,由程式語言領域主導,結合語言學與統計學的學理知識,為的是模擬出接近人類閱讀文字時,對於該文章會有的邏輯價值判斷,引擎工程師在這部分的努力方向,大致可以分為下列四個重點,藉由這四個點的相輔作用,達成其目的:
(1)字頻判定機制(TF-IDF)
該機制,以計量統計學為基礎,用以評估一個字詞(關鍵字),對於一份網頁文本是否具有重要性和代表性,藉由TF-字頻(term frequency),即一個字詞出現在一段文版中的頻率,其重要性會隨著它在文件中出現的次數呈現正比增加;而IDF-逆文件判定(inverse document frequency),即一個字詞(關鍵字)出現的頻率,會隨著它在整個文本的總字詞庫中,出現的頻率次數呈現IDF値反比下降;以上兩個指標會彼此制衡,去判讀出某字詞(關鍵字)對於某類網頁文版,是否具有代表性和重要性。 試舉一個較明顯的例子: 若我們針對「醫療健康議題」收集大量的網路頁面文本,並將這些文本,分別針對「冷水」、「養生」進行這兩個字,何者對於「醫療健康議題」較具代表性、重要性的判讀時,我們可以預期,藉由「養生」字詞在文本中的大量出現,並且在頻率上會很顯著地多過「冷水」;同時,「養生」字詞所出現的文本,在這些文本的字詞庫中,若能具有適中出現的次數,這個「養生」則相對於「冷水」,對於網路上海量的健康議題文本資料,更具有代表性和重要性。搜尋引擎在未來,便會藉由這個判定機制,不斷地去比較數億個字詞之間,對於數百萬種議題之文本,何者更具有代表性,再將這些比較後得出的結果,作為提供給搜尋使用者搜尋結果時,重要的參考數據。 而針對字頻判定機制(TF-IDF),要特別補充的一個重點是,TF-IDF在面對大量的網頁文版時,會自動過濾掉一些連接詞、感情詞、動作詞、語氣詞,而將專有名詞、事務性字詞(特別名詞),列為重要關注的字詞,將之收進每一個文版的字詞庫中。所以,面對這樣的搜尋引擎趨勢,SEO/關鍵字行銷產業之從業人員,未來勢必要作出相關的因應,特別在頁面佈局、重要標籤語法操作上,會面臨新一番的專業考驗。(2)同義詞判定機制
談到「同義詞判定機制」這件事,對於Google搜尋引擎來說,其實已經不是新鮮事了,早在10年之前,Google官方就已經在網路世界上,藉由大量的實體文本(報紙、雜誌、書籍、辭典),以及蜘蛛蟲程式在網路世界大規模收集資料,開始了這項長期且需要耐心的多語言「字詞收集計畫」,藉由大量字詞的收集,及其所依附文本的內容,判定哪些字詞之間,具有同樣的指涉意涵。而根據非官方人士的推測,Google已經完成了世界各語言中,百分之70的同義詞判定工作,即使是近代人們口語上常見的熱門字詞,也都已經在Google的資料庫中收錄完成。 而面對Google 如此高完成度的字詞收集計畫,同時該計畫持續不斷的進行中,SEO/關鍵字行銷相關產業人員尤其需要注意的是,引擎在字海茫茫的網路世界中,對於「同義詞的收集作為」這回事,會對於Anchor text和Backlink所標住的字詞,特別敏感且高度關注,意即當我們在撰寫每一篇網頁文本、美一個Anchor text和Backlink內的文字時,更要去精準判定所要表達的意念,避免造成引擎在整體文版、關鍵字詞的意念判讀上,把它和其他非預期的意涵作連結,讓所操作的網站在SEO/關鍵字行銷的價值上,偏離了原本的規劃的方向。(3)多字詞判定機制
此乃Google搜尋引擎,針對習慣性輸入兩種以上關鍵字的使用者,所開發出的機器思維邏輯。簡單的說,此一機制在思維上的核心意念即為:字詞的同時出現(Co-occurrence),當許多個各具意義的字詞,同時被輸入在搜尋框,按下Enter鍵進行搜尋時,此刻引擎該如何去判定,使用者此刻想要找尋的答案是甚麼,該列出哪些結果提供參考。這樣近似於長尾關鍵字的思維,藉由多字詞間組合起一個共同的意涵,也正是搜尋引擎未來會持續加強的部分。 特別值得一提的是,未來當某字詞是單獨被進行搜尋時,與某字詞是和其他字詞進行組合(以space 空白健隔開)時,在搜尋結果上會又更巨大的差異,因為搜尋引擎將會更加重視多字詞同時出現時,彼此的交互關連、字詞輸入的順序、地理地區性關鍵詞…等更精確的多字詞分析面向。(4)字距關聯性機制
此一以字詞間物理距離為基礎的判讀機制,預計在未來將被加入搜尋引擎的演算法中,幫助搜尋引擎在廣泛收集網路資料的過程中,收集某個字詞(關鍵字),在各自存在的文本中,與其鄰近的字詞所組成的意念,越是距離較近的字詞,會被預期有越高度的關聯性,好比同樣出現在第一個段落內的兩個字詞,會被引擎預期設定為,比分別出現在第一段、第四段的兩個字詞,具有更高度的相關連可能性。如此又一個由搜尋引擎,在網路世界上長期抓取的大數據的結果,將會讓未來的網路搜尋排名,更加客觀化、公正化。 字距,以html上編碼間的物理距離為基底,還可以延伸到html 在編碼上的位階意涵指涉,比方:常被用來製作清單的ul,dl標籤,未來在搜尋引擎的認定上,會優先導入「同位階」、「同類別」之概念,同時結合Google常期推廣的網頁語意結構化,未來SEO/關鍵字行銷人員在執行專案時,若沒有對此一規範和趨勢有通透的認知,所能揮灑的空間將會更加有限,因為搜尋引擎只會更加的聰明,網頁是否存在著高排名的價值,將面臨演算法更嚴格的字距機制檢視。自然語言機制下,「網站優化/網站規劃/關鍵字廣告」的未來挑戰
當人類試圖用程式語言,模擬人類閱讀文章時的思維時,除了程式語法端的專業知識外,其實還是不脫以人性為出發點的思維。一篇文章的好或壞、是否具有代表性或高搜尋價值、與某字詞(關鍵字)是否具有高度關聯性,得以在字海茫茫的網路世界,因為你在鍵盤上輸入某個字詞後,按下搜尋,而被call出來出現在搜尋結果畫面上,除了SEO語法上的專業操作外,還是得扎扎實實地針對該字詞之相關領域、產業、客群、商業模式,進行通盤深入的了解,方可佈局出同時符合引擎高排名認可、滿足該產業客戶需求的網頁內容。自然語言機制的發展,對SEO/關鍵字行銷產業來說,就像是制訂了更公平的遊戲規則,等同向黑帽SEO業者宣告了他們的末日;從另一個角度來看,自然語言機制在搜尋引擎上的推行,也是對現階段雖然擁有高排名、但內容卻極為空洞貧乏的老網站,發出警告暗示的動作。然而,對於一路走來,皆腳踏實地扎實的SEO專家業者來說,因著自然語言機制的推展,執行起手上的網站規劃案時,心理只會更加篤定,語法操作上也更有力道。扎實遵守於Google的各項官方規範,秉持Google的企業核心理念:fair,雖然會讓你的網站優化、SEO/關鍵字廣告佈局工程更加艱辛繁複,但只要拉長時間去看,絕對是細水長流的正確經營態度。