March 10, 2007

[敲打鍵盤]標籤的生命週期

這一篇是我給數位文化誌的文章,於 2007/01/22 刊登在 http://mag.udn.com/mag/dc/storypage.jsp?f_MAIN_ID=2&f_SUB_ID=4&f_ART_ID=55855 。請注意,這一篇文章並不授權各位讀者任意作為商業使用。

標籤的生命週期

藉由網頁內容的語意處理及應用技術,我們能夠為標籤的產生及消滅訂出一個生命週期,讓物件間的關係以及使用者之間的關係,都能獲得更好的處理,而這也將會是 Web 2.0 世代中最為重要的核心關鍵技術之一。

Web 2.0 不是「努力讓別人來併購」的商業模式,而是著重於使用者自產內容導向的文化現象;使用者的參與決定了數位內容的生產、流通、分配與消費,服務提供商退居二線,藉由經營場域、氛圍以及機制牟利。很遺憾地,截至目前為止多數的分析及評論多半著重於如何炒短線(例如,如何努力讓別人來併購),卻甚少著墨在怎麼「經營」;這種態度很可能讓 Web 2.0 成為另一波達康泡沫,最後錢落入少數資本家的口袋中,而使用者的心血結晶化為飛灰。

為了避免這種事發生,我們此刻就應該開始從各種不同的角度,多多思考 Web 2.0 中所發生的事、以及所面臨的未來。說到 Web 2.0,一般人大概馬上會想到圓角框、「測試版」、AJAX 以及標籤雲;這些東西跟 Web 2.0 根本沒有必然關係,並不是所有的 Web 2.0 服務看起來都像那樣,也不是加上這些特點後就能讓原有的服務「升級」到 2.0。然而這些特點的確讓人們對於網頁服務有了新的感受,跳脫了生硬的框架與呆板的開發流程,藉由反應時間的縮短提高了互動介面的可用性,也讓「由下而上」的分類法得以實際採行。

沒錯,這個「由下而上」的分類法就是所謂的「標籤」,或稱後設分類,是由使用者各自用他們自己所認為適宜的關鍵字,對數位內容貼上標籤的做法。有別於先做好黃頁分類、再讓內容按部就班陳列其中的做法,使用標籤可以讓內容的分佈反映出使用者族群所關切的議題,比較重要的內容會獲得更多注意力,而沒人在乎的部分則不會白白浪費資源。

這樣子的一套方法要能運作順利,有個容易被忽略的前提:參與「貼標籤」的使用者必須要有某種默契,在心智上有著類似的思考模式。因為同樣的一個簡短字詞,放在不同的脈絡中時,就會有不同的意思;如果共同貼標籤的人們彼此思考的背景不同,那麼很容易就會用同樣的字詞來表達不同的概念──那麼對另一方來說,這時標籤中的「雜訊」就變多了。

舉個簡單的例子,當你想要找跟「花生」有關的內容,而按下了「土豆」這個標籤,結果冒出來一堆「馬鈴薯」,會作何感想?另一個極端的例子是,因為每個人會貼的標籤不盡相同,當多數的內容都各自被貼上了數百個標籤,那麼標籤雲就會陷入無法掌握的複雜之中,不再能保有其原始設計的優點。混雜著多種語言的標籤雲就更能突顯出這個問題了;因為語言間的翻譯從來不是一對一的對應關係,如何能夠混搭來自不同來源的資訊及標籤,就在此面臨著挑戰。

因為多數的人都會自認是「一般的普通人」,不會去懷疑這個前提的存在與否;但實際上每個人的思考脈絡卻往往有很大的差別,十個人可以有二十種想法,所以維繫「普通人」的社會模式,基本上是朝向「最少人覺得痛苦」的方向,鮮少能邁向「最多人感到滿意」。尤其當一套系統發展到龐大的規模──例如有三億名使用者的程度時,這一點就會格外明顯。

可是當我們在發展網路技術──尤其是 Web 2.0 技術──的時候,希望的卻是「讓最多人感到滿意」,所以我們得想個法子來解決前述的「雜訊」問題。這個法子就是讓標籤系統有生命週期,讓標籤能夠繼續成長;既然問題的癥結在於背景脈絡的差異,那麼最好的辦法就是讓標籤系統能夠處理並表達出這些脈絡。實際可行的做法包括在系統後端使用如 WordNet 之類的語意資料庫,或者是由人工介入編輯──這兩種方法其實在雅虎、穀歌等公司發展搜尋引擎技術的時候,都在著手進行了,並不是甚麼新領域,可是聽起來都很不像 Web 2.0 該有的辦法,因為他們或多或少都是由上而下的主宰。所以我們還有甚麼出路呢?

下一個答案其實就在這個問題中,呼之欲出。

方法是,讓使用者也能夠輕易地表達及利用他們自己的思考脈絡,也就是標籤之間的關連性。想像一下,當標籤不祇是單純的標籤,而能夠讓每個使用者經由視覺性的操作,維護自己的標籤偏好──標籤之間的歸類、層級、從屬、繼承、排斥或其他關連性,或者是由機器來學習每個使用者的偏好,從使用者的使用及操作歷程中演繹、歸類出此種偏好,而成為整個系統的一環,那麼當使用者瀏覽這些資訊時,系統也將能根據他們各自的偏好,吐出符合其期待與邏輯的結果。

讓標籤在正確的情境中產生,在正確的情境中保留,並在正確的情境中呈現;所有不在情境內的資訊其實就是雜訊,應該在處理的流程中讓他死亡──不過這些雜訊在其他的情境中也許就變成了資訊,這時就要讓他們復活。這整件事就是筆者所謂「標籤的生命週期」。

當數位內容日益膨脹,物件間的關係、人與人之間的關係都變得更為複雜時,這種網頁內容的「語意處理及應用」技術,將會是下一個核心關鍵技術,能掌握的人必定會成為新的山頭。

所發表
[創用 CC 授權條款]
標籤的生命週期〉由 Jedi 製作,所有內容如無特別聲明,一律以創用 CC 姓名標示 3.0 台灣版授權條款釋出。
相關文章:
歷史上的今天:
迴響
[ 1 : 靜態鏈結 ]

標籤因個人的定義不同往往會牽扯出一堆相關的標籤,同時也很難管理有時甚至會矛盾.

你說的WordNet語意工具應該是個不錯的解決辦法,但還沒接觸使用過.

忘幽谷 發表於 March 10, 2007 01:15 PM
[ 2 : 靜態鏈結 ]

Interesting idea.

I was actually implementing a blogroll tagging system to my blog and start using it. I found exactly what you point out, I have too many tags and hard to correlate them into a structure so I can search links more easily. Also, I start to notice some tags can mean different thing, depends on the context it's in.

BTW, your anti-spam plugin hate home-ip dot net? That's where my webserver is... using dynDNS.

admun 發表於 March 14, 2007 01:28 AM
[ 3 : 靜態鏈結 ]

Jedi你好:
我是来自北京的朋友.我是北京电子工业出版社的编辑李冰,很冒昧地给您发这封邮件,看了你的BLOG,希望能邀请你写作图书.我们一直关注WEB标准领域的图书,也始终走在出版的前沿.我们相继翻译出版了 http://www.broadview.com.cn/html/Webstandard/index.htm

http://www.broadview.com.cn/book.aspx?bookid={B6F91478-D790-4B15-AE47-521709B6CB5E}等书籍.

希望有机会请你写作!盼回复!
我的联系方式 bingbingzi@gmail.com
13810238018
北京电子工业出版社 高级编辑 李冰

由 李冰 發表於 April 12, 2007 05:13 PM
給我迴響吧!
個人資訊








是否記住個人資訊?



請依上圖輸入檢核碼:
迴響





Jedi.org: 部落格 | Weblog | 三太子 | 討論 | 網頁親和力 | 深入親和力 | 簡報原力:AV | 履歷 | @ | Flickr | tumblr | NSFW