SITCON 參與心得|從屏東出發,看見語言模型的另一面

4.8k 詞
0 瀏覽次數

SITCON 參與心得|從屏東出發,看見語言模型的另一面

這次參加 SITCON,對我來說不只是去聽幾場技術議程而已,更像是一次把自己從日常學習環境中抽離、重新看見資訊領域樣貌的機會。

平常待在屏東,能接觸到的活動、社群與現場交流機會,本來就和北部有明顯落差。很多時候,網路上的文章、影片、論文當然也能學習,但那種「人在現場」的感受其實完全不同。親自走進會場、聽講者分享、看到台下聽眾的反應、感受到整個社群對技術議題的熱情,這些東西不是只靠看轉播就能完全取代的。

所以這次能夠參與 SITCON,我最想先說的,其實是感謝。

特別感謝 SITCON 提供遠道而來的補助,讓像我這樣從屏東出發的學生,也有機會到現場接觸這麼高品質的議程內容。這不只是減輕交通與參與上的負擔而已,更重要的是,它真的讓不同地區的學生有機會站在同一個場域裡學習、思考與交流。對我來說,這份補助不只是資源上的幫助,而是一種很實際的支持:讓我知道即使人在南部,也一樣可以被接住,也一樣有機會靠近這些前沿的技術討論。

也很謝謝主辦方籌備這場活動。從議程安排、主題深度,到整體社群氛圍,都能感受到這不是一場只是把人聚在一起的活動,而是一個真的希望讓大家交流、思辨與成長的技術場域。能夠參與其中,我很珍惜。

而在這次的所有議程中,我最有感的兩場,分別是:

  1. 透視 AI 抓內鬼:以注意力防範提示注入
  2. 語言模型的認知、認同與對齊

這兩場表面上切入角度不同,一場偏 AI 安全與攻擊防禦,一場偏模型行為、價值塑形與對齊問題;但聽完之後,我反而覺得它們都指向同一件事:

語言模型不是只要會用就好,更重要的是要知道它為什麼會這樣運作。


一、整體參與心得:SITCON 讓我重新感受到「資訊社群」的力量

這次參加 SITCON,我最大的感受之一,是我重新感受到資訊社群的密度與能量。

平常自己學技術時,很容易把注意力放在「我要學哪個工具、我要做哪個專案、我要把哪篇論文看懂」。但到了現場之後,我反而更明確感受到,技術不是只有工具本身,還包含很多更深的東西:

  • 有人在思考模型安全怎麼做得更扎實
  • 有人在思考語言模型的偏見與對齊問題
  • 有人在做系統、做研究、做社群
  • 也有人在試著把困難的東西講清楚,讓更多人能進來理解

這種感覺很重要,因為它會提醒我:資訊不是只是在電腦前面寫程式而已,而是一整個持續發展、彼此交流、互相推進的領域。

而且我覺得 SITCON 很好的地方,是它不是只有很表面的「技術新知展示」,而是真的有不少議程在處理本質問題。像這次我最喜歡的兩場,就都不是停留在「這個模型很好用」「這個方法很強」這種層次,而是會進一步追問:

  • 模型到底為什麼會被攻擊?
  • 模型對世界的理解是怎麼形成的?
  • 所謂的對齊,到底是在對齊什麼?
  • 模型的立場,是它真的有認同,還是只是表面表現?

這些問題不是那種聽完馬上就能寫成程式的內容,但它們反而是更重要的基礎。因為如果連問題本身都沒有想清楚,那之後做出來的系統,很可能只是能跑,卻不一定真的可靠。

這次參與下來,我也更確定自己喜歡的方向,不只是單純把系統做出來,而是那種會去追問底層原因、會想理解模型行為、會想把安全性與實務場景一起考慮進去的題目。這也是這次 SITCON 對我最大的價值之一。

另外一個讓我印象很深的,是這次活動中的「大地遊戲」。這個設計其實不只是好玩而已,它很有效地讓大家在活動一開始就有機會互動、破冰,讓原本彼此不認識的人可以自然地開始交流。我覺得這點很關鍵,因為很多技術活動的問題是大家都各自聽講,很難真正建立連結,但這個設計讓整體社群感更強。

除此之外,會場外也有很多攤位可以逛,不只是拿贈品(雖然真的拿了不少),更重要的是能直接和不同團隊、社群或公司的人交流。我自己也有趁這個機會去問了一些關於未來方向與就職的問題,某種程度上也幫我更釐清自己之後想走的路。

整體來說,這次 SITCON 對我來說,不只是學到技術內容,更像是讓我更確定「我要成為什麼樣的工程師,以及我要在這個領域做什麼」。


二、議程心得(一):透視 AI 抓內鬼:以注意力防範提示注入

這一場是我非常有感的一場,因為它談的問題本身就很實際:Prompt Injection 到底要怎麼防?

現在大家在談 AI 應用時,常常會把重點放在模型有多強、功能有多少,但只要系統真的開始接外部資料、接工具、接網頁、接信件,Prompt Injection 這種問題就不是「會不會發生」,而是「什麼時候會出事」。

而這場議程厲害的地方,是它不是只停在外部防禦,而是往模型裡面看。

1. 提示注入的本質,不只是惡意字串,而是讓模型分心

這場最讓我記住的一個觀點,就是:

提示注入的本質,可能是讓模型不再專注於原本應該遵守的系統指令。

這個說法我覺得很強,因為它把問題從「外部輸入長得像不像攻擊」拉到「模型內部到底發生了什麼」。

很多防禦方法其實都像是在外面貼膠帶:加規則、加過濾器、加黑名單、加額外 classifier。這些方法不是沒用,但問題是攻擊一直在變,如果永遠只是補外面,常常就只是追著攻擊跑。

這場議程給我的啟發是:如果注入攻擊真的造成的是注意力偏移,那就應該從模型的注意力機制本身下手。這個視角讓我覺得很新鮮,也很合理。

2. 用注意力找「分心」的頭,這個想法很漂亮

講者提到的方法,核心是先找出那些在攻擊出現時,會明顯對系統指令失去關注的 attention heads,再用這些 heads 的表現去計算 Focus Score。當分數低到某個程度,就代表模型可能已經被帶偏,這時候就拒絕回答或阻擋輸入。

我喜歡這種方法,不是因為它聽起來高級,而是因為它有一種「從現象回到機制」的感覺。

它不是只說「這段文字像攻擊」,而是去問:

  • 攻擊進來之後,模型還有沒有在看系統指令?
  • 哪些頭本來負責規則相關的關注?
  • 它們是不是在攻擊時開始失去功能?

這種做法比單純做字串比對更像是在理解模型,而不是只是把模型當黑盒子。

3. 真正有價值的地方,是講者沒有把方法講成萬能

這場另一個我很喜歡的地方,是它沒有把這種方法包裝成「完美解法」。

講者後面有繼續做很多壓力測試,例如:

  • 如果惡意內容藏在長文本中間怎麼辦?
  • 如果系統指令和攻擊語言不同怎麼辦?
  • 如果模型變大或變小,效果是否穩定?
  • 如果輸入越來越長,固定閾值還合理嗎?

而結論也不是那種「方法超強完全能擋」,而是更誠實地指出它的邊界:

  • 長文本會讓模型對固定系統指令的關注自然下降
  • 小模型在長文本下效果明顯更差
  • 跨語言情境仍然可能讓判斷難度上升
  • 真實部署時需要考慮動態閾值,而不能只用固定 cutoff

這一段我特別有感,因為這才是真正接近研究與實務的樣子。很多東西不是「有用或沒用」二分法,而是它在什麼條件下有效、又會在什麼條件下失效。

4. 我自己的收穫

這場議程對我的影響,不只是學到一種 prompt injection 防禦方法,而是讓我更確定一件事:

AI 安全不能只停在表面規則,真正有價值的防禦,應該盡可能往模型機制本身靠近。

而且我覺得這種思維不只適用在提示注入上,放到我自己關注的 RAG、文件內容污染、模型被上下文誤導等問題,其實也很有共鳴。因為很多時候,真正值得研究的不是「模型有沒有出錯」,而是「模型是怎麼一步一步被帶到錯的地方去的」。


三、議程心得(二):語言模型的認知、認同與對齊

如果說第一場是在談模型如何被攻擊,那第二場更像是在談:

模型平常看起來那麼會回答,它到底是真的理解,還是只是被訓練成看起來很像理解?

這場我很喜歡,因為它不是從應用層面切入,而是直接拆解語言模型的行為基礎。整場圍繞三個問題展開:

  1. 模型怎麼形成對世界的認知?
  2. 訓練資料真的能正確呈現世界嗎?
  3. 模型真的有穩定的認同或立場嗎?

我覺得這三題問得非常準,因為現在很多人用模型時,太容易直接把輸出當成理解、把回覆當成立場、把順從當成對齊。

1. 模型的「知道」,和人的知道不是同一件事

這場議程重新梳理了模型在預訓練與後訓練中的角色分工。預訓練讓模型透過大量文字去學習世界中各種統計規律與抽象概念,而後訓練則更多是在調整它怎麼回應人類、怎麼展現出一種「好用」的樣子。

這裡最值得記住的一點是:

模型在預訓練中做的是下一個 token 預測,但在這個過程裡,它會被迫壓縮、抽取、內化世界中的某些規律。

所以它看起來像知道很多事,但這種「知道」和人類從經驗、理解、脈絡中形成的知識,並不相同。

這也讓我反思,平常在和模型互動時,很容易不自覺把它擬人化,覺得它「懂」「認同」「站在某一邊」。但這場提醒我,這些詞都需要更小心地使用。

2. 資料不是世界,而是被偏差、被過濾過的世界

這場另一個我覺得很重要的部分,是對資料偏差的討論。

講者不是只講「資料有偏見」這種很常見的話,而是具體談到兩個層次:

第一個層次,是資料本身的代表性不足。像繁體中文、台灣語境相關的內容,在大型模型訓練資料裡的占比本來就偏低,這會直接影響模型對在地文化、語言使用與概念脈絡的掌握。

第二個層次,是資料清洗流程本身也會加劇問題。當資料集用某些規則去排除不符合標準的內容時,少數族群、非主流語言風格、特殊文化用法,反而更容易被刪掉。

我覺得這件事很重要,因為它不是單純的準確率問題,而是更深的代表性問題。也就是說,模型後來長成什麼樣子,不只是由資料量決定,而是由「哪些東西被留下來,哪些東西被過濾掉」共同決定的。

這對台灣使用者尤其有感。因為很多模型雖然支援中文,但它不一定真的理解台灣脈絡中的中文。這兩者差很多。

3. 模型的「立場」,很可能只是學到某種回應風格

後半段談到「認同」與「對齊」時,我覺得是整場最有後勁的部分。

平常大家很常說某個模型比較保守、比較中立、比較傾向某個價值,但這場議程提醒了一件事:模型表現出來的立場,不一定等於它像人一樣真的形成穩定價值觀。

它更可能是:

  • 受訓練資料影響後學到某種回答傾向
  • 在特定 prompt 和上下文下抽出某種最適合的說法
  • 在不同情境中展現不同的表面立場

換句話說,它表現得像有立場,不代表它真的像人一樣有穩定的信念結構。

我覺得這點很值得反覆想。因為如果我們一開始就把模型當成有穩定人格、有一致價值、有固定認同的主體,那很多 alignment 的討論其實很容易偏掉。

4. 我自己的收穫

這場議程對我最大的提醒,是:

在評估語言模型時,不能只看它回答了什麼,還要追問它為什麼會回答成這樣。

這句話聽起來很簡單,但其實會影響很多事。

像是:

  • 模型輸出的偏見,是來自資料分布還是後訓練?
  • 模型看起來很中立,是真的中立,還是只是學會迴避?
  • 模型表現出某種價值觀,是內在一致,還是被 prompt 拉出來的暫時人格?

這些問題沒有簡單答案,但正因為沒有簡單答案,才更值得研究。


四、總結:這次 SITCON 讓我更想理解模型,而不只是使用模型

回頭看這次 SITCON,我覺得自己最大的收穫,不是哪一個新名詞,也不是哪一篇論文,而是一種看待語言模型的方式被重新整理了。

第一場讓我看到,模型不是只要外面包幾層規則就安全,它的內部機制本身就值得被打開來看。

第二場則讓我意識到,模型看起來會回答問題,不代表它真的像人一樣理解;模型看起來有立場,也不代表它真的像人一樣擁有穩定認同。

而把這兩場放在一起看,我最後得到的一個很清楚的感想是:

語言模型不是一個只要會下 prompt 就能完全掌握的工具,它是一個會被資料塑形、會被攻擊牽動、會被訓練方式改變行為的複雜系統。

這也讓我更確定,之後不管是在做研究、做專題、做應用,自己不該只滿足於「它能不能跑」,而是要更常去追問:

  • 它為什麼這樣回答?
  • 它在什麼條件下會失效?
  • 它表面的表現,背後到底是能力還是偏差?

最後,再次感謝 SITCON 與主辦團隊,也感謝提供遠道補助,讓我能從屏東到現場參與這場活動。對我來說,這不只是一趟聽議程的行程,而是一個讓我更確定自己想往哪裡走的經驗。

如果要用一句話總結這次心得,我會這樣寫:

這次 SITCON 讓我學到的,不只是怎麼使用語言模型,而是怎麼更認真地理解語言模型。

留言