SITCON 參與心得｜從屏東出發，看見語言模型的另一面

2026-04-21

心得>技術>AI>LLM>資安>Prompt Injection>Alignment

4.8k 詞

0 瀏覽次數

SITCON 參與心得｜從屏東出發，看見語言模型的另一面

這次參加 SITCON，對我來說不只是去聽幾場技術議程而已，更像是一次把自己從日常學習環境中抽離、重新看見資訊領域樣貌的機會。

平常待在屏東，能接觸到的活動、社群與現場交流機會，本來就和北部有明顯落差。很多時候，網路上的文章、影片、論文當然也能學習，但那種「人在現場」的感受其實完全不同。親自走進會場、聽講者分享、看到台下聽眾的反應、感受到整個社群對技術議題的熱情，這些東西不是只靠看轉播就能完全取代的。

所以這次能夠參與 SITCON，我最想先說的，其實是感謝。

特別感謝 SITCON 提供遠道而來的補助，讓像我這樣從屏東出發的學生，也有機會到現場接觸這麼高品質的議程內容。這不只是減輕交通與參與上的負擔而已，更重要的是，它真的讓不同地區的學生有機會站在同一個場域裡學習、思考與交流。對我來說，這份補助不只是資源上的幫助，而是一種很實際的支持：讓我知道即使人在南部，也一樣可以被接住，也一樣有機會靠近這些前沿的技術討論。

也很謝謝主辦方籌備這場活動。從議程安排、主題深度，到整體社群氛圍，都能感受到這不是一場只是把人聚在一起的活動，而是一個真的希望讓大家交流、思辨與成長的技術場域。能夠參與其中，我很珍惜。

而在這次的所有議程中，我最有感的兩場，分別是：

這兩場表面上切入角度不同，一場偏 AI 安全與攻擊防禦，一場偏模型行為、價值塑形與對齊問題；但聽完之後，我反而覺得它們都指向同一件事：

語言模型不是只要會用就好，更重要的是要知道它為什麼會這樣運作。

一、整體參與心得：SITCON 讓我重新感受到「資訊社群」的力量

這次參加 SITCON，我最大的感受之一，是我重新感受到資訊社群的密度與能量。

平常自己學技術時，很容易把注意力放在「我要學哪個工具、我要做哪個專案、我要把哪篇論文看懂」。但到了現場之後，我反而更明確感受到，技術不是只有工具本身，還包含很多更深的東西：

有人在思考模型安全怎麼做得更扎實
有人在思考語言模型的偏見與對齊問題
有人在做系統、做研究、做社群
也有人在試著把困難的東西講清楚，讓更多人能進來理解

這種感覺很重要，因為它會提醒我：資訊不是只是在電腦前面寫程式而已，而是一整個持續發展、彼此交流、互相推進的領域。

而且我覺得 SITCON 很好的地方，是它不是只有很表面的「技術新知展示」，而是真的有不少議程在處理本質問題。像這次我最喜歡的兩場，就都不是停留在「這個模型很好用」「這個方法很強」這種層次，而是會進一步追問：

模型到底為什麼會被攻擊？
模型對世界的理解是怎麼形成的？
所謂的對齊，到底是在對齊什麼？
模型的立場，是它真的有認同，還是只是表面表現？

這些問題不是那種聽完馬上就能寫成程式的內容，但它們反而是更重要的基礎。因為如果連問題本身都沒有想清楚，那之後做出來的系統，很可能只是能跑，卻不一定真的可靠。

這次參與下來，我也更確定自己喜歡的方向，不只是單純把系統做出來，而是那種會去追問底層原因、會想理解模型行為、會想把安全性與實務場景一起考慮進去的題目。這也是這次 SITCON 對我最大的價值之一。

另外一個讓我印象很深的，是這次活動中的「大地遊戲」。這個設計其實不只是好玩而已，它很有效地讓大家在活動一開始就有機會互動、破冰，讓原本彼此不認識的人可以自然地開始交流。我覺得這點很關鍵，因為很多技術活動的問題是大家都各自聽講，很難真正建立連結，但這個設計讓整體社群感更強。

除此之外，會場外也有很多攤位可以逛，不只是拿贈品（雖然真的拿了不少），更重要的是能直接和不同團隊、社群或公司的人交流。我自己也有趁這個機會去問了一些關於未來方向與就職的問題，某種程度上也幫我更釐清自己之後想走的路。

整體來說，這次 SITCON 對我來說，不只是學到技術內容，更像是讓我更確定「我要成為什麼樣的工程師，以及我要在這個領域做什麼」。

二、議程心得（一）：透視 AI 抓內鬼：以注意力防範提示注入

這一場是我非常有感的一場，因為它談的問題本身就很實際：Prompt Injection 到底要怎麼防？

現在大家在談 AI 應用時，常常會把重點放在模型有多強、功能有多少，但只要系統真的開始接外部資料、接工具、接網頁、接信件，Prompt Injection 這種問題就不是「會不會發生」，而是「什麼時候會出事」。

而這場議程厲害的地方，是它不是只停在外部防禦，而是往模型裡面看。

1. 提示注入的本質，不只是惡意字串，而是讓模型分心

這場最讓我記住的一個觀點，就是：

提示注入的本質，可能是讓模型不再專注於原本應該遵守的系統指令。

這個說法我覺得很強，因為它把問題從「外部輸入長得像不像攻擊」拉到「模型內部到底發生了什麼」。

很多防禦方法其實都像是在外面貼膠帶：加規則、加過濾器、加黑名單、加額外 classifier。這些方法不是沒用，但問題是攻擊一直在變，如果永遠只是補外面，常常就只是追著攻擊跑。

這場議程給我的啟發是：如果注入攻擊真的造成的是注意力偏移，那就應該從模型的注意力機制本身下手。這個視角讓我覺得很新鮮，也很合理。

2. 用注意力找「分心」的頭，這個想法很漂亮

講者提到的方法，核心是先找出那些在攻擊出現時，會明顯對系統指令失去關注的 attention heads，再用這些 heads 的表現去計算 Focus Score。當分數低到某個程度，就代表模型可能已經被帶偏，這時候就拒絕回答或阻擋輸入。

我喜歡這種方法，不是因為它聽起來高級，而是因為它有一種「從現象回到機制」的感覺。

它不是只說「這段文字像攻擊」，而是去問：

攻擊進來之後，模型還有沒有在看系統指令？
哪些頭本來負責規則相關的關注？
它們是不是在攻擊時開始失去功能？

這種做法比單純做字串比對更像是在理解模型，而不是只是把模型當黑盒子。

3. 真正有價值的地方，是講者沒有把方法講成萬能

這場另一個我很喜歡的地方，是它沒有把這種方法包裝成「完美解法」。

講者後面有繼續做很多壓力測試，例如：

如果惡意內容藏在長文本中間怎麼辦？
如果系統指令和攻擊語言不同怎麼辦？
如果模型變大或變小，效果是否穩定？
如果輸入越來越長，固定閾值還合理嗎？

而結論也不是那種「方法超強完全能擋」，而是更誠實地指出它的邊界：

長文本會讓模型對固定系統指令的關注自然下降
小模型在長文本下效果明顯更差
跨語言情境仍然可能讓判斷難度上升
真實部署時需要考慮動態閾值，而不能只用固定 cutoff

這一段我特別有感，因為這才是真正接近研究與實務的樣子。很多東西不是「有用或沒用」二分法，而是它在什麼條件下有效、又會在什麼條件下失效。

4. 我自己的收穫

這場議程對我的影響，不只是學到一種 prompt injection 防禦方法，而是讓我更確定一件事：

AI 安全不能只停在表面規則，真正有價值的防禦，應該盡可能往模型機制本身靠近。

而且我覺得這種思維不只適用在提示注入上，放到我自己關注的 RAG、文件內容污染、模型被上下文誤導等問題，其實也很有共鳴。因為很多時候，真正值得研究的不是「模型有沒有出錯」，而是「模型是怎麼一步一步被帶到錯的地方去的」。

三、議程心得（二）：語言模型的認知、認同與對齊

如果說第一場是在談模型如何被攻擊，那第二場更像是在談：

模型平常看起來那麼會回答，它到底是真的理解，還是只是被訓練成看起來很像理解？

這場我很喜歡，因為它不是從應用層面切入，而是直接拆解語言模型的行為基礎。整場圍繞三個問題展開：

模型怎麼形成對世界的認知？
訓練資料真的能正確呈現世界嗎？
模型真的有穩定的認同或立場嗎？

我覺得這三題問得非常準，因為現在很多人用模型時，太容易直接把輸出當成理解、把回覆當成立場、把順從當成對齊。

1. 模型的「知道」，和人的知道不是同一件事

這場議程重新梳理了模型在預訓練與後訓練中的角色分工。預訓練讓模型透過大量文字去學習世界中各種統計規律與抽象概念，而後訓練則更多是在調整它怎麼回應人類、怎麼展現出一種「好用」的樣子。

這裡最值得記住的一點是：

模型在預訓練中做的是下一個 token 預測，但在這個過程裡，它會被迫壓縮、抽取、內化世界中的某些規律。

所以它看起來像知道很多事，但這種「知道」和人類從經驗、理解、脈絡中形成的知識，並不相同。

這也讓我反思，平常在和模型互動時，很容易不自覺把它擬人化，覺得它「懂」「認同」「站在某一邊」。但這場提醒我，這些詞都需要更小心地使用。

2. 資料不是世界，而是被偏差、被過濾過的世界

這場另一個我覺得很重要的部分，是對資料偏差的討論。

講者不是只講「資料有偏見」這種很常見的話，而是具體談到兩個層次：

第一個層次，是資料本身的代表性不足。像繁體中文、台灣語境相關的內容，在大型模型訓練資料裡的占比本來就偏低，這會直接影響模型對在地文化、語言使用與概念脈絡的掌握。

第二個層次，是資料清洗流程本身也會加劇問題。當資料集用某些規則去排除不符合標準的內容時，少數族群、非主流語言風格、特殊文化用法，反而更容易被刪掉。

我覺得這件事很重要，因為它不是單純的準確率問題，而是更深的代表性問題。也就是說，模型後來長成什麼樣子，不只是由資料量決定，而是由「哪些東西被留下來，哪些東西被過濾掉」共同決定的。

這對台灣使用者尤其有感。因為很多模型雖然支援中文，但它不一定真的理解台灣脈絡中的中文。這兩者差很多。

3. 模型的「立場」，很可能只是學到某種回應風格

後半段談到「認同」與「對齊」時，我覺得是整場最有後勁的部分。

平常大家很常說某個模型比較保守、比較中立、比較傾向某個價值，但這場議程提醒了一件事：模型表現出來的立場，不一定等於它像人一樣真的形成穩定價值觀。

它更可能是：

受訓練資料影響後學到某種回答傾向
在特定 prompt 和上下文下抽出某種最適合的說法
在不同情境中展現不同的表面立場

換句話說，它表現得像有立場，不代表它真的像人一樣有穩定的信念結構。

我覺得這點很值得反覆想。因為如果我們一開始就把模型當成有穩定人格、有一致價值、有固定認同的主體，那很多 alignment 的討論其實很容易偏掉。

4. 我自己的收穫

這場議程對我最大的提醒，是：

在評估語言模型時，不能只看它回答了什麼，還要追問它為什麼會回答成這樣。

這句話聽起來很簡單，但其實會影響很多事。

像是：

模型輸出的偏見，是來自資料分布還是後訓練？
模型看起來很中立，是真的中立，還是只是學會迴避？
模型表現出某種價值觀，是內在一致，還是被 prompt 拉出來的暫時人格？

這些問題沒有簡單答案，但正因為沒有簡單答案，才更值得研究。

四、總結：這次 SITCON 讓我更想理解模型，而不只是使用模型

回頭看這次 SITCON，我覺得自己最大的收穫，不是哪一個新名詞，也不是哪一篇論文，而是一種看待語言模型的方式被重新整理了。

第一場讓我看到，模型不是只要外面包幾層規則就安全，它的內部機制本身就值得被打開來看。

第二場則讓我意識到，模型看起來會回答問題，不代表它真的像人一樣理解；模型看起來有立場，也不代表它真的像人一樣擁有穩定認同。

而把這兩場放在一起看，我最後得到的一個很清楚的感想是：

語言模型不是一個只要會下 prompt 就能完全掌握的工具，它是一個會被資料塑形、會被攻擊牽動、會被訓練方式改變行為的複雜系統。

這也讓我更確定，之後不管是在做研究、做專題、做應用，自己不該只滿足於「它能不能跑」，而是要更常去追問：

它為什麼這樣回答？
它在什麼條件下會失效？
它表面的表現，背後到底是能力還是偏差？

最後，再次感謝 SITCON 與主辦團隊，也感謝提供遠道補助，讓我能從屏東到現場參與這場活動。對我來說，這不只是一趟聽議程的行程，而是一個讓我更確定自己想往哪裡走的經驗。

如果要用一句話總結這次心得，我會這樣寫：

這次 SITCON 讓我學到的，不只是怎麼使用語言模型，而是怎麼更認真地理解語言模型。

訂閱電子報

Boyce Lab 電子報

標籤

SITCON 參與心得｜從屏東出發，看見語言模型的另一面

一、整體參與心得：SITCON 讓我重新感受到「資訊社群」的力量

二、議程心得（一）：透視 AI 抓內鬼：以注意力防範提示注入

1. 提示注入的本質，不只是惡意字串，而是讓模型分心

2. 用注意力找「分心」的頭，這個想法很漂亮

3. 真正有價值的地方，是講者沒有把方法講成萬能

4. 我自己的收穫

三、議程心得（二）：語言模型的認知、認同與對齊

1. 模型的「知道」，和人的知道不是同一件事

2. 資料不是世界，而是被偏差、被過濾過的世界

3. 模型的「立場」，很可能只是學到某種回應風格

4. 我自己的收穫

四、總結：這次 SITCON 讓我更想理解模型，而不只是使用模型