2025 Review

今年是讀博班的第二年，相比於碩班和博一時的懵懵懂懂、壓力巨大，我感覺第二年開始很多事情開始逐漸成形，覺得自己可以自主的做研究，對時間的掌握也比較有感覺，漸漸朝著一個「研究員」的角色前進。

https://x.com/waitbutwhy/status/1367871165319049221

2025 在工作上給自己的小目標

從做研究投 Paper ，希望加入更多其他面向，讓自己變得更像一個「研究員」，也練習和更多人溝通、合作

練習用 Mentor 的角度，協助碩士生、專題生的題目、跟更多人合作
整理自己的研究給一些 Short Talk、當 Conference organizer、Program Chair
多當 Reviewer，認真把 Comments 寫好（很羞愧的前一年都沒有幫忙當到 Reviewer）
希望能 Lead 一個實驗室-level 的大 project，和更多人合作
希望能寫一個自己的代表作，今年的目標主要是把 DeSTA 系列的文章做個小結
把資格考搞定、博士學分修完
找明年的實習

一些工作上的里程碑

1 月申請到 NVIDIA academic grant GPU 贊助
2 月投稿 Interspeech
4 月去印度參加 ICASSP 2025，報了第一次 Oral。順路看到泰姬瑪哈陵。
6 月完成 DeSTA Journal 投稿出去，11月拿到第一輪 Review
7 月拿到電信所獎學金
8 月去荷蘭參加 Interspeech 2025。在歐洲休息了一陣子。
9 月的時候考了資格考，11 月通過了
10 月又繼續新的論文題目
11 月籌備 ROCLING 2025，當 Program Chair
11~12 月得到一些面試機會，希望明年能去實習

今年的 Google scholar

生活中有趣的事

從零開始超認真下西洋棋。 2025 年下了 1200 盤 Rapid game，但成績進步緩慢。
嘗試買了一台半自動義式咖啡機，在家自己做拿鐵來喝
上學期修了寫作課，學到很多
開始製作胖叔叔系列貼圖
嘗試了 Vibe coding，但還是喜歡手工寫程式
買了新的椅子到實驗室
嘗試用微波爐蒸地瓜或馬鈴薯
PTT 登入次數破 4000次

好習慣

文字生成

維持寫日記（每日流水帳）的習慣已邁入第五年，今年 Obsidian 還是我最喜歡的筆記軟體，我持續在 Obsidian 上寫 Dailynotes，但在流程上做了一些微調。在過去幾年我還滿著迷於各式各樣的筆記術、工作流，在摸索了幾年之後，說實在有時候是自己創造焦慮，常常花時間在研究一些新的設計，切換各種工具。今年回歸到：大道至簡，嘗試刪除了繁雜的模板（Template），回歸接近空白的頁面。現在想寫什麼直接用 Ctrl+N 快速新增筆記（更單純的 Fleetingnotes），隨手記錄當下的想法，等一兩週後再抽空整理，甚至捨棄了資料夾的分層，保持可以被關鍵字搜尋到的程度而已。這種「隨記隨丟」的輕量模式，反而減少滿多心理負擔，讓文字的產出變的更直覺更容易一點。

Obsidian graph view

細水長流

學習接納自己，細水長流。

在追求目標時，我們不僅需要關注短期的收益，更應該重視長期和穩定的發展。

像跑百米一樣，如果沒有調整呼吸，憋氣ㄍ一ㄥ到終點，跑完直接缺氧
如果要跑馬拉松，就要有各式各樣的計畫和配速
如果這是未來三到五年的生活，那麼細水長流應該是必要的

進入接近 30 歲的年紀，要好好照顧身體了，不能這樣好像無止盡的透支，

減少攝取有咖啡因的飲料
固定休息日，反正事情今天也做不完，乾脆明天再繼續做

關於合作與 Mentoring

Co-author

比起前一年認真的把自己 Paper 處理好，今年的目標是嘗試跟更多人合作，以支援的角色參與別人的研究。

這是一個蠻有趣的體驗，實驗室的神人很多，可以從不同人身上看到不同的工作模式、分配工作的方法。光是參加會議一起討論，就學到很多小妙招值得值得應用到自己身上，也能觀察別人是怎麼從無到有形塑自己的研究題目。當然試圖挑戰別人的研究也是好玩的地方，實驗室的大家都滿好戰的，討論起來很消耗精神，但超級有趣。

Mentoring

另一方面，今年花了更多時間帶大學專題生和碩士生一起做研究，練習以 Mentor 的身份，引導從未有過研究經驗的學弟妹，一步步弄出一篇像樣的論文。這過程很像回到自己大學修專題或是碩班剛開始的時候，很懷念那段「研究怎麼做研究」的時光。那時候常是自己試錯、找方法，最後歸納出一些求生的手段和投稿的套路。今年的小目標，就是試著從另一個角度繼續打磨我自己的求生手段（在別人身上做實驗）。我也很慶幸能從碩班的小陳哥和現在博班的小李哥身上，學習到非常不同的帶人風格。記錄一些腦袋想到的事：

對於專題生（第一次做研究）

自己正在做的實驗不要發包給專題生，否則很容易 Block 到自己的研究。最好是開一個邊邊角角的題目讓他們嘗試。
大量報 Paper 是很好的練習，也比較容易幫助建立方向感。
從現有的 Codebase 上著手，有利於快速上手（對新手來說，從 0 開始幾乎是不可能的）。

對於碩士生（投稿經驗不多）

不需要做很大的題目，最好選定一個可執行的「研究缺口」。只要針對一個動機出發，設計好控制組與對照組，說明自己的方法有效，就是一篇很有希望的 Paper。所以我很常問的問題是「Baseline 是什麼？」，如果我們要寫一篇 Paper 的話，那要怎麼描述現在的故事。
要非常小心研究題目變成亂槍打鳥，或是變成 A+B+C 的縫合怪。從正在研究的方向或資料集著手設計方法（例如設計適合該 Task 的 Loss），或做錯誤分析（為什麼現在的模型做不好），會更容易想出好的解法。
幫忙做時間管理和計畫，為了避免拖延或是變得發散。我常常在 Meeting 最後的問題是：「立即的下一步會是什麼？」、「下週我們會看到什麼結果？」有了具體的承諾，整體計畫會比較有節奏。也不一定要是很大的進展，即使希望休息一段時間也很好，總比為了有進度而生出進度還好。
建立 First Author 的心態： 我鼓勵每個人都朝著有一篇第一作者的文章去努力。我會建議他們：你自己才是第一手接觸實驗的人，應該是對結果最熟悉的人，所以討論時要帶著問題來尋求答案，而我能提供的幫助就只是打打嘴砲，幫忙測測風向，判斷方向是不是值得做的，以及提醒一些要注意的細節。

關於自己的研究

延續去年的研究，今年的主要目標就是要把把 DeSTA 系列的文章做個小結，寫成 Journal 投稿出去，主要有幾個小成果：

Speech-IFeval, Interspeech 2025
DeSTA2.5-Audio, TASLP underreview

Speech-IFEval

我們的動機一直想要解決訓練 Audio language model「Catastrophic forgetting」的問題，在去年發表的 DeSTA2 設法解決了這個問題，但我們只有測試在各式各樣的下游任務，從側面證明了我們訓練的模型可以好好的泛化到不同 zero-shot 任務，只能說「間接」的驗證模型沒有忘記 LLM 的能力。我覺得 DeSTA2 paper 的確是一個滿酷的 idea，但心裡面一直覺得好像有一些疑問：

缺少更直接的 Evaluation 證明
Baseline 其實沒有設計的很好，因為我們只有和別的 LALM 去比較下游任務的 performance，但不同模型事實上基於不同 LLM 訓練而來，這可能也是一個會大幅影響結果的變因

年初的時候花了一兩個月的時間，設計了 Speech-IFeval 這個 Evaluation Benchmark 投稿 Interspeech （2月中截稿）。雖然只是在短時間內快速整理出來的論文，但我還滿喜歡這個小作品：

其一是動機非常強烈，填補了這個研究領域的需求：我們需要一個 evaluation benchmark 來測試模型這個能力。而且已經從過去的實驗觀察到一些現象，現在只是要用更小心的方式測試
其二是在設計測試的時候考慮以文字 LLM 作為不同 AudioLM 的 Baseline，做了一個 Relative score，我覺得相比於其他 Benchmark 多出的一個設計的巧思

整體上來說，結果「不出意料的」說明了很多我們之前想要解釋但一直說不清楚的事，最終也是很順利的投上了 Interspeech 2025，這也算是第一次嘗試在很短的時間蒐集、設計一個 Evaluation benchmark 的 paper！

DeSTA2.5-Audio

去年投稿的 DeSTA2 paper，我們發現了一些非常有趣的性質，今年的目標就是把整個宇宙做大，並把一些我們其實早就有觀察到，但之前還說不清楚的事情寫成一篇期刊（包含 Speech-IFEval 也是一個前哨論文）。

超級幸運以及榮幸我們在 NVIDIA 的幫助下，申請到了 NVIDIA Acadamic Grant 的 10000 小時 A100 GPU 贊助。我覺得這也是一個有趣的案例，原本在實驗室要做 LLM 訓練相關的研究其實非常捉襟見肘，只能用 A6000 finetune 一些 8B-size LLM （而且還只能 finetune LoRA）之類的，但也因此在這種極限的狀態，有機會發展出一些 Training efficient 的奇招，在完成一些 Proof-of-concept 的結果後，再透過產學計畫申請到更多的算力去支援更大規模的實驗。但說實在，我相信我們的訓練方法直接 scale-up 之後結果可以更好，但一開始其實不知道怎麼運用這個超大的資源，因為我們根本沒有訓練資料，我自己也沒辦法手工蒐集那麼多資料集。

這時候又進入另一個奇招，在 3~4 月集結了實驗室的數十人之力，發布了一個「Call for Dataset」計畫，把大家正在做的、各種領域的資料集，整理蒐集起來變成一個超大的 Audio Dataset。這過程其實有點麻煩：要整理資料集成同一個格式、要所有人上傳資料集到某個地方，但好在有 Huggingface 奇招的支援下，順利蒐集到了 50 多個研究用資料集。這部份的溝通、寫 README 過程也學習到滿多工程上的問題和解決方法。好在最終進行得很順利，我們也順利在 A100 上訓練了一個巨大的模型 DeSTA2.5-Audio，整體上來說是一篇令人開心的 Work！

雖然過程中也發生了一些小故事，但好在最終 Paper 在 6 月左右投稿出去了，也在 11 月拿到第一輪的 Review ，前鎮子剛把 Revision 寫完，希望一切都有好結果！

關於研討會 & 旅遊

今年很幸運各有一篇 Paper 被 ICASSP 2025 與 Interspeech 2025 accept，所以有機會到印度和荷蘭旅遊。我就把旅遊日誌寫在其他篇文章好了，回顧只記錄一下美好回憶。

印度

對我來說印度是一個神秘國度，對很多人來說甚至不是旅遊的選擇，有些同學因為是辦在印度所以就沒有投稿今年的 ICASSP。但我反而是非常想去印度的，覺得如果沒趁這個機會去，這輩子可能也不會去了！會議地點是辦在海得拉巴，但我們後來還保留幾天，搭國內航線到新德里晃晃，再包車到泰姬瑪哈陵，雖然心裡面還是有點怕怕的，好在完全沒有拉肚子（反而是我出發前在台灣上吐下瀉，到印度就好了），過程中也超級順利，我覺得有興趣可以特別安排到印度玩。

建議每個人一輩子都要去看一次泰姬瑪哈陵

荷蘭、比利時、法國

八月趁著 Interspeech 2025 在歐洲度過了非常舒服的幾週！

先去荷蘭參加研討會，後續又去了法國和比利時晃晃，看到很多美術課本上會出現的藝術品，回台灣之後也開始看一些藝術史相關的影片，學到很多！真的很喜歡阿姆斯特丹的氛圍，有機會到荷蘭的話一定要在阿姆斯特丹多待一陣子（鹿特丹就算了）

這段時間我把在台灣的 Meeting 全部取消掉，度過了幾週平靜的休息時光，我感覺很久沒有這樣完全放空腦袋了，心情非常非常的輕鬆，回到台灣之後也有完全充電的感覺，鼓勵大家有空可以放假一兩週。

有趣的是，這是我第四次出國參加 Conference，在會議上開始有一些人開始對我有印象，也結交了一些「Conference friends」。我覺得這也是語音的會議的優點，人數通常不會很多，參加個兩三次之後就會發現好像有些人每次都會參加（公費旅遊），所以很容易建立小小的聊天圈子。

巴黎很漂亮，但人非常非常多

關於西洋棋

西洋棋是今年超沈迷的休閒活動。會想學習西洋棋的動機很純粹：我感覺我自己智商好像有點不夠用，而且隨著年齡變大，腦袋開始沒辦法專注在純粹的計算上，我想用西洋棋實驗我的智力大概在什麼程度。在此之前，我完全沒有接觸過西洋棋，唯一會下的棋類可能就是下五子棋，經過一年的人體實驗實驗，我「更加肯定」我不是絕頂聰明的人。

回顧2025 年，總共在 Chess.com 下了 1200 盤棋，現在想想還滿誇張的，代表平均每天要花一小時左右線上對戰。西洋棋真的是一個滿容易成癮的遊戲，規則簡單但精通困難，快棋一局10~20分鐘，線上秒配對世界玩家，有合理的 Elo 制度，很容易反應進步，每局還有成熟的回顧系統告訴你哪裡下錯、哪裡下對，而且超級多 Youtube 教學和線上的資源可以學習+練習（免費），現在我的 youtube 幾乎已經被西洋棋攻佔了，有時候甚至睡覺或是放空的時候腦袋會浮現出西洋棋的動畫，可能要戒網癮了。

一開始下的時候，連規則都不知道，常常直接送頭輸掉比賽，rating 馬上掉到 200 分左右（超級無敵爛），後面開始記一些常見的開局，勝率就漸漸回到 6 成，然後慢慢從 200 分往上爬，經過漫長的每場 +8 分，最終大概在 9 月左右爬到 1000 分，說實在看到這個進度幅度還是覺得滿廢的，1000分大概也只是稍微熟練的新手的程度，看來純粹的 Reinforcement Learning 進步的速度非常有限，可能下一階段要認真練習 Puzzle 和學習理論了。

不過這一年的訓練我覺得滿有趣的，西洋棋是非常吃計算和注意力的遊戲，我一開始發現我好像沒辦法專注在計算下幾步要怎麼下，注意力常常會在腦袋推算的過程中渙散掉（可能是初老現象？），但這個情況過了一段時間後就慢慢練習回來了。漸漸也開始有直覺能夠抓到對手的心態和攻擊的套路，好像也潛移默化到生活中：在做出決定的時候會多計算兩三步。

ROCLING Program Chair

在年底的時候在籌備了 ROCLING 2025。當 ROCLING organizer 也是一個有趣的體驗， ROCLING 雖然只是一個國內小小的會議，但許多做語音和自然語言處理的老師們都會來參加（聊天），今年輪到台大舉辦，所以恰好有機會幫忙籌備這個活動，我覺得演講和食物也都很精彩，能夠順利完成真是太好了。

Keynote speech

Roundtable

2025 小結

2025 是一個有趣的一年，往前回顧好像的確今年達成了一些小小的里程碑，許多之前的努力也有慢慢得到回報，身體也保持健康，希望明年也一樣順順利利。

好習慣#

文字生成#

細水長流#

關於合作與 Mentoring#

Co-author#

Mentoring#

關於自己的研究#

關於研討會 & 旅遊#

印度#

荷蘭、比利時、法國#

關於西洋棋#

ROCLING Program Chair#

2025 小結#

好習慣