今年是讀博班的第二年,相比於碩班和博一時的懵懵懂懂、壓力巨大,我感覺第二年開始很多事情開始逐漸成形,覺得自己可以自主的做研究,對時間的掌握也比較有感覺,漸漸朝著一個「研究員」的角色前進。

https://x.com/waitbutwhy/status/1367871165319049221

2025 在工作上給自己的小目標

從做研究投 Paper ,希望加入更多其他面向,讓自己變得更像一個「研究員」,也練習和更多人溝通、合作

  • 練習用 Mentor 的角度,協助碩士生、專題生的題目、跟更多人合作
  • 整理自己的研究給一些 Short Talk、當 Conference organizer、Program Chair
  • 多當 Reviewer,認真把 Comments 寫好(很羞愧的前一年都沒有幫忙當到 Reviewer)
  • 希望能 Lead 一個實驗室-level 的大 project,和更多人合作
  • 希望能寫一個自己的代表作,今年的目標主要是把 DeSTA 系列的文章做個小結
  • 把資格考搞定、博士學分修完
  • 找明年的實習

一些工作上的里程碑

  • 1 月申請到 NVIDIA academic grant GPU 贊助
  • 2 月投稿 Interspeech
  • 4 月去印度參加 ICASSP 2025,報了第一次 Oral。順路看到泰姬瑪哈陵。
  • 6 月完成 DeSTA Journal 投稿出去,11月拿到第一輪 Review
  • 7 月拿到電信所獎學金
  • 8 月去荷蘭參加 Interspeech 2025。在歐洲休息了一陣子。
  • 9 月的時候考了資格考,11 月通過了
  • 10 月又繼續新的論文題目
  • 11 月籌備 ROCLING 2025,當 Program Chair
  • 11~12 月得到一些面試機會,希望明年能去實習

今年的 Google scholar

生活中有趣的事

  • 從零開始認真下西洋棋。 2025 年下了 1200 盤 Rapid game,但成績進步緩慢。
  • 嘗試買了一台半自動義式咖啡機,在家自己做拿鐵來喝
  • 上學期修了寫作課,學到很多
  • 開始製作胖叔叔系列貼圖
  • 嘗試了 Vibe coding,但還是喜歡手工寫程式
  • 買了新的椅子到實驗室
  • 嘗試用微波爐蒸地瓜或馬鈴薯
  • PTT 登入次數破 4000次

好習慣

文字生成

維持寫日記(每日流水帳)的習慣已邁入第五年,今年 Obsidian 還是我最喜歡的筆記軟體,我持續在 Obsidian 上寫 Dailynotes,但在流程上做了一些微調。在過去幾年我還滿著迷於各式各樣的筆記術、工作流,在摸索了幾年之後,說實在有時候是自己創造焦慮,常常花時間在研究一些新的設計,切換各種工具。今年回歸到:大道至簡,嘗試刪除了繁雜的模板(Template),回歸接近空白的頁面。現在想寫什麼直接用 Ctrl+N 快速新增筆記(更單純的 Fleetingnotes),隨手記錄當下的想法,等一兩週後再抽空整理,甚至捨棄了資料夾的分層,保持可以被關鍵字搜尋到的程度而已。這種「隨記隨丟」的輕量模式,反而減少滿多心理負擔,讓文字的產出變的更直覺更容易一點。

Obsidian graph view

細水長流

學習接納自己,細水長流。

在追求目標時,我們不僅需要關注短期的收益,更應該重視長期和穩定的發展。

  • 像跑百米一樣,如果沒有調整呼吸,憋氣ㄍ一ㄥ 到終點,跑完直接缺氧
  • 如果要跑馬拉松,就要有各式各樣的計畫和配速
  • 如果這是未來三到五年的生活,那麼細水長流應該是必要的

進入接近 30 歲的年紀,要好好照顧身體了,不能這樣好像無止盡的透支,

  • 減少攝取有咖啡因的飲料
  • 固定休息日,反正事情今天也做不完,乾脆明天再繼續做

關於合作與 Mentoring

Co-author

比起前一年認真的把自己 Paper 處理好,今年的目標是嘗試跟更多人合作,以支援的角色參與別人的研究。

這是一個蠻有趣的體驗,實驗室的神人很多,可以從不同人身上看到不同的工作模式、分配工作的方法。光是參加會議一起討論,就學到很多小妙招值得值得應用到自己身上,也能觀察別人是怎麼從無到有形塑自己的研究題目。當然試圖挑戰別人的研究也是好玩的地方,實驗室的大家都滿好戰的,討論起來很消耗精神,但超級有趣。

Mentoring

另一方面,今年花了更多時間帶大學專題生和碩士生一起做研究,練習以 Mentor 的身份,引導從未有過研究經驗的學弟妹,一步步弄出一篇像樣的論文。這過程很像回到自己大學修專題或是碩班剛開始的時候,很懷念那段「研究怎麼做研究」的時光。那時候常是自己試錯、找方法,最後歸納出一些求生的手段和投稿的套路。今年的小目標,就是試著從另一個角度繼續打磨我自己的求生手段(在別人身上做實驗)。我也很慶幸能從碩班的小陳哥和現在博班的小李哥身上,學習到非常不同的帶人風格。記錄一些腦袋想到的事:

對於專題生(第一次做研究)

  • 自己正在做的實驗不要發包給專題生,否則很容易 Block 到自己的研究。最好是開一個邊邊角角的題目讓他們嘗試。
  • 大量報 Paper 是很好的練習,也比較容易幫助建立方向感。
  • 從現有的 Codebase 上著手,有利於快速上手(對新手來說,從 0 開始幾乎是不可能的)。

對於碩士生(投稿經驗不多)

  • 不需要做很大的題目,最好選定一個可執行的「研究缺口」。只要針對一個動機出發,設計好控制組與對照組,說明自己的方法有效,就是一篇很有希望的 Paper。 所以我很常問的問題是「Baseline 是什麼?」,如果我們要寫一篇 Paper 的話,那要怎麼描述現在的故事。
  • 要非常小心研究題目變成亂槍打鳥,或是變成 A+B+C 的縫合怪。從正在研究的方向或資料集著手設計方法(例如設計適合該 Task 的 Loss),或做錯誤分析(為什麼現在的模型做不好),會更容易想出好的解法。
  • 幫忙做時間管理和計畫,為了避免拖延或是變得發散。我常常在 Meeting 最後的問題是:「立即的下一步會是什麼?」、「下週我們會看到什麼結果?」有了具體的承諾,整體計畫會比較有節奏。也不一定要是很大的進展,即使希望休息一段時間也很好,總比為了有進度而生出進度還好。
  • 建立 First Author 的心態: 我鼓勵每個人都朝著有一篇第一作者的文章去努力。我會建議他們:你自己才是第一手接觸實驗的人,應該是對結果最熟悉的人,所以討論時要帶著問題來尋求答案,而我能提供的幫助就只是打打嘴砲,幫忙測測風向,判斷方向是不是值得做的,以及提醒一些要注意的細節。

關於自己的研究

延續去年的研究,今年的主要目標就是要把把 DeSTA 系列的文章做個小結,寫成 Journal 投稿出去,主要有幾個小成果:

  • Speech-IFeval, Interspeech 2025
  • DeSTA2.5-Audio, TASLP underreview

Speech-IFEval

我們的動機一直想要解決訓練 Audio language model「Catastrophic forgetting」的問題,在去年發表的 DeSTA2 設法解決了這個問題,但我們只有測試在各式各樣的下游任務,從側面證明了我們訓練的模型可以好好的泛化到不同 zero-shot 任務,只能說「間接」的驗證模型沒有忘記 LLM 的能力。我覺得 DeSTA2 paper 的確是一個滿酷的 idea,但心裡面一直覺得好像有一些疑問:

  • 缺少更直接的 Evaluation 證明
  • Baseline 其實沒有設計的很好,因為我們只有和別的 LALM 去比較下游任務的 performance,但不同模型事實上基於不同 LLM 訓練而來,這可能也是一個會大幅影響結果的變因

年初的時候花了一兩個月的時間,設計了 Speech-IFeval 這個 Evaluation Benchmark 投稿 Interspeech (2月中截稿)。雖然只是在短時間內快速整理出來的論文,但我還滿喜歡這個小作品:

  • 其一是動機非常強烈,填補了這個研究領域的需求:我們需要一個 evaluation benchmark 來測試模型這個能力。而且已經從過去的實驗觀察到一些現象,現在只是要用更小心的方式測試
  • 其二是在設計測試的時候考慮以文字 LLM 作為不同 AudioLM 的 Baseline,做了一個 Relative score,我覺得相比於其他 Benchmark 多出的一個設計的巧思

整體上來說,結果「不出意料的」說明了很多我們之前想要解釋但一直說不清楚的事,最終也是很順利的投上了 Interspeech 2025,這也算是第一次嘗試在很短的時間蒐集、設計一個 Evaluation benchmark 的 paper!

DeSTA2.5-Audio

去年投稿的 DeSTA2 paper,我們發現了一些非常有趣的性質,今年的目標就是把整個宇宙做大,並把一些我們其實早就有觀察到,但之前還說不清楚的事情寫成一篇期刊(包含 Speech-IFEval 也是一個前哨論文)。

超級幸運以及榮幸我們在 NVIDIA 的幫助下,申請到了 NVIDIA Acadamic Grant 的 10000 小時 A100 GPU 贊助。我覺得這也是一個有趣的案例,原本在實驗室要做 LLM 訓練相關的研究其實非常捉襟見肘,只能用 A6000 finetune 一些 8B-size LLM (而且還只能 finetune LoRA)之類的,但也因此在這種極限的狀態,有機會發展出一些 Training efficient 的奇招,在完成一些 Proof-of-concept 的結果後,再透過產學計畫申請到更多的算力去支援更大規模的實驗。但說實在,我相信我們的訓練方法直接 scale-up 之後結果可以更好,但一開始其實不知道怎麼運用這個超大的資源,因為我們根本沒有訓練資料,我自己也沒辦法手工蒐集那麼多資料集。

這時候又進入另一個奇招,在 3~4 月集結了實驗室的數十人之力,發布了一個「Call for Dataset」計畫,把大家正在做的、各種領域的資料集,整理蒐集起來變成一個超大的 Audio Dataset。這過程其實有點麻煩:要整理資料集成同一個格式、要所有人上傳資料集到某個地方,但好在有 Huggingface 奇招的支援下,順利蒐集到了 50 多個研究用資料集。這部份的溝通、寫 README 過程也學習到滿多工程上的問題和解決方法。好在最終進行得很順利,我們也順利在 A100 上訓練了一個巨大的模型 DeSTA2.5-Audio,整體上來說是一篇令人開心的 Work!

雖然過程中也發生了一些小故事,但好在最終 Paper 在 6 月左右投稿出去了,也在 11 月拿到第一輪的 Review ,前鎮子剛把 Revision 寫完,希望一切都有好結果!

關於研討會 & 旅遊

今年很幸運各有一篇 Paper 被 ICASSP 2025 與 Interspeech 2025 accept,所以有機會到印度和荷蘭旅遊。我就把旅遊日誌寫在其他篇文章好了,回顧只記錄一下美好回憶。

印度

對我來說印度是一個神秘國度,對很多人來說甚至不是旅遊的選擇,有些同學因為是辦在印度所以就沒有投稿今年的 ICASSP。但我反而是非常想去印度的,覺得如果沒趁這個機會去,這輩子可能也不會去了!會議地點是辦在海得拉巴,但我們後來還保留幾天,搭國內航線到新德里晃晃,再包車到泰姬瑪哈陵,雖然心裡面還是有點怕怕的,好在完全沒有拉肚子(反而是我出發前在台灣上吐下瀉,到印度就好了),過程中也超級順利,我覺得有興趣可以特別安排到印度玩。

建議每個人一輩子都要去看一次泰姬瑪哈陵

荷蘭、比利時、法國

八月趁著 Interspeech 2025 在歐洲度過了非常舒服的幾週!

先去荷蘭參加研討會,後續又去了法國和比利時晃晃,看到很多美術課本上會出現的藝術品,回台灣之後也開始看一些藝術史相關的影片,學到很多!真的很喜歡阿姆斯特丹的氛圍,有機會到荷蘭的話一定要在阿姆斯特丹多待一陣子(鹿特丹就算了)

這段時間我把在台灣的 Meeting 全部取消掉,度過了幾週平靜的休息時光,我感覺很久沒有這樣完全放空腦袋了,心情非常非常的輕鬆,回到台灣之後也有完全充電的感覺,鼓勵大家有空可以放假一兩週。

有趣的是,這是我第四次出國參加 Conference,在會議上開始有一些人開始對我有印象,也結交了一些「Conference friends」。我覺得這也是語音的會議的優點,人數通常不會很多,參加個兩三次之後就會發現好像有些人每次都會參加(公費旅遊),所以很容易建立小小的聊天圈子。

巴黎很漂亮,但人非常非常多

關於西洋棋

西洋棋是今年超沈迷的休閒活動。會想學習西洋棋的動機很純粹:我感覺我自己智商好像有點不夠用,而且隨著年齡變大,腦袋開始沒辦法專注在純粹的計算上,我想用西洋棋實驗我的智力大概在什麼程度。在此之前,我完全沒有接觸過西洋棋,唯一會下的棋類可能就是下五子棋,經過一年的人體實驗實驗,我「更加肯定」我不是絕頂聰明的人。

回顧2025 年,總共在 Chess.com 下了 1200 盤棋,現在想想還滿誇張的,代表平均每天要花一小時左右線上對戰。西洋棋真的是一個滿容易成癮的遊戲,規則簡單但精通困難,快棋一局10~20分鐘,線上秒配對世界玩家,有合理的 Elo 制度,很容易反應進步,每局還有成熟的回顧系統告訴你哪裡下錯、哪裡下對,而且超級多 Youtube 教學和線上的資源可以學習+練習(免費),現在我的 youtube 幾乎已經被西洋棋攻佔了,有時候甚至睡覺或是放空的時候腦袋會浮現出西洋棋的動畫,可能要戒網癮了。

一開始下的時候,連規則都不知道,常常直接送頭輸掉比賽,rating 馬上掉到 200 分左右(超級無敵爛),後面開始記一些常見的開局,勝率就漸漸回到 6 成,然後慢慢從 200 分往上爬,經過漫長的每場 +8 分,最終大概在 9 月左右爬到 1000 分,說實在看到這個進度幅度還是覺得滿廢的,1000分大概也只是稍微熟練的新手的程度,看來純粹的 Reinforcement Learning 進步的速度非常有限,可能下一階段要認真練習 Puzzle 和學習理論了。

不過這一年的訓練我覺得滿有趣的,西洋棋是非常吃計算和注意力的遊戲,我一開始發現我好像沒辦法專注在計算下幾步要怎麼下,注意力常常會在腦袋推算的過程中渙散掉(可能是初老現象?),但這個情況過了一段時間後就慢慢練習回來了。漸漸也開始有直覺能夠抓到對手的心態和攻擊的套路,好像也潛移默化到生活中:在做出決定的時候會多計算兩三步。

ROCLING Program Chair

在年底的時候在籌備了 ROCLING 2025。當 ROCLING organizer 也是一個有趣的體驗, ROCLING 雖然只是一個國內小小的會議,但許多做語音和自然語言處理的老師們都會來參加(聊天),今年輪到台大舉辦,所以恰好有機會幫忙籌備這個活動,我覺得演講和食物也都很精彩,能夠順利完成真是太好了。

Keynote speech

Roundtable

2025 小結

2025 是一個有趣的一年,往前回顧好像的確今年達成了一些小小的里程碑,許多之前的努力也有慢慢得到回報,身體也保持健康,希望明年也一樣順順利利。