王釧茹(R95/逕讀博士,中研院研究員)

突破學科界線的驚喜之旅!訪談中研院副研究員王釧茹

author 葉咸礽 黃文宏


Q0 : 背景介紹

本次的服務學習訪談校友活動中,本組有一位成員同時修讀資工系和數學系,因此對於這兩個領域的共同發展非常感興趣。我們決定在校友訪談中尋求同時涉足這兩個領域的校友進行經驗分享。我們非常榮幸邀請到中研院副研究員王釧茹副教授參與這次的訪談,以下是我們的訪談記錄,供大家參考。


Q1 : 自我介紹,另外我們要如何稱呼您呢?

我是王釧茹,在 2006 年時修讀台大資訊碩士,讀一年後逕讀博士,並於 2011 年成功獲得博士學位。當時我有幸受到呂育道教授的指導(註:呂教授現仍於台大授課),他在財務金融和演算法方面具有豐富的理論研究專長。博士畢業後,我先到台北市立大學擔任教授,並於五年後我選擇轉至中研院任職副研究員。

Q1-1 : 我們在蒐集老師您的相關資料時,有發現老師有很多稱呼,包含副研究員和副教授,請問您的職位如何稱呼比較正確呢?

事實上,中研院的副研究員在職位上對應於大學的副教授,而研究員則對應於(正)教授,助研究員則對應於助理教授。所以兩個稱呼大致上是相同的,差別主要在於中研院內部的研究員不一定需要擔任授課的角色。


Q2 : 為何會決定踏入資訊這個領域?又為何會決定往研究領域發展?

其實當初也沒有很明確的知道資訊領域的內容為何,也並沒有過多考慮。當時我對數學也有濃厚的興趣,我的老師們建議我「對數學有興趣就可以考慮讀資工」,於是我在2002年時考上交大資工系並開始我的學業。後來到了台大資工所時遇到了呂教授,便發現自己對研究是有興趣的。

Q2-1 : 那為何會認為從事研究是比較有趣的?

根據我從當時的學長姊以及我自己的經驗反饋,我認為相較於在工程領域使用已知方法解決問題,我更加喜歡從事研究並尋找未知的答案。我對於在研究領域中的發展感到滿足和興奮,因此我決定繼續於研究領域深耕。


Q3 : 在您的學經歷中,從學士到博士都選擇了資訊。如果身為大學資訊系的學生還想要持續向上拓展,您會認為什麼能力或者心態特別重要?

對於那些希望在學術領域有所發展的學生來說,分析問題的能力至關重要。要從多個面向去分析一個問題。此外,還有一個我認為在讀博士時常常被忽視但卻極為重要的能力,那就是表達能力,無論是在書面寫 Paper 還是口頭表達自己的東西。博士課程通常注重培養學生的研究能力,但對於表達能力的培養則不一定受到足夠的重視。

此外,攻讀博士學位需要擁有足夠強大的心理素質。在研究的過程中,你無法保證每個問題都有確定的答案,也無法保證你的努力一定會成功。有時候,你可能會面臨多次投稿但未被期刊接受的情況。這些困難和挫折是非常常見的。

Q3-1 : 很常聽說博士念了好幾年也無法畢業,這是常見的嗎?

確實,這些情況在研究領域中非常常見。以演算法研究為例,有時候可能無法獲得所需的證明,抑或者是像是生物實驗,很常有意外的情況,可能導致研究者在題目上犯錯。不過做了很久才發現自己做錯題目的這個情況,一般比較常出現在數學系或物理系博士。在資訊領域中,很多都是應用面的研究,這些研究的目標通常是解決現實世界中的問題,並提供實用的解決方案。在這樣的應用研究中,往往不存在絕對的對與錯,而是針對結果提出適當的解釋和討論即可。

舉例來說,在機器學習領域的研究中,為了展示自己提出的理論的有效性,研究者常常會選擇一小部分表現比較好的資料集來進行實驗,例如從 10 個資料集中選擇 4 個表現最漂亮的資料集來說明自己提出的理論是正確的,這樣的選擇可能會導致樣本偏差或結果不具普遍性。

所以資訊做應用面領域,要做不出來反而是困難的,調整參數或模型的微小變化可能導致完全不同的結果。尤其現在的模型變得複雜許多,可供觀察和分析的資訊也更加豐富。雖然這可能會導致做出來的結果可信度不一定那麼的高,因此有時我會以懷疑的態度看待某些結果,但若是只針對這個問題而言,我會說這個領域沒那麼難做。

Q3-2 : 那麼老師您如何訓練這樣的表達能力呢?

事實上,在博士班期間,我們有專門的系統訓練班,並且那時候就在資訊系的二樓 R217 教室進行。這些訓練班的主要目的是指導碩士生,這就有幫助我提升表達能力了。


Q4 : 對於同樣想要在未來從事研究的學生,您會提供什麼建議?

在進行研究之前,首先要明確自己是否對研究感興趣,這是非常重要的。進行研究需要具備強烈的好奇心,對所研究的領域保持高度的興趣和好奇心。此外,在能力方面,獲取和過濾資訊的能力也是至關重要的。

在這方面,許多台灣學生確實缺乏的是過濾資訊的能力。這可能與英文造成的 Barrier 有關,但具體原因可能還有其他因素。舉例來說,當遇到一個陌生的概念或事物時,許多台灣學生傾向於依賴他人給出答案,而不去主動探索和獨立思考。

Q4-1 : 現在的資訊是更新的相當快速的,更新資訊的能力是否也很重要?

當然,過濾資料的能力非常重要,而這些過濾工作應當由人工進行,而非完全依賴 ChatGPT 等工具。利用工具提升工作效率的能力也相當重要。舉個例子,我曾向我的實驗室學生提出這樣的問題:如果現在有一個 13×4×8 的資料集,我要計算第8個欄位的變異數 (2),你們會如何處理?

( 黃:我可能會嘗試將這些資料導入 Excel,並嘗試運用 Excel 內建的公式 )

這就導致一個問題:資訊工程學生應當具備運用工具解決問題的能力,也就是讓電腦為他們處理工作,而非手動處理這些資料。

如果我問我的實驗室學生,真的有非常擅長 Shell Script 的同學,能在一分鐘內把這個程式寫出來,並立刻告訴我答案,這便會造成學生程度和效率上的差別。

總而言之,善用工具解決問題的能力也是造成學生能力差異的關鍵。當今資源已經廣泛散落於網路上,尤其以我舉的例子來說,以前學習 Shell Script 是相當困難的,但現在可以利用 ChatGPT 等工具進行有效整理。善用這些工具將成為一大重點。


Q5 : 可否介紹實驗室裡面的風氣,相關的文化和核心精神呢?

我攻讀博士學位期間所在的實驗室是呂教授主持的,相較於其他一些教授,呂教授對於學生比較寬鬆,他不會過分監管學生,給予了我們相當大的自由。如果你不做事他也不會特別關注,但如果要找他,他會非常迅速的回覆你,並非常認真且嚴謹的跟你討論你當前的進度。呂教授的特別之處,是他對英文也具有深入的研究和重視,所以對英文具有相當精準的要求,我認為現在我的英文能力也受到他的影響。

當我後來晉升為副研究員並開始主持實驗室時,我發現我可能無法給予學生完全的自由。因為如果給予太多自由,現在的大多數學生相較於以前不那麼主動,實驗室的運作也會變得困難。然而,我們也非常尊重學生,不會突然要求他們必須一定要出現或完成某些事情。

我們實驗室的特色是相較於其他實驗室接了更多產學研究,讓我們能夠接觸到更多真實、所謂"髒"的資料,資訊會往各種奇怪的地方長。這跟 Public Benchmark 是比較不同的,在網路上能查到的這些公開資源全都是已經處理過的乾淨資料。這也是產學合作的一個特色,能研究真實的資料,所研究出的東西在現實中也比較看的到。

Q5-1 : 那剛剛老師有提到,這些實驗室內部都會有 Meeting,Meeting 主要在做的事是什麼方便同我們分享嗎?

以我們的實驗室舉例有幾種Meeting,大部分的實驗室也都有。第一種是Group Meeting,我們通常一周一次,每個人輪流找5篇新的Paper到群組,由實驗室的同學投票來決定應該要研讀哪些Paper。同時針對產學的Project,我們也有Project-Based Meeting去追蹤產學合作的企劃的發展,可能就有企業的人進來報告。同時也有針對個人的研究舉行的Personal Meeting,討論個人研究的進度,這個時間就相對於Group Meeting彈性很多,從一開始幾周一次,到後來一周一次甚至每天都要Meeting都是可能的。

  • Meeting 種類整理
Meeting 種類目的頻率
Group Meeting輪流報告Paper,追蹤最新研究通常一周一次
Project-Based Meeting追蹤產學合作的企劃配合企業
Personal Meeting討論個人研究的進度較為自由

Q6 : 此與學術圈的風氣、相關的文化及交流方式,有何差異?

在學術圈與產業界進行產學合作,特別是在資訊,AI領域內,這種情況相當普遍,但是我們選擇產學合作的對象是相對嚴格的,因為這些開發對公司工程團隊的需求很大,所以我們必須慎選。

首先,我們會避免選擇規模太小的企業,而是尋找具有強大工程團隊的企業來合作。這樣可以避免學生只能從事基礎性的工作,或者在研究完成後企業無法繼續接手我們所完成的內容將之實用。舉例而言我們和 KKStream 即將邁入第五年的合作,背後的技術團隊就足夠強大。次之,我們會希望合作的企業能夠讓學生的成果得以 Publish ,並轉化為學術論文的成果,畢竟學生進入企業不只是要為了賺錢而工作,他們更希望能有論文的產出,能被用於未來的出國申請,而像 KKStream 就相當的支持我們這樣做。

Q6-1 : 我們有注意到老師提到不希望選擇太小的企業,是否是因為AI研究的領域盛行,資料量也成為一個競爭項目,而有這樣的考量?

對於數據處理的問題,有時候碰到的情況確實是數據散落在各種格式的文件中,例如 PDF 和紙本,這樣的情況下即使想整理已有的數據也非常困難。另外,對於一些較小的企業來說,他們可能只有一位工程師,因此能夠進行的工作非常有限。我們雖然可以協助開發一些項目,但是並不能全部由我們來處理,畢竟學生來到這些企業的目的是進行研究工作,而非協助開發應用系統。


Q7 : 您研究的領域主要涵蓋金融工程與數據分析,可否簡單介紹這兩個領域?資訊系所所培育的能力與這些領域如何相輔相成?

我需要先介紹踏入這些領域的過程,一開始我跟隨呂教授進行 CS 的研究,雖然我也考上了台大財金系的碩士,但因為對跟隨呂教授進行研究比較感興趣,所以我決定留在資訊系。當時我們的 Lab 就是在做金融工程領域的研究。金融工程( Computational Finance )主要涉及開發特定的演算法來處理金融問題,例如:計算金融性衍伸商品(如期貨)的理論價格,當時主要採用數值方法:如格子狀模型、樹狀模型、PDE 等去解決這些問題,所以在做的事情是開發演算法,只是應用面是在金融。要進入這個領域,除了 CS 相關的能力外,還需要一些在計量財務學和金融領域較為深入的知識,例如高等微積分、隨機過程、隨機微積分等等,這些基礎知識我就是在台大財金系學習到。這大致就是我博士畢業之前的研究歷程。

當我畢業後進入資訊系開始教書時,我遇到的學生們,可想而知,並不熟悉財務領域,也缺乏財務所用到的進階數學技巧,因此我需要找到一個方法來帶領學生進行研究。當時就漸漸地轉向 ML 這個領域。這個轉換過程也很有趣,是有個契機發現財務的領域中有一些問題,例如考慮分析財報中的文字,這就和 NLP ( Nature Language Process ) 和 Text Mining 扯上了關係,尤其當時已經發現不少 CS 的雜誌也試著解決這些問題,就踏入了數據科學 ( Data Science ) 的領域。到後來到了中研院資創中心以後,從事的就完全是 CS 的研究,基本上,我們實驗室收進來的所有成員都對於 ML 表現出極大的興趣,因此我們才持續致力於這方面的研究。

如果要談到機器學習和計算金融這兩個領域的關聯,可以說它們都與機率和統計密切相關。甚至相對而言, ML 在機率方面的數學基礎較為簡單,所以對於我來說轉換這兩個領域是沒有太大阻力的。

事實上,如今學生在研究 ML 時,看不懂論文的原因最主要是對於機率與統計的理解不夠深入,沒有建立足夠穩固的觀念。所以前面你有問需要向上發展要甚麼能力,我也認為基礎訓練非常重要,例如數學、英文和程式等都很重要。現今學生比較可惜的一點便是,他們太容易取得現成的模型,而無需了解其原理就能夠操作。這種學習方式是膚淺的,且如果未來工具發生變化,他們將無法快速適應。

舉例來說,很多本科學生可能只知道如何操作模型進行訓練,而對於其中訓練的過程與原理一無所知,只知道如何執行。這樣的學習方式無疑存在問題。另一方面,如果不是本科系的學生,例如我所僱用的 RA ( Research Assistant ) 可能都會打程式,但是如資料結構、演算法等沒有理解,便不知道如何去優化一些簡單問題。

Q7-1 : 這剛好也是我所好奇的問題,主要是因為我在高中是以數學為專業,現在也有雙主修,所以我好奇這兩個系的能力如何和這些領域相輔相成?

數學系通常要求更高的抽象思考能力,且與 CS 相比,數學的教學方式也有所不同。數學系偏向邏輯思維,而 CS 則偏向應用工具的能力。

黃:目前我的觀察是,數學系跟資工系的差別是,資工系很重視如何優化問題,數學系只要存在一個正確的方法便已足夠

我有個老師跟我說過:「數學系在做的是 Generalize (推廣),先把問題簡化到非常簡單的情況,並希望有個解可以被 Generalize 到各種地方。資訊系在做的則是 Specialize (特化),針對一個特定的問題去做Optimization,實際應用中也常涉及到這類問題。」

現實世界中,很多會遇到的問題確實很難使用傳統的數學方法來解決,因為這些問題往往複雜且包含多變因素。要使用數學方法進行分析,通常需要對問題進行假設和簡化,以便進行分析。這和 ML 有很大的差別,ML 訓練模型時不需要做出任何假設,只需要擁有足夠的資料和適當的計算能力,在理論上就可以近似出任何函數 ( Universal Approximation Theorem ),這和數學的邏輯就不太一樣。舉個例子,當我們在進行衍生性金融商品評價時,最基本的假設之一是股價會 Fit 某個對數的分佈,這在現實中顯然是不合理的,但沒有這個假設,我們便無法進行研究。數學有點像是透過簡化給出一個 Guideline,所以才會說數學是基礎科學,而不是應用科學。

Q7-2 : 如果是資訊領域,又會如何和這兩個領域相輔相成呢?

資訊系確實更加注重實踐,與這兩個領域直接相關的就是寫程式,透過程式來實現目標。資訊系的學生在這方面具有優勢,因為他們有足夠的編程訓練和基本能力。然而,僅僅具備這些能力可能還不足夠,舉例而言現在懂 OOP ( 物件導向程式,例如python ) 的學生不多,他們可能會在網絡上找到一些現成的程式碼來運行,完成後就不再深入研究,然而這些事物背後的原理,其實都可以銜接到他們以前曾經修過的計程或資料結構。所以我覺得還是要保有好奇心,去理解背後的原理。理解的一個有效的方法除了自行研究,還能透過教導他人,在我個人學習Java的過程中,很大一部分的助力便是來自系統訓練班教學,因為當你要教授他人時,你必須先弄清楚背後的原理,這將引導你進行更深入的思考。

資訊系的學生確實不能僅僅停留在 Run Model 或應用的層面上,他們需要深入了解背後的原理,例如懂得如何加速,如何正確修改他人的程式碼,只有這樣,他們才能真正發揮資訊系學生的優勢。如果每個人都只學會如何寫程式,如何運行模型,那麼資訊系學生與其他人的差距想必將變得越來越小。


Q8 : 您是否有收聽產經新聞的習慣?作為身處金融領域的研究者,會不會覺得媒體帶給大眾的資訊有部分突兀或不適當的論點?如果有,可否舉例呢?

我並沒有聽產經新聞的習慣。平常我主要了解經濟領域的媒介是《Economics》雜誌,這類的雜誌都具有較高的專業性。例如說某次刊登在裡面的其中一篇是在探討 Transformer 這種 Model 如何改變美國的產業界,雖然這是個專業的問題,但裡面的分析都非常的完整,我也覺得蠻有趣的。當然這也是因為外國這類雜誌本身就具有很高的專業性,台灣的雜誌雖然也有,但並不會特別認真看。回到你的問題,這些內容我目前尚沒有看到什麼不適合的論點。


Q9 : 您參與過非常多的研究,請問您是如何規劃自己的生活時間呢?

事實上學術研究領域一大優點,就是具有極高的自由度,甚至可以說是其他產業都無法企及。就以教授為例,在上課的時間以外都是完全自由的,不需要在特定時間完成特定任務。相對的,這個產業也需要極高的自律性,因為工作和休息的界線模糊,如果沒有適當的管理,生活很容易變得一團亂。

研究領域具有非常大的彈性,但該做的事會一直進行下去。舉個極端的例子,我在去年 12 月生產時,到 1 月我在月子中心的期間,仍忙於修改學生的論文和召開重要的 Meeting 。事實上第一胎好像也是如此,但這只是一個極端的例子,相對的平時如果沒有安排事情,小孩下課就帶他去玩不用擠假日也是可以的。同時中研院的老師也不一定要上課,所以一周七天可以說是完全操之在己,可以說這些老師雖然規劃生活隨心所欲,但規劃的能力一定都不差。

當然,這取決於你對正在從事的工作是否有興趣。如果你對你在研究的事情沒有興趣,那麼很可能會一直拖延,這是人之常情。對我來說,我對於與學生 Meeting 是有興趣的,所以我可能一周排 10 個 Meeting,如果沒有興趣的可能一周可能只排 1 個 Meeting,或如果孩子生病了,可能這周就不安排任何會議,這全都是有可能的。總結來說就是這個工作非常的彈性。

Q9-1 : 可以說這樣的工作是完全的任務導向 ( 責任制 ) 嗎?

可以,而且這個任務是很妙的。在科學園區,你通常會被賦予特定的任務和時間要求,你必須在指定時間內完成這些任務。但作為一位教授,你可以自行決定自己的任務目標。你可以決定一年要發表多少篇論文,可能多達 10 篇,也可能少至只有 1 篇。在台灣成為教授後,其實不太會面臨升遷壓力,甚至可以不發表論文,這完全取決於教授自己。


Q10 : 在研究這一條路上,您與非常多政府部門和金融單位合作,這會給您或者您主持的研究帶來哪些正面或負面的影響?

絕大多數的情況之下,都是好的。正如之前提到的,由於 Computer Science 是一門應用科學,通常會與現實世界的資料和問題相連結,因此沒有接觸真實資料可能會感到有點脫節。透過產學合作,學生可以先行接觸到真實世界的問題,這對他們來說是相當有趣的。同時這對學生也是好的,因為大多數學生未來都會進入業界發展,因此提前接觸真實世界的資料對他們而言是有幫助的。

Q10-1 : 我好奇和同政府部分和金融單位合作,是否可能會因為對方也有一些目標,對您的研究造成一些限制?

產學合作算是額外的去賺別人的錢,當然這也意味著一定必須投入更多時間與精力,上述提到完全的責任制是指完全待在中研院,不額外接產學專案的時候。但我認為,廠商通常會尊重教授所攜帶的專業知識,在時間上給予一定的彈性。雖然合作單位可能對進度和成果有一定的期望和壓力,但畢竟就是拿別人的錢,但時間上的自由度不會受到很大的影響。

Q10-2:研究這個部分,會受到研究經費的影響嗎?

事實上中研院作為一個研究機構,通常會有預算專門用於支持教授和研究團隊的研究活動,這種預算的保障使得教授在研究上相對較少有經費方面的壓力。相較於其他教授需要自己申請研究計畫來爭取經費招募學生而言,中研院是比較沒有這方面的壓力的,在台灣這個 By Default 的經費保障可以確保我們的研究不會連經費都要從零開始。


Q11 : 您曾遇過印象最深刻的挫折是什麼,如何調適與克服?

一開始在做財務和 ML 結合的這一塊,投稿的時候其實是相當困難的,因為不知道要投到哪裡去。當初有點無所適從,投了很多期刊都被 Reject 。過了兩年之後,終於找到一個 Operational Research 相關的雜誌適合刊登這些研究成果,並竭盡所能去適應這些期刊喜歡的文風,才終於比較少被 Reject。


Q12 : 在 Text Mining 的領域之中,我們注意到其與機器學習似乎有交集,即如何將帶有模糊地帶的語意轉化為一個特定的模型。除此之外,您認為 Text Mining 跟 Machine Learning 還有哪些異同呢?

Machine Learning 是一個非常廣泛的概念,而 Text Mining 則是其其中一個方向,專注於針對文字進行信息挖掘。你可能會好奇 NLP ( Natural Language Processing ) 究竟又是如何,事實上這些問題的邊界都是很模糊的。Text Mining 比較像是一個目的,在大量的文字中找到有用的訊息,至於「有用的」的定義則取決於你的目標。NLP 則是 ML 中實現這一目的的方法之一,當然其中還有其他細節。ML 和 Text Mining 可說是包含的關係。

Q12-1 : 據我先前所看到的文章,Text Mining 的目的是提取語意,但機器本身並無法直接理解語意,而是透過某些隨機的過程去做處理,那這個過程是否就是老師剛剛所說的 NLP ?

NLP 比較像是模擬建立語言的模型的過程,你有你的語言模型,我有我的語言模型,而機器學習在這個領域上做的,就是嘗試建立一個「大家平常大概都怎麼講話的模型」。在 BERT 的早期,這個過程主要依賴於隨機性。然而,GPT 相較於 BERT 更為複雜,它引入了一些機制,使其不僅限於單純的文字接龍,還能建立回饋機制,使其生成的語言更貼近人類表達方式。同時,開發 GPT 時還請了非洲的一些人來標註文字資料,這也算是一種 Text Mining。

但當今不少 Text Mining 的問題已經可以被這些大型的語言模型解決,GPT的出現使得許多以前無法實現的研究變得可能。我們需要思考的是,這些模型還存在哪些限制或表現不佳的情況,或是ChatGPT目前還做不到或只能做為一個步驟的,抑或是表現的很不好的 ( 例如數學 ) 。這也跟你接下來的第13題有所相關,我們應該思考的是在ChatGPT之上的問題,類似於如何彌補其不足之處。


Q13 : 在數年前機器學習逐漸成為電資領域的主流,而人工智慧(如ChatGPT)最近更是引起轟動,作為研究機器學習領域的研究者,這些發展是否也超出了您的預期?您對機器學習和人工智慧未來發展的看法為何?

是啊,確實是超出我的預期。不過其實觀看機器學習的發展,NLP這一塊在以前是相對難做的,在過去,NLP相對較困難,因此在 2014 年以前,大多數 Lab 都專注於多媒體方面的研究,因為文字很難用規則來描述。然而,2014年 word2vec 模型的出現是一個重大突破,它讓人們開始意識到機器可能能夠「理解」語意了。隨後,2018年BERT的出現進一步推動了NLP領域的發展,BERT-based 的研究直到去年底,都佔領了 ML 的 NLP 這個領域,包括他的很多變形。隨後,ChatGPT 的出現是一個更大的突破,它提供了一個界面讓每個人都可以使用,以一種鮮明又暴力的方式迅速打入了大眾的印象。

Q13-1 : 所以可以說,大家都知道AI,但直到ChatGPT出現才真的讓大家理解AI可以這樣運用?

最明顯的變化是在業界,以前當你跟老闆提到 BERT,他們可能完全不了解它是什麽,也不知道它的應用,可能就只知道他會 Work。然而,現在只要你熟悉 ChatGPT 的使用方式,你可能就能接到非常多業務機會,這是因為一旦有了應用場景,人們就會開始有想像,開始思考這個技術如何能有效幫助他們。

技術是它風行的其中一個原因,它擁有一個強大且可靠的模型,不會生成一些難以理解的結果。然而,最主要的原因還在於它以一種巧妙的方式開始它的服務。相較於大多數的程式只放在 Github 上公開 code ,它開發了一個介面讓大家都能實際使用。

最近政府部門與企業也在思考如何運用這項技術。總結而言,我覺得人們需要透過演示來真實體驗新技術,而微軟在這方面做得相當出色。

有一次,我試著使用ChatGPT來幫我修短一篇文章。起初,我只是抱著試試看的態度,沒想到它的表現竟然如此出色。它不僅能夠將信件編寫的文情並茂,而且可以即時進行修改,經過四五次的嘗試,他甚至能夠寫出一篇我的老師才能夠寫出來的信件。這不僅提升了效率,縮短各種知識交劉的 Gap ,還對我們產生了很大的影響。最直接的問題是:人們需要學習到什麼程度?畢竟有些事情已經不需要自己去記憶,因為機器都可以幫助我們完成。那剩下要做的就是如何理解機器生成的內容,並判斷其正確性。如果我們具備這樣的能力,那確實能帶來很多重大的改變。

Q14 : 承上題,曾有其他學者認為資訊系未來的處境將會因為這些科技的衝擊更為艱辛(例如軟體工程師的職位可能會因此限縮),您的看法是?

確實就如你說的,以軟體工程師為例,過去可能需要 10 個人才能完成一份程式碼的撰寫,現在或許只要 1 個人理解 ChatGPT 生成的程式碼並對其進行修改即可。更何況事實上,真正擅長撰寫程式碼的人本就為數不多,很多人的編程能力很普通,甚至不及機器。因此,我們需要思考人類在哪些方面應該擁有優勢,或者說,如何贏過ChatGPT?我覺得資訊整合的能力很重要,ChatGPT 確實可以生成大量內容,但正確性如何就需要依賴你本來具有的知識。

Q14-1 : 我們曾經在搜尋資料時,發現對於AI的研究,未來會越來越難做,這一點是真的嗎?

確實,你可以想像針對AI的研究,前人已經完成了許多困難的基礎工作,剩下就是一些偏向應用面的研究。這是因為大公司基本上把涉及基礎的研究都做完了,而這些研究需要的算力,是一般的學校或小型企業無法負荷的。這個現象可以追溯至 2014 年 word2vec 模型問世時,當時相關的領域有關的 paper 有大概 1/3 都是由 Microsoft , Meta , Alibaba 這些大型企業發表的。重要的是大企業擁有很多資料,例如 Alibaba 就因此能常常發表論文,因為他們到處都是資料。從這兩個角度來看,學術界是很難跟業界去比較的,所以在研究上遭遇困難都是很常見的情況。

舉例而言,我曾聽過國外一位教 NLP 的教授,他在機器翻譯領域被視為元老級人物,然而當 Deep Learning 技術崛起之後,他原本的研究方式完全無法與之匹敵。因為他擁有的資源有限,要用 Deep Learning 訓練一份資料可能需要花費多達兩個禮拜。因此後來,他決定放棄在機器翻譯領域的研究,轉而專注於其他領域的問題。像是他嘗試讓機器能夠去改托福的考卷,並模擬改卷的情況(兩個機器評分差太大則交給人看)並觀察成效。然而,現在 NLP 的老師已經很少在研究核心技術了,更多的是轉往應用的層面,或者選擇做一些資料量較小的語言。主流上的研究被大公司所壟斷,資源上就已存在巨大差異了。

Q15 : 最後,對於在資訊領域學習或者是有意踏入資訊領域的學生,您會給予什麼樣的鼓勵與建議?

想踏入資訊領域要有個 Mindset,或說要能接受這是一個變化非常快速的領域。可能今天重要的事物,明天就變得不再重要,只因為突然有一個新技術橫空出世。在這個領域中,我們需要深刻思考哪些能力是不可或缺的。
對我而言,我認為基礎能力非常重要,就像你不會因為計算機可以幫你計算,就不學習計算一樣。現在的趨勢是,你可能無須硬記死背大多數事物,但你需要具備理解並解決問題的能力。同時,適應性和好奇心也是重要的。有些時候我會問學生:「你來讀資訊,你真的不會想知道背後的原理嗎?為什麼看到你的數據時,都是我覺得哪邊不尋常,而非你也覺得哪邊不尋常呢?」
如果你只想要別人告訴你怎麼做,那進入資訊領域恐怕會很辛苦,因為這在根本上就不是這樣的一個領域。
因此,培養好奇心、解決問題的能力以及快速適應能力是非常重要的。快速適應能力與基礎能力密切相關。如果你的基礎不穩固,你的根是虛的,那麽一旦上層有所變動,你就需要全盤跟進調整。但如果你的基礎穩固,你就能夠在任何領域中發展,你也會感到踏實。例如,我看學生的程式時,發現他用了很多的套件,但當我問及其中的細節,卻會發現他對其中內容似懂非懂,這種現象在當今這個工具發達的時代很常見,但此情形對於學習來說其實並不理想。

Q15-1 : 資工系流傳的話:「如果 Code Work 了,那就不要動他」是否就與您的精神相違背了?

是的。

這個網誌中的熱門文章

王瀚宇(R02網媒, 赤燭遊戲共同創辦人)

林于智 (B01/R05, Google Software Engineer, Youtuber [史九87])

劉邦鋒 (台大資訊系教授)