PSA:2025年,美國最大的社群論壇網站Reddit開啟了貼文自動翻譯功能,透過AI翻譯後的英文內容,幾乎能夠以假亂真,以為是台灣用戶在上面發文。
該死的巴別塔計畫#
過去,Reddit大部分貼文的語言都是英文的,只有非常少部份中文社區。根據我有限的見識,除了理中客聚集地r/China_irl、支黑俱樂部r/KanagawaWave、平安喜樂r/AsiaTripper這類社區之外,幾乎都是英文的內容。
現在自動翻譯開起來之後,隨便google一個在台灣很冷門的題目,就很容易找到翻譯後的Reddit文章。然後,要搜尋Reddit上的真正中文社區就很困難了。
Reddit手機APP很久以前就有自動翻譯功能,不過僅限使用者手動開啟才會啟用。
2024年,Reddit將使用者資料賣給AI公司訓練之後,疑似獲得了更加強大的語言模型助陣,讓他們能夠產出更好的翻譯文本,行文非常接地氣。
現在Reddit親自下場擾民:各sub的post會自動翻譯為各國語言,並出現在Google搜尋結果。有人在r/ModSupport詢問,基本上證實了自動翻譯機制的存在。
但是!Reddit站內搜尋到的文章依然都是保持英文的結果。
這搞得好像Reddit上的中文貼文多起來的假象。
下圖的貼文全部都是自動翻譯過的內容,原始語言都是英文喔!
Reddit甚至連sub說明都會一起翻譯!
我個人覺得這真的很惱人,以前這是內容農場網站在幹的事情。有些英語或西語新聞網站會機器翻譯為中文,污染搜尋結果。每次搜尋Linux資料,除了CSDN的低品質內容之外,就是這些邊角料讓人糟心。
我到Reddit就是要看英文資料的,現在一不小心就會跑出其他語言翻譯後的內容。可能是英文翻譯為中文,或是中文翻譯為日文!
Reddit站方現在很明顯是故意讓Google bot索引這些翻譯後的文章的。陌生的使用者一不小心就會誤解原始貼文的語言,然後直接回覆。例如下圖的例子:
翻譯後的貼文,上方只有一小個「See Original Post」的按鈕,非常容易誤導人呀!我不想看到這種虛假的鄉民語言!
我覺得Reddit啟用AI翻譯之後的好處,大概就是終於實裝了中文界面。Reddit公司長久以來似乎都沒有關注歐美市場以外的用戶,現在起碼國際化一些了。
在Google搜尋過濾翻譯後的Reddit貼文#
Reddit翻譯機制是在貼文網址結尾加上?tl=語言代碼。在造訪特定sub的時候也有效,例如https://www.reddit.com/r/changemyview/?tl=zh-hant
所以應該可以寫個網頁規則過濾掉。譬如搜尋時候關鍵字加上"-tl="過濾。
使用uBlock Origin或者uBlacklist擴充功能,加入以下過濾規則:
/.*reddit\.com.*\?tl=[a-z]{1,3}/
參考: How to stop auto-translated Reddit results on Google ?
這樣搜尋的時候,翻譯後的貼文就不會出現了。
但是,真香#
雖然一開始我很反對Reddit這種作法,可是後來幾個月後,真香。在Google搜尋結果看到中文翻譯的貼文不會那麼反感了。
Reddit後來改版了按鈕,顯示更大的「Translations active Show original」,讓人知道這是翻譯後的貼文。
不過如果是一般閒話家常的話題,翻譯成中文就很有殺傷力了!
Reddit可以提供許多中文圈缺乏的歐美在地情報,不用經過「XX翻譯家」轉傳二手資訊。
既然語言不再是問題,台灣那些以翻譯Reddit爆文維生的meme粉專(會在盜來的圖片上加上xxx翻譯的)可以收一收了。人們透過自動翻譯就能接觸到Reddit上的第一手訊息,不必依賴翻譯人士的篩選,多一層神秘濾鏡。
然後在語言模型加持下,他們說話的語氣就跟台灣鄉民一模一樣!感覺很親切。它把英語sub變成好像是台灣PTT鄉民在講話一樣自然,連「靠北」「母湯」都會出現,難以想像他們到底蒐羅了多少語料庫。
目前最大的問題是,Reddit的自動翻譯搞不清楚台灣繁體中文和香港繁體中文的差別,導致常常會出現書面語與粵語夾雜的情況。
搜尋繁體結果彈出粵語,看上去更惱人了。
我覺得各sub的Mod應該要可以選擇是否開啟自動翻譯的。例如r/China_irl和r/KanagawaWave應該將這個功能關閉了,免得一些政治不正確反人類的用語被超管注意到吧www