快轉到主要內容

講講Reddit的自動中文翻譯功能,Google搜尋遍地都是翻譯後的貼文

· 民國114年乙巳年
·
切換繁體/簡體
分類   人文藝術 隨筆
標籤   Reddit Google Search
目錄

PSA:2025年,美國最大的社群論壇網站Reddit開啟了貼文自動翻譯功能,透過AI翻譯後的英文內容,幾乎能夠以假亂真,以為是台灣用戶在上面發文。

該死的巴別塔計畫
#

過去,Reddit大部分貼文的語言都是英文的,只有非常少部份中文社區。根據我有限的見識,除了理中客聚集地r/China_irl、支黑俱樂部r/KanagawaWave、平安喜樂r/AsiaTripper這類社區之外,幾乎都是英文的內容。

現在自動翻譯開起來之後,隨便google一個在台灣很冷門的題目,就很容易找到翻譯後的Reddit文章。然後,要搜尋Reddit上的真正中文社區就很困難了。

142f2596-8e8e-4e4d-974f-5089f5931daa.webp

Reddit手機APP很久以前就有自動翻譯功能,不過僅限使用者手動開啟才會啟用。

2024年,Reddit將使用者資料賣給AI公司訓練之後,疑似獲得了更加強大的語言模型助陣,讓他們能夠產出更好的翻譯文本,行文非常接地氣。

現在Reddit親自下場擾民:各sub的post會自動翻譯為各國語言,並出現在Google搜尋結果。有人在r/ModSupport詢問,基本上證實了自動翻譯機制的存在。

但是!Reddit站內搜尋到的文章依然都是保持英文的結果。

這搞得好像Reddit上的中文貼文多起來的假象。

下圖的貼文全部都是自動翻譯過的內容,原始語言都是英文喔!

1a586680-6e55-44ba-9ba9-27e9bd58d765.webp

Reddit甚至連sub說明都會一起翻譯!

我個人覺得這真的很惱人,以前這是內容農場網站在幹的事情。有些英語或西語新聞網站會機器翻譯為中文,污染搜尋結果。每次搜尋Linux資料,除了CSDN的低品質內容之外,就是這些邊角料讓人糟心。

我到Reddit就是要看英文資料的,現在一不小心就會跑出其他語言翻譯後的內容。可能是英文翻譯為中文,或是中文翻譯為日文!

Reddit站方現在很明顯是故意讓Google bot索引這些翻譯後的文章的。陌生的使用者一不小心就會誤解原始貼文的語言,然後直接回覆。例如下圖的例子:

5e9aab23-1296-46f2-ba27-856c1c42a52d.webp

翻譯後的貼文,上方只有一小個「See Original Post」的按鈕,非常容易誤導人呀!我不想看到這種虛假的鄉民語言!

我覺得Reddit啟用AI翻譯之後的好處,大概就是終於實裝了中文界面。Reddit公司長久以來似乎都沒有關注歐美市場以外的用戶,現在起碼國際化一些了。

在Google搜尋過濾翻譯後的Reddit貼文
#

Reddit翻譯機制是在貼文網址結尾加上?tl=語言代碼。在造訪特定sub的時候也有效,例如https://www.reddit.com/r/changemyview/?tl=zh-hant

所以應該可以寫個網頁規則過濾掉。譬如搜尋時候關鍵字加上"-tl="過濾。

使用uBlock Origin或者uBlacklist擴充功能,加入以下過濾規則:

/.*reddit\.com.*\?tl=[a-z]{1,3}/

參考: How to stop auto-translated Reddit results on Google ?

這樣搜尋的時候,翻譯後的貼文就不會出現了。

但是,真香
#

雖然一開始我很反對Reddit這種作法,可是後來幾個月後,真香。在Google搜尋結果看到中文翻譯的貼文不會那麼反感了。

Reddit後來改版了按鈕,顯示更大的「Translations active Show original」,讓人知道這是翻譯後的貼文。

ff6e8b89-1ab0-4316-b5de-c3071d83918e.webp
先說,技術類的文章還是不準確,用詞會誤導人。

不過如果是一般閒話家常的話題,翻譯成中文就很有殺傷力了!

Reddit可以提供許多中文圈缺乏的歐美在地情報,不用經過「XX翻譯家」轉傳二手資訊。

37684781-c0c3-4a5e-b5b2-f07738eaf474.webp

既然語言不再是問題,台灣那些以翻譯Reddit爆文維生的meme粉專(會在盜來的圖片上加上xxx翻譯的)可以收一收了。人們透過自動翻譯就能接觸到Reddit上的第一手訊息,不必依賴翻譯人士的篩選,多一層神秘濾鏡。

然後在語言模型加持下,他們說話的語氣就跟台灣鄉民一模一樣!感覺很親切。它把英語sub變成好像是台灣PTT鄉民在講話一樣自然,連「靠北」「母湯」都會出現,難以想像他們到底蒐羅了多少語料庫。

目前最大的問題是,Reddit的自動翻譯搞不清楚台灣繁體中文和香港繁體中文的差別,導致常常會出現書面語與粵語夾雜的情況。

9a319c1e-e4b1-4ae1-b8e9-7c244a0cea49.webp

搜尋繁體結果彈出粵語,看上去更惱人了。

我覺得各sub的Mod應該要可以選擇是否開啟自動翻譯的。例如r/China_irl和r/KanagawaWave應該將這個功能關閉了,免得一些政治不正確反人類的用語被超管注意到吧www

相關文章

Reddit blackout大關板事件抗議給一般使用者帶來的不便
分類   人文藝術 隨筆
標籤   Reddit ChongLangTV Social Media
部落格文章被內容農場盜文的應對方式
分類   人文藝術 隨筆
標籤   Content Farm Google Search Blogging
你的網站應該加入參訪人數計數器嗎?
分類   人文藝術 隨筆
標籤   Google Search Google Analytics Blogging

此處提供二種留言板。點選按鈕,選擇您覺得方便的留言板。

(留言板載入中)這是Giscus留言板,需要Github帳號才能留言。支援Markdown語法,若要上傳圖片請善用外部圖床。您的留言會在Github Discussions向所有人公開。

Click here to edit your comments.

(留言板載入中)這是Disqus留言板,您可能會看到Disqus強制投放的廣告。為防止垃圾內容,有時留言可能會被系統判定需審核,導致延遲顯示,請見諒。若要上傳圖片請善用外部圖床網站。