作者 | Robert Krzaczyński
譯者 | 平川
Hugging Face 發(fā)布了?FineTranslations,這是一個(gè)大規(guī)模多語(yǔ)言數(shù)據(jù)集,包含覆蓋英語(yǔ)和其他 500 多種語(yǔ)言的并行文本、超過(guò) 1 萬(wàn)億個(gè) Token。該數(shù)據(jù)集是通過(guò)使用 Gemma3 27B 將 FineWeb2 語(yǔ)料庫(kù)中的非英語(yǔ)內(nèi)容翻譯成英語(yǔ)來(lái)創(chuàng)建的,整個(gè)數(shù)據(jù)生成流程被設(shè)計(jì)成可復(fù)現(xiàn)且公開(kāi)可查的。
該數(shù)據(jù)集主要用于提高機(jī)器翻譯的質(zhì)量,特別是將英語(yǔ)翻譯成其他語(yǔ)言。對(duì)于許多資源比較少的語(yǔ)言,效果還比較差。通過(guò)將非英語(yǔ)的原始文本翻譯成英語(yǔ),F(xiàn)ineTranslations 提供了適用于對(duì)現(xiàn)有翻譯模型進(jìn)行微調(diào)的大規(guī)模并行數(shù)據(jù)。內(nèi)部評(píng)估表明,在訓(xùn)練僅限英語(yǔ)的模型時(shí),生成的英語(yǔ)文本效果與 FineWeb 相當(dāng),并且這些數(shù)據(jù)可以在翻譯之外的任務(wù)中重用。
除了翻譯之外,Hugging Face 報(bào)告稱(chēng),生成的英語(yǔ)語(yǔ)料庫(kù)保留了源語(yǔ)言的大量文化和上下文信息。在內(nèi)部實(shí)驗(yàn)中,使用翻譯后的英語(yǔ)文本訓(xùn)練出來(lái)的模型,其性能與使用原始 FineWeb 數(shù)據(jù)集訓(xùn)練的模型相當(dāng)。這表明,對(duì)于僅限英語(yǔ)的模型預(yù)訓(xùn)練來(lái)說(shuō),F(xiàn)ineTranslations 也可以作為一個(gè)高質(zhì)量的補(bǔ)充。
該數(shù)據(jù)集來(lái)源于?FineWeb2,它聚合了 2013 年至 2024 年間從 CommonCrawl 快照中收集的多語(yǔ)言 Web 內(nèi)容。為了減少由高度重復(fù)或特定領(lǐng)域內(nèi)容(如宗教文本和維基百科頁(yè)面)所導(dǎo)致的偏差,其中只包含 bible_wiki_ratio 低于 0.5 的語(yǔ)言子集。每種語(yǔ)言最多處理了 500 億個(gè) Token,優(yōu)先應(yīng)用 FineWeb2-HQ 的質(zhì)量分類(lèi)器(如有可用),否則使用隨機(jī)抽樣。
Hugging Face 使用?datatrove 框架?完成了大規(guī)模的翻譯工作。該框架在 Hugging Face 集群上實(shí)現(xiàn)了強(qiáng)大的檢查點(diǎn)機(jī)制、異步執(zhí)行和 GPU 的高效利用。文檔被分割成最多包含 512 個(gè) Token 的塊,為了保持跨段落上下文的連貫性,他們采用了滑動(dòng)窗口策略。為了減輕大規(guī)模翻譯中常見(jiàn)的問(wèn)題,Hugging Face 引入了額外的保護(hù)措施,包括早期對(duì)惡意或垃圾內(nèi)容的分類(lèi)、嚴(yán)格的格式約束,以及確保換行與結(jié)構(gòu)一致性的后處理流程。
每個(gè)數(shù)據(jù)集條目包含原始文本塊和翻譯文本塊、語(yǔ)言和字符集標(biāo)識(shí)符、Token 計(jì)數(shù)、教育質(zhì)量評(píng)分,以及指向原始 CommonCrawl 數(shù)據(jù)源的引用。該數(shù)據(jù)集可通過(guò) Hugging Face 數(shù)據(jù)集庫(kù)訪問(wèn)(支持流式處理,可進(jìn)行大規(guī)模處理),或直接通過(guò)基于 datatrove 的管道使用。
Achref Karoui 在評(píng)論此次發(fā)布時(shí)表示:
太棒了!這次發(fā)布將彌合差距,讓各個(gè)社區(qū)都能夠更好地將流行模型與他們的語(yǔ)言相匹配。
FineTranslations 現(xiàn)已在 Hugging Face 上提供。該數(shù)據(jù)集遵循開(kāi)放數(shù)據(jù)共享署名(ODC-By)v1.0 許可,其使用受 CommonCrawl 的條款約束。