FinePDFs:面向长文本模型的 PDF 语料
发布方:Hugging Face(InfoQ,2025-09-15)。
规模:4.75 亿份 PDF、覆盖 1,733 种语言、约 3 万亿 tokens,总体积 3.65 TB。
亮点:针
2025-09-18