FinePDFs:面向长文本模型的 PDF 语料
- 发布方:Hugging Face(InfoQ,2025-09-15)。
- 规模:4.75 亿份 PDF、覆盖 1,733 种语言、约 3 万亿 tokens,总体积 3.65 TB。
- 亮点:针对长期被认为难以处理的 PDF 文档进行结构化清洗,为多语种、长上下文模型训练提供高质量样本。
使用建议
- 纳入数据治理:建立去重、脱敏流程,避免版权与敏感信息风险。
- 分层采样:根据业务场景(法规、技术、学术等)筛选子集,减少训练成本。
- 配套工具链:搭配
pdfminer
,PyMuPDF
或自研解析流水线,将 PDF 转换为结构化文本。
pgSCV 0.15.0:PostgreSQL 监控出口
- 发布方:CHERTS 社区(PostgreSQL.org,2025-09-17)。
- 特性更新:
- 增强 PostgreSQL v18 支持。
- 新增 AWS Aurora Postgres 采集,支持
pg_is_wal_replay_paused()
指标。 - Patroni Collector 增加
skip_conn_error_mode
选项,提升容灾场景稳定性。
部署要点
- 与 Prometheus 集成:在
prometheus.yml
中新增pgscv
job,并检验 Exporter 的性能开销。 - 指标分组:将集群状态、复制延迟、WAL 重放等关键指标纳入 Grafana 面板。
- 权限控制:为 Exporter 创建最小权限的数据库用户,限制只读视图。
额外提示
- 在使用海量 PDF 语料时,务必评估存储与带宽成本,可结合对象存储分区与生命周期管理策略。
- 对数据库监控组件的升级应与告警规则同步,避免指标命名变更导致监控盲区。
参考事件
- InfoQ:《Hugging Face Releases FinePDFs: a 3-Trillion-Token Dataset Built from PDFs》,2025-09-15。
- PostgreSQL.org:《pgSCV 0.15.0 released!》,2025-09-17。