15万亿开源高质量训练数据集，训练大模型必备！

2025-12-19

关注CAIE，国内头部AI人才认证、培训体系，助你在职场升职加薪。

CAIE注册人工智能工程师

公众号作者

CAIE，全称 Certifed Artifcial Intelligence Engineer（人工智能工程师），简称 CAIE（赛一），是人工智能领域的技能等级认证。旨在评估和培养具备人工智能理论基础与实战能力的职业人士。

最近两年，AI大模型的参数规模越来越大，对数据的需求也水涨船高，早就突破了万亿token的量级。但模型架构可以开源共享，高质量数据却很难获取。OpenAI、谷歌这样的商业公司有自己的专属爬虫和数据处理流程，能做出优质的私有数据集。

而开源社区只能依赖CommonCrawl这样的公开网页快照，可这些原始数据里混着大量垃圾数据，比如重复的网站导航、弹窗广告、无意义的乱码，还有很多重复内容，直接用会严重拖垮模型性能。

为了解决这些问题，全球著名开源平台HuggingFace花了多年时间，基于近十年的96个Common Crawl快照，打造出了高质量FineWeb数据集。不仅规模达到15万亿token，足够训练超大规模模型，还公开了从数据提取到最终发布的全部细节，连使用的工具和实验模型都一并开源，相当于给开源社区提供了一套可直接套用的数据制作说明书。

FineWeb能成为优质数据集，靠的不是运气，而是一套经过反复验证的精细化处理流程。就像制作精品食材需要经过挑选、清洗、加工等多道工序，FineWeb的处理也分五个关键步骤，每一步都在为数据质量把关。

CommonCrawl提供两种数据格式，一种是包含完整网页信息的WARC文件，另一种是只提取文本的WET文件。以前很多人图方便直接用WET文件，但HuggingFace发现，WET文件里藏着很多无效内容，比如网站导航、广告弹窗这些没用的信息，占比高达30%，会干扰模型学习。

于是研究研究团队改用Trafilatura工具从WARC文件中提取文本，这个工具就像有一双“火眼金睛”，能精准识别网页里的核心内容，把那些无关的“杂质”过滤掉。虽然这样做增加了一些计算成本，但效果很明显：用Trafilatura提取的文本训练模型，准确率比用WET文件的模型高出不少，有效内容占比从68%提升到了92%，这笔投入完全值得。

提取出文本后，首先要做的是“粗筛”，把明显的低质量数据剔除。这一步主要做三件事：首先是用URL黑名单过滤掉成人内容、恶意网站这类违规数据；

然后用专门的语言识别工具，只保留英语置信度足够高的文本，避免多语言混杂的低质量内容；最后根据文档长度、字符重复率等指标，剔除那些太短或全是重复字符的无意义文档。

经过这一轮筛选，原始数据从98万亿token精简到36万亿token，去掉了六成多的垃圾数据，形成了一个初步干净的数据池，为后续处理打下基础。

网页数据里有很多重复内容，比如同一篇文章被多个网站转载，不同时间快照里重复抓取的相同网页。这些重复数据会让模型“学废了”，不仅浪费训练资源，还会降低泛化能力。但去重也是个技术活，处理不好反而会适得其反。

研究团队一开始尝试把所有快照的data合并起来统一去重，结果发现效果很差。原来早期快照的高质量内容本身就少，统一去重后，那些没人转载的低质量内容反而被保留了下来，就像把好苹果和烂苹果放一起筛选，最后剩下的反而多是烂苹果。

后来调整策略，对每个快照单独去重，再把结果合并。这样既去掉了单个快照里的重复内容，又保留了不同快照里的独特优质内容，比如新快照里的技术博客和旧快照里的绝版书籍文本。

同时，研究团队还精准设置了去重参数，只剔除相似度极高的内容，不会误删那些相似但不重复的优质文本。调整后，数据量变成20万亿token，模型准确率也大幅提升。

在去重的基础上，还要进行“精筛”，进一步提升数据质量。他们参考了经典数据集C4的过滤规则，剔除了包含占位文本、特定关键词的低质量文档，但放弃了那些会剔除大量有效数据的规则。

同时，研究团队还自己设计了一套筛选标准。他们收集了50多种文档指标，比如每行结尾有标点的比例、重复行的占比等，通过对比高质量和低质量数据的差异，找出关键筛选阈值。

比如发现高质量数据中，大部分文档每行结尾有标点的比例都很高，于是就把这个比例太低的文档剔除。最终确定了三个核心筛选规则，既去掉了低质量内容，又保留了足够多的有效数据，让模型准确率再次提升。

为了符合数据隐私法规，研究团队还对数据进行了脱敏处理，把文本中的电子邮件地址、公开IP地址等个人敏感信息匿名化。这一步虽然只影响了极少部分数据，但确保了数据集可以安全合规地被广泛使用。

除了基础版FineWeb，研究团队还推出了教育专用版FineWeb-Edu。研究发现，教材、科普文章这类教育文本富含结构化知识和逻辑推理内容，能让模型在知识问答、推理任务上表现更好。但从海量网页中筛选教育内容并不容易，人工标注成本太高，关键词匹配又容易出错。

恭喜你顺利通过CAIE 注册人工智能工程师认证！你的 AI 专业能力已获官方认可。愿你继续在智能时代保持领先，持续进步、不断升级。