什么是Wikipedia Dump
Wikipedia Dump是维基百科定期导出的完整数据库转存文件,包含了维基百科上所有文章的完整内容、编辑历史、用户信息等数据。这些数据以XML格式压缩发布,供研究者、开发者和数据爱好者使用。整个英文维基百科的dump文件超过20GB(压缩后),是一个巨大的知识宝库。
官方下载渠道
维基百科官方在以下地址提供dump文件下载:
- dumps.wikimedia.org — 维基百科官方dump下载站,按语言版本分类,每个语言版本下有完整的数据文件列表。中文维基百科(zhwiki)也在此提供下载。
- 页面中可以选择不同类型的dump:articles(文章内容)、abstracts(摘要)、pagelinks(页面链接)等。
- 更新频率为每月一次完整dump,每日提供增量dump。
主要文件类型说明
| 文件名模式 | 内容 | 大小参考 |
|---|---|---|
| *-pages-articles.xml.bz2 | 全部文章内容 | 英文约22GB |
| *-pages-articles-multistream.xml.bz2 | 多流式文章内容 | 英文约22GB |
| *-abstract.xml.gz | 文章摘要 | 约1GB |
| *-pagelinks.sql.gz | 页面链接关系 | 约4GB |
数据使用方式
下载后的Wikipedia dump可以用于多种场景:搭建离线维基百科镜像站(使用MediaWiki软件导入dump);构建知识图谱(解析XML提取实体和关系);训练自然语言处理模型(利用海量文本数据);全文搜索引擎(使用Elasticsearch等工具索引文章)。对于开发者,可以使用Python的mwxml或mwparserfromhell库来解析dump文件。
下载加速建议
由于Wikipedia dump文件体积较大,直接浏览器下载可能较慢。推荐使用多线程下载工具如aria2或IDM来加速下载。也可以使用磁力古哥搜索"Wikipedia dump 磁力"来查找是否有社区制作的镜像资源。下载完成后建议校验MD5值以确保文件完整性。