2000年前网络文本数据源清单
2026/01/27·StepFun can make mistakes, check important info.
你要生成一个“尽可能全面的 2000 年之前网络文本数据源清单”。请严格按以下要求输出,避免虚假描述与不必要文字。
【任务目标】
- 输出一个条目列表,覆盖 2000 年之前可获得的网络文本数据源。
- 条目数量不少于 50 条,越全面越好。
- 必须覆盖多类别来源(见“覆盖范围”)。
- 以“数据源入口/母源”为主,必要时可补充“可下载集合/索引页”。
【覆盖范围】
- 国际组织 / 政府机构公开报告库
- 图书馆 / 数字图书馆 / 文献数据库
- 早期网络存档服务
- Usenet 群组与邮件列表存档
- BBS / 早期在线论坛归档
- 科研论文与会议录存档(含早期 FTP / Gopher / WAIS 传统资源)
- 新闻站点或报纸历史档案入口
- 行业 / 技术标准文档库
- 其他 1990 年代重要文本集合(含 FTP 镜像、CD-ROM 归档集等)
【每条必须包含的字段(缺一不可)】
1. 数据源名称
2. 时间范围 / 活跃时期
3. 内容概述:说明该数据源包含何种类型的文本与主题范围
4. 访问方式或 URL:真实存在的入口链接或稳定访问路径
5. 主要文本格式或分类标签:HTML、PDF、TXT、ASCII、邮件、WARC、OCR 等,不确定就填写未知
【输出格式】
- 只输出列表,不要写前言、解释、提示。
- 每条用编号“1) 2) 3) …”。
- 每条内部用固定字段标签,换行展示,完全按如下格式输出:
1) 数据源名称 — 一句核心定位
- 时间范围 / 活跃时期:
- 内容概述:
- 访问方式或 URL:
- 主要文本格式或分类标签:
【质量要求(必须满足)】
- “访问方式或 URL”必须是可公开访问的入口或稳定访问路径;禁止虚构链接。
- “内容概述”要写清楚文本类型(报告/法规/会议记录/论文/网页/论坛帖/邮件等)与典型主题。
- 各类别条目要分散分布,避免集中在同一类;同一机构可列不同子库,但不要重复同一入口 URL。
【母源/子源优先级规则】
- 优先输出母源(入口页/检索页/系列总页)。
- 如母源不够清晰,再补充 1 个可下载集合页作为子源。
- 禁止只给单篇文章页而不说明所属集合/系列。
【内部自检(不要输出检查过程)】
- 是否 ≥ 50 条
- 是否每条 6 字段齐全
- 是否每条都有真实 URL
现在开始输出不少于 50 条的清单。
数据源
数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。
你知道中国网络小说的发展史吗?1998-2025年网文研究分析
【引言】中国网络文学作为一种新兴的文学形态,在短短二十余年间经历了从草根创作到文化产业支柱的历史性跨越。从1998年蔡智恒的《第一次的亲密接触》开启先河,到2024年网文IP市场规模突破2985.6亿元,中国网络文学已经成为全球最大的数字内
2000年到2024年IT行业年度关注度较高的技术
大数据技术的快速发展源于2000年代中期Hadoop等技术的出现,但在2011年大数据概念和应用开始迅速普及。腾讯公司于2011年1月21日推出微信 2012年: 技术关注:移动互联网 和APP生态 智能手机的普及导致移动互联网迅速发展,特别是移动APP的崛起(如Instagram、Uber等)。百度云盘上线。华为开始内部研发面向未来的操作系统项目。2013年: 技术关注:云计算与大数据 云计算持续发展,大数据应用扩展...
- 联合国文件数据库 — 国际组织公开报告库
- 美国国会图书馆 — 数字图书馆与文献数据库
- 时间范围 / 活跃时期:1800年至今
- 内容概述:提供美国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
- 访问方式或 URL:https://www.loc.gov/
- 主要文本格式或分类标签:PDF、HTML、TXT
- Internet Archive — 早期网络存档服务
- 时间范围 / 活跃时期:1996年至今
- 内容概述:保存了数十亿个网页、文本、图像、音频和视频文件,包括早期的网站、软件和书籍。
- 访问方式或 URL:https://archive.org/
- 主要文本格式或分类标签:HTML、WARC
- Usenet Archive — Usenet 群组与邮件列表存档
- 水木清华BBS — 早期在线论坛归档
- arXiv — 科研论文与会议录存档
- 时间范围 / 活跃时期:1991年至今
- 内容概述:提供物理学、数学、计算机科学等领域的预印本论文和会议录。
- 访问方式或 URL:https://arxiv.org/
- 主要文本格式或分类标签:PDF、TXT
- JSTOR — 科研论文与会议录存档
- The New York Times Archive — 新闻站点或报纸历史档案入口
- ISO Standards — 行业 / 技术标准文档库
- Project Gutenberg — 其他 1990 年代重要文本集合
- FTP Archives — 其他 1990 年代重要文本集合
- 时间范围 / 活跃时期:1970年代至今
- 内容概述:通过FTP协议提供各种类型的文件下载,包括软件、文档和数据集。
- 访问方式或 URL:https://ftp.gnu.org/ (GNU FTP镜像)
- 主要文本格式或分类标签:未知
- CD-ROM Archives — 其他 1990 年代重要文本集合
- 欧盟官方文件数据库 — 国际组织公开报告库
- 大英图书馆 — 数字图书馆与文献数据库
- 时间范围 / 活跃时期:1000年至今
- 内容概述:提供英国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
- 访问方式或 URL:https://www.bl.uk/
- 主要文本格式或分类标签:PDF、HTML、TXT
- Wayback Machine — 早期网络存档服务
- 时间范围 / 活跃时期:1996年至今
- 内容概述:Internet Archive的网页存档服务,保存了数十亿个网页的历史版本。
- 访问方式或 URL:https://web.archive.org/
- 主要文本格式或分类标签:HTML、WARC
- Google Groups — Usenet 群组与邮件列表存档
- 天涯社区 — 早期在线论坛归档
- 时间范围 / 活跃时期:1999年至今
- 内容概述:中国最大的综合性在线论坛之一,存档了大量关于社会、文化、娱乐等主题的讨论帖。
- 访问方式或 URL:https://bbs.tianya.cn/
- 主要文本格式或分类标签:HTML、TXT
- PubMed — 科研论文与会议录存档
- ScienceDirect — 科研论文与会议录存档
- The Guardian Archive — 新闻站点或报纸历史档案入口
- IEEE Xplore — 行业 / 技术标准文档库
- HathiTrust — 其他 1990 年代重要文本集合
- BitTorrent Archives — 其他 1990 年代重要文本集合
- World Bank Documents — 国际组织公开报告库
- 法国国家图书馆 — 数字图书馆与文献数据库
- 时间范围 / 活跃时期:8世纪至今
- 内容概述:提供法国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
- 访问方式或 URL:https://gallica.bnf.fr/
- 主要文本格式或分类标签:PDF、HTML、TXT
- Memento — 早期网络存档服务
- Gmane — Usenet 群组与邮件列表存档
- 时间范围 / 活跃时期:2001年至今
- 内容概述:提供邮件列表和新闻组的存档服务,涵盖技术、科学、文化等多个主题。
- 访问方式或 URL:https://gmane.io/
- 主要文本格式或分类标签:ASCII、邮件
- 猫扑社区 — 早期在线论坛归档
- 时间范围 / 活跃时期:1997年至今
- 内容概述:中国最早的娱乐社区之一,存档了大量关于娱乐、文化、社会等主题的讨论帖。
- 访问方式或 URL:https://www.mop.com/
- 主要文本格式或分类标签:HTML、TXT
- CiteSeerX — 科研论文与会议录存档
- SpringerLink — 科研论文与会议录存档
- The Washington Post Archive — 新闻站点或报纸历史档案入口
- ASTM Standards — 行业 / 技术标准文档库
- Open Library — 其他 1990 年代重要文本集合
- Usenet Mirrors — 其他 1990 年代重要文本集合
- CD-ROM Software Archive — 其他 1990 年代重要文本集合
- 国际货币基金组织文件数据库 — 国际组织公开报告库
- 德国国家图书馆 — 数字图书馆与文献数据库
- Archive-It — 早期网络存档服务
- Mail-Archive — Usenet 群组与邮件列表存档
- 西祠胡同 — 早期在线论坛归档
- 时间范围 / 活跃时期:1998年至今
- 内容概述:中国最早的城市社区之一,存档了大量关于城市生活、文化、社会等主题的讨论帖。
- 访问方式或 URL:https://www.xici.net/
- 主要文本格式或分类标签:HTML、TXT
- DBLP — 科研论文与会议录存档
- Wiley Online Library — 科研论文与会议录存档
- The Wall Street Journal Archive — 新闻站点或报纸历史档案入口
- ANSI Standards — 行业 / 技术标准文档库
- ManyBooks — 其他 1990 年代重要文本集合
- 时间范围 / 活跃时期:2004年至今
- 内容概述:提供数千本免费电子书,包括经典文学作品、历史文献和科学著作。
- 访问方式或