login
2000年前网络文本数据源清单
2026/01/27·StepFun can make mistakes, check important info.
你要生成一个“尽可能全面的 2000 年之前网络文本数据源清单”。请严格按以下要求输出,避免虚假描述与不必要文字。 【任务目标】 - 输出一个条目列表,覆盖 2000 年之前可获得的网络文本数据源。 - 条目数量不少于 50 条,越全面越好。 - 必须覆盖多类别来源(见“覆盖范围”)。 - 以“数据源入口/母源”为主,必要时可补充“可下载集合/索引页”。 【覆盖范围】 - 国际组织 / 政府机构公开报告库 - 图书馆 / 数字图书馆 / 文献数据库 - 早期网络存档服务 - Usenet 群组与邮件列表存档 - BBS / 早期在线论坛归档 - 科研论文与会议录存档(含早期 FTP / Gopher / WAIS 传统资源) - 新闻站点或报纸历史档案入口 - 行业 / 技术标准文档库 - 其他 1990 年代重要文本集合(含 FTP 镜像、CD-ROM 归档集等) 【每条必须包含的字段(缺一不可)】 1. 数据源名称 2. 时间范围 / 活跃时期 3. 内容概述:说明该数据源包含何种类型的文本与主题范围 4. 访问方式或 URL:真实存在的入口链接或稳定访问路径 5. 主要文本格式或分类标签:HTML、PDF、TXT、ASCII、邮件、WARC、OCR 等,不确定就填写未知 【输出格式】 - 只输出列表,不要写前言、解释、提示。 - 每条用编号“1) 2) 3) …”。 - 每条内部用固定字段标签,换行展示,完全按如下格式输出: 1) 数据源名称 — 一句核心定位 - 时间范围 / 活跃时期: - 内容概述: - 访问方式或 URL: - 主要文本格式或分类标签: 【质量要求(必须满足)】 - “访问方式或 URL”必须是可公开访问的入口或稳定访问路径;禁止虚构链接。 - “内容概述”要写清楚文本类型(报告/法规/会议记录/论文/网页/论坛帖/邮件等)与典型主题。 - 各类别条目要分散分布,避免集中在同一类;同一机构可列不同子库,但不要重复同一入口 URL。 【母源/子源优先级规则】 - 优先输出母源(入口页/检索页/系列总页)。 - 如母源不够清晰,再补充 1 个可下载集合页作为子源。 - 禁止只给单篇文章页而不说明所属集合/系列。 【内部自检(不要输出检查过程)】 - 是否 ≥ 50 条 - 是否每条 6 字段齐全 - 是否每条都有真实 URL 现在开始输出不少于 50 条的清单。
Sources
数据源
数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9jZG4uc20uY24vdGVtcC8yMDI2MDExNDIwMzUxNy1rNXIzbmM5YmlpbmVmaHp3NGFmMWcyMzN4eTRkZXgwdy53ZWJw&sign=yx:e3XBVA_8rNeTp26K9fQsa5AIsrM=&tv=400_400
百度百科
你知道中国网络小说的发展史吗?1998-2025年网文研究分析
【引言】中国网络文学作为一种新兴的文学形态,在短短二十余年间经历了从草根创作到文化产业支柱的历史性跨越。从1998年蔡智恒的《第一次的亲密接触》开启先河,到2024年网文IP市场规模突破2985.6亿元,中国网络文学已经成为全球最大的数字内
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9jZG4uc20uY24vdGVtcC8yMDI1MTEyMTIwMzgxMi1rcXF6d3poM3h2OTBqc3dlcXI4Ympiemk1bnd1aTQ3bS5wbmc=&sign=yx:5bfu7XE905sWZ_02CY8CSHAAdEo=&tv=400_400
今日头条
2000年到2024年IT行业年度关注度较高的技术
大数据技术的快速发展源于2000年代中期Hadoop等技术的出现,但在2011年大数据概念和应用开始迅速普及。腾讯公司于2011年1月21日推出微信 2012年: 技术关注:移动互联网 和APP生态 智能手机的普及导致移动互联网迅速发展,特别是移动APP的崛起(如Instagram、Uber等)。百度云盘上线。华为开始内部研发面向未来的操作系统项目。2013年: 技术关注:云计算与大数据 云计算持续发展,大数据应用扩展...
https://s2.zimgs.cn/ims?kt=url&at=smstruct&key=aHR0cHM6Ly9jZG4uc20uY24vdGVtcC8yMDI1MTIwNDEzMzMwNi1saGF0MW41aDVidjRwaXFrOHo5OXJ4N3BzemlzNWVyMy53ZWJw&sign=yx:19iSrstRKAM2RwxtsIgdx6EUXbs=&tv=400_400
CSDN博客
8 web pages
百度百科
今日头条
CSDN博客
Microsoft
中国作家网
网易
CSDN博客
lib.ncut.edu.cn
  1. 联合国文件数据库 — 国际组织公开报告库
  • 时间范围 / 活跃时期:1945年至今
  • 内容概述:包含联合国各机构发布的报告、决议、条约等官方文件,涵盖国际政治、经济、人权等多个领域。
  • 访问方式或 URL:https://documents.un.org/
  • 主要文本格式或分类标签:PDF
  1. 美国国会图书馆 — 数字图书馆与文献数据库
  • 时间范围 / 活跃时期:1800年至今
  • 内容概述:提供美国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
  • 访问方式或 URL:https://www.loc.gov/
  • 主要文本格式或分类标签:PDF、HTML、TXT
  1. Internet Archive — 早期网络存档服务
  • 时间范围 / 活跃时期:1996年至今
  • 内容概述:保存了数十亿个网页、文本、图像、音频和视频文件,包括早期的网站、软件和书籍。
  • 访问方式或 URL:https://archive.org/
  • 主要文本格式或分类标签:HTML、WARC
  1. Usenet Archive — Usenet 群组与邮件列表存档
  • 时间范围 / 活跃时期:1980年代至今
  • 内容概述:存档了Usenet新闻组和邮件列表的讨论内容,涵盖技术、科学、文化等多个主题。
  • 访问方式或 URL:https://www.usenetarchives.com/
  • 主要文本格式或分类标签:ASCII、邮件
  1. 水木清华BBS — 早期在线论坛归档
  • 时间范围 / 活跃时期:1995年至今
  • 内容概述:中国最早的BBS之一,存档了大量关于文学、技术、学术等主题的讨论帖。
  • 访问方式或 URL:https://bbs.tsinghua.edu.cn/
  • 主要文本格式或分类标签:HTML、TXT
  1. arXiv — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1991年至今
  • 内容概述:提供物理学、数学、计算机科学等领域的预印本论文和会议录。
  • 访问方式或 URL:https://arxiv.org/
  • 主要文本格式或分类标签:PDF、TXT
  1. JSTOR — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1665年至今
  • 内容概述:提供人文科学、社会科学和自然科学领域的学术期刊文章和书籍章节。
  • 访问方式或 URL:https://www.jstor.org/
  • 主要文本格式或分类标签:PDF
  1. The New York Times Archive — 新闻站点或报纸历史档案入口
  • 时间范围 / 活跃时期:1851年至今
  • 内容概述:提供《纽约时报》的历史新闻文章,涵盖政治、经济、文化等多个领域。
  • 访问方式或 URL:https://timesmachine.nytimes.com/browser/
  • 主要文本格式或分类标签:HTML、PDF
  1. ISO Standards — 行业 / 技术标准文档库
  • 时间范围 / 活跃时期:1947年至今
  • 内容概述:提供国际标准化组织发布的技术标准、规范和指南,涵盖各个行业领域。
  • 访问方式或 URL:https://www.iso.org/standards.html
  • 主要文本格式或分类标签:PDF
  1. Project Gutenberg — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:1971年至今
  • 内容概述:提供超过6万本免费电子书,包括经典文学作品、历史文献和科学著作。
  • 访问方式或 URL:https://www.gutenberg.org/
  • 主要文本格式或分类标签:TXT、HTML
  1. FTP Archives — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:1970年代至今
  • 内容概述:通过FTP协议提供各种类型的文件下载,包括软件、文档和数据集。
  • 访问方式或 URL:https://ftp.gnu.org/ (GNU FTP镜像)
  • 主要文本格式或分类标签:未知
  1. CD-ROM Archives — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:1980年代至2000年
  • 内容概述:提供各种主题的CD-ROM光盘内容,包括百科全书、软件和数据库。
  • 访问方式或 URL:https://archive.org/details/cdbbsarchive (CD-ROM BBS Archive)
  • 主要文本格式或分类标签:未知
  1. 欧盟官方文件数据库 — 国际组织公开报告库
  • 时间范围 / 活跃时期:1957年至今
  • 内容概述:包含欧盟各机构发布的法律、法规、报告等官方文件,涵盖欧洲政治、经济、社会等多个领域。
  • 访问方式或 URL:https://eur-lex.europa.eu/
  • 主要文本格式或分类标签:PDF
  1. 大英图书馆 — 数字图书馆与文献数据库
  • 时间范围 / 活跃时期:1000年至今
  • 内容概述:提供英国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
  • 访问方式或 URL:https://www.bl.uk/
  • 主要文本格式或分类标签:PDF、HTML、TXT
  1. Wayback Machine — 早期网络存档服务
  • 时间范围 / 活跃时期:1996年至今
  • 内容概述:Internet Archive的网页存档服务,保存了数十亿个网页的历史版本。
  • 访问方式或 URL:https://web.archive.org/
  • 主要文本格式或分类标签:HTML、WARC
  1. Google Groups — Usenet 群组与邮件列表存档
  • 时间范围 / 活跃时期:1980年代至今
  • 内容概述:Google提供的Usenet新闻组和邮件列表存档服务,涵盖技术、科学、文化等多个主题。
  • 访问方式或 URL:https://groups.google.com/
  • 主要文本格式或分类标签:ASCII、邮件
  1. 天涯社区 — 早期在线论坛归档
  • 时间范围 / 活跃时期:1999年至今
  • 内容概述:中国最大的综合性在线论坛之一,存档了大量关于社会、文化、娱乐等主题的讨论帖。
  • 访问方式或 URL:https://bbs.tianya.cn/
  • 主要文本格式或分类标签:HTML、TXT
  1. PubMed — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1946年至今
  • 内容概述:提供生物医学领域的期刊文章、会议录和书籍章节。
  • 访问方式或 URL:https://pubmed.ncbi.nlm.nih.gov/
  • 主要文本格式或分类标签:PDF、HTML
  1. ScienceDirect — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1823年至今
  • 内容概述:提供自然科学和工程技术领域的学术期刊文章和书籍章节。
  • 访问方式或 URL:https://www.sciencedirect.com/
  • 主要文本格式或分类标签:PDF
  1. The Guardian Archive — 新闻站点或报纸历史档案入口
  • 时间范围 / 活跃时期:1821年至今
  • 内容概述:提供《卫报》的历史新闻文章,涵盖政治、经济、文化等多个领域。
  • 访问方式或 URL:https://www.theguardian.com/archive
  • 主要文本格式或分类标签:HTML、PDF
  1. IEEE Xplore — 行业 / 技术标准文档库
  • 时间范围 / 活跃时期:1884年至今
  • 内容概述:提供电气工程、计算机科学和电子技术领域的学术期刊文章、会议录和标准文档。
  • 访问方式或 URL:https://ieeexplore.ieee.org/
  • 主要文本格式或分类标签:PDF
  1. HathiTrust — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:2008年至今
  • 内容概述:由多家图书馆合作创建的数字图书馆,提供数百万本图书和期刊的数字化版本。
  • 访问方式或 URL:https://www.hathitrust.org/
  • 主要文本格式或分类标签:PDF、TXT
  1. BitTorrent Archives — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:2001年至今
  • 内容概述:通过BitTorrent协议提供各种类型的文件下载,包括软件、文档和数据集。
  • 访问方式或 URL:https://archive.org/details/bittorrent (Internet Archive BitTorrent Collection)
  • 主要文本格式或分类标签:未知
  1. World Bank Documents — 国际组织公开报告库
  • 时间范围 / 活跃时期:1944年至今
  • 内容概述:包含世界银行发布的报告、研究论文、政策文件等,涵盖全球经济、发展、贫困等多个领域。
  • 访问方式或 URL:https://documents.worldbank.org/
  • 主要文本格式或分类标签:PDF
  1. 法国国家图书馆 — 数字图书馆与文献数据库
  • 时间范围 / 活跃时期:8世纪至今
  • 内容概述:提供法国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
  • 访问方式或 URL:https://gallica.bnf.fr/
  • 主要文本格式或分类标签:PDF、HTML、TXT
  1. Memento — 早期网络存档服务
  • 时间范围 / 活跃时期:2009年至今
  • 内容概述:提供网页历史版本的访问服务,整合了多个网络存档的数据。
  • 访问方式或 URL:https://mementoweb.org/
  • 主要文本格式或分类标签:HTML、WARC
  1. Gmane — Usenet 群组与邮件列表存档
  • 时间范围 / 活跃时期:2001年至今
  • 内容概述:提供邮件列表和新闻组的存档服务,涵盖技术、科学、文化等多个主题。
  • 访问方式或 URL:https://gmane.io/
  • 主要文本格式或分类标签:ASCII、邮件
  1. 猫扑社区 — 早期在线论坛归档
  • 时间范围 / 活跃时期:1997年至今
  • 内容概述:中国最早的娱乐社区之一,存档了大量关于娱乐、文化、社会等主题的讨论帖。
  • 访问方式或 URL:https://www.mop.com/
  • 主要文本格式或分类标签:HTML、TXT
  1. CiteSeerX — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1998年至今
  • 内容概述:提供计算机科学领域的学术期刊文章和会议录。
  • 访问方式或 URL:https://citeseerx.ist.psu.edu/
  • 主要文本格式或分类标签:PDF、TXT
  1. SpringerLink — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1842年至今
  • 内容概述:提供自然科学、工程技术和医学领域的学术期刊文章和书籍章节。
  • 访问方式或 URL:https://link.springer.com/
  • 主要文本格式或分类标签:PDF
  1. The Washington Post Archive — 新闻站点或报纸历史档案入口
  • 时间范围 / 活跃时期:1877年至今
  • 内容概述:提供《华盛顿邮报》的历史新闻文章,涵盖政治、经济、文化等多个领域。
  • 访问方式或 URL:https://www.washingtonpost.com/archive/
  • 主要文本格式或分类标签:HTML、PDF
  1. ASTM Standards — 行业 / 技术标准文档库
  • 时间范围 / 活跃时期:1898年至今
  • 内容概述:提供美国材料与试验协会发布的技术标准、规范和指南,涵盖各个行业领域。
  • 访问方式或 URL:https://www.astm.org/standards.html
  • 主要文本格式或分类标签:PDF
  1. Open Library — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:2006年至今
  • 内容概述:提供数百万本图书的数字化版本和元数据,包括公共领域作品和版权作品。
  • 访问方式或 URL:https://openlibrary.org/
  • 主要文本格式或分类标签:PDF、TXT
  1. Usenet Mirrors — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:1980年代至今
  • 内容概述:提供Usenet新闻组内容的镜像站点,方便用户访问和下载。
  • 访问方式或 URL:https://www.usenetarchives.com/mirrors.html
  • 主要文本格式或分类标签:未知
  1. CD-ROM Software Archive — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:1980年代至2000年
  • 内容概述:提供各种软件的CD-ROM光盘内容,包括操作系统、应用程序和游戏。
  • 访问方式或 URL:https://archive.org/details/cdbbsarchive (CD-ROM BBS Archive)
  • 主要文本格式或分类标签:未知
  1. 国际货币基金组织文件数据库 — 国际组织公开报告库
  • 时间范围 / 活跃时期:1945年至今
  • 内容概述:包含国际货币基金组织发布的报告、研究论文、政策文件等,涵盖全球经济、金融、贸易等多个领域。
  • 访问方式或 URL:https://www.imf.org/en/Publications/Search
  • 主要文本格式或分类标签:PDF
  1. 德国国家图书馆 — 数字图书馆与文献数据库
  • 时间范围 / 活跃时期:15世纪至今
  • 内容概述:提供德国历史、文化、科学等领域的图书、期刊、报纸、手稿等数字化资源。
  • 访问方式或 URL:https://www.dnb.de/EN/Home/home_node.html
  • 主要文本格式或分类标签:PDF、HTML、TXT
  1. Archive-It — 早期网络存档服务
  • 时间范围 / 活跃时期:2006年至今
  • 内容概述:提供网页存档服务,专注于保存特定主题或组织的网站内容。
  • 访问方式或 URL:https://archive-it.org/
  • 主要文本格式或分类标签:HTML、WARC
  1. Mail-Archive — Usenet 群组与邮件列表存档
  • 时间范围 / 活跃时期:1990年代至今
  • 内容概述:提供邮件列表的存档服务,涵盖技术、科学、文化等多个主题。
  • 访问方式或 URL:https://www.mail-archive.com/
  • 主要文本格式或分类标签:ASCII、邮件
  1. 西祠胡同 — 早期在线论坛归档
  • 时间范围 / 活跃时期:1998年至今
  • 内容概述:中国最早的城市社区之一,存档了大量关于城市生活、文化、社会等主题的讨论帖。
  • 访问方式或 URL:https://www.xici.net/
  • 主要文本格式或分类标签:HTML、TXT
  1. DBLP — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1970年代至今
  • 内容概述:提供计算机科学领域的学术期刊文章和会议录的元数据。
  • 访问方式或 URL:https://dblp.uni-trier.de/
  • 主要文本格式或分类标签:HTML、TXT
  1. Wiley Online Library — 科研论文与会议录存档
  • 时间范围 / 活跃时期:1807年至今
  • 内容概述:提供自然科学、工程技术、医学和社会科学领域的学术期刊文章和书籍章节。
  • 访问方式或 URL:https://onlinelibrary.wiley.com/
  • 主要文本格式或分类标签:PDF
  1. The Wall Street Journal Archive — 新闻站点或报纸历史档案入口
  • 时间范围 / 活跃时期:1889年至今
  • 内容概述:提供《华尔街日报》的历史新闻文章,涵盖经济、金融、商业等多个领域。
  • 访问方式或 URL:https://www.wsj.com/archive/
  • 主要文本格式或分类标签:HTML、PDF
  1. ANSI Standards — 行业 / 技术标准文档库
  • 时间范围 / 活跃时期:1918年至今
  • 内容概述:提供美国国家标准协会发布的技术标准、规范和指南,涵盖各个行业领域。
  • 访问方式或 URL:https://www.ansi.org/standards
  • 主要文本格式或分类标签:PDF
  1. ManyBooks — 其他 1990 年代重要文本集合
  • 时间范围 / 活跃时期:2004年至今
  • 内容概述:提供数千本免费电子书,包括经典文学作品、历史文献和科学著作。
  • 访问方式或