100 谷歌发布万本公共领域书籍哈佛大学 AI 训练提供合法数据为 (google100)

贝云网络科技

发表于2025/8/3 18:48
9浏览
0评论
5分钟阅读

12月13日消息，据TechCrunch12日报道，哈佛大学与谷歌宣布，联合发布100万本公共领域书籍作为AI训练数据集，AI训练所需的数据成本高昂，但却更适合资金充裕的科技公司，因此，哈佛大学计划发布一个包含约100万本公共领域书籍的数据集，这些书籍覆盖多种类型、语言和作者，包括已不再受版权保护的经典作家如狄更斯、但丁和莎士...。

12 月 13 日消息，据 TechCrunch 12 日报道，哈佛大学与谷歌宣布，联合发布 100 万本公共领域书籍 作为 AI 训练数据集。

AI 训练所需的数据成本高昂，但却更适合资金充裕的科技公司。因此，哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集，这些书籍 覆盖多种类型、语言和作者 ，包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等，因这些作品的版权已随时间过期。

图源 Pexels

据了解，早在今年 3 月，哈佛大学就曾透露其“机构数据计划（IDI）”，并表示这一计划旨在 为 AI 提供“合法数据的可信通道” 。直到正式启动后，该计划才确认 得到了微软和 OpenAI 的资金支持 。

IDI 的执行董事格雷格・莱佩特（Greg Leppert）表示，该数据集的目标是“ 让竞争环境更加公平 ”，通过向包括 研究机构和 AI 初创公司 在内的各类机构开放这一庞大的数据集，以帮助他们训练大型语言模型。

直接与AWS和GCP等平台竞争 &#8211 苹果考虑基于iCloud为开发者提供云计算服务 (直接与根本的区别)

6 Galaxy 国行版手表获推 One 卡片设计 UI 版本全新表盘 Watch 三星 4

评论

请登录后再评论

立即登录｜注册帐号