
12 月 13 日消息,据 TechCrunch 12 日报道,哈佛大学与谷歌宣布,联合发布 100 万本公共领域书籍 作为 AI 训练数据集。
AI 训练所需的数据成本高昂,但却更适合资金充裕的科技公司。因此,哈佛大学计划发布一个包含约 100 万本公共领域书籍的数据集,这些书籍 覆盖多种类型、语言和作者 ,包括已不再受版权保护的经典作家如狄更斯、但丁和莎士比亚等,因这些作品的版权已随时间过期。
据了解,早在今年 3 月,哈佛大学就曾透露其“机构数据计划(IDI)”,并表示这一计划旨在 为 AI 提供“合法数据的可信通道” 。直到正式启动后,该计划才确认 得到了微软和 OpenAI 的资金支持 。
IDI 的执行董事格雷格・莱佩特(Greg Leppert)表示,该数据集的目标是“ 让竞争环境更加公平 ”,通过向包括 研究机构和 AI 初创公司 在内的各类机构开放这一庞大的数据集,以帮助他们训练大型语言模型。