【数据世界网】4月7日消息,近日,AI公司在收集高质量训练数据方面遇到的难题引起了广泛关注。本周早些时候,《华尔街日报》曾报道过这一挑战,而今日,《纽约时报》则深入揭示了AI公司如何应对这一挑战,其中涉及的内容引发了关于AI版权法的讨论。
为了解决训练数据的迫切需求,OpenAI开发了一种名为Whisper的音频转录模型。该模型被用于转录超过100万小时的YouTube视频,以训练其最新一代的大型语言模型GPT-4。这一举措显示出OpenAI在寻找新数据源方面的决心和创新。
据数据世界了解,OpenAI在2021年就已经耗尽了其原有的有用数据供应。在探索新的数据源时,公司讨论了转录YouTube视频、播客和有声读物的可能性。除此之外,OpenAI还广泛利用了其他资源,如Github上的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容,以丰富其训练数据。
尽管OpenAI意识到这种做法在法律上可能存在问题,但他们认为这是对数据的合理使用。《泰晤士报》披露,OpenAI的总裁Greg Brockman甚至亲自参与了所使用视频的收集工作,足以显示公司对这一举措的重视程度。
OpenAI的发言人Lindsay Held向The Verge透露,公司为每个模型都策划了“独特”的数据集,旨在“帮助他们了解世界”,并保持其在全球研究领域的竞争力。Held还表示,公司正在考虑生成自己的合成数据,并使用“众多来源,包括公开数据和非公开数据的合作伙伴”来丰富其数据集。
然而,这一做法并非没有争议。谷歌发言人Matt Bryant在回应相关报道时指出,谷歌“看到了有关OpenAI活动的未经证实的报告”,并强调“我们的robots.txt文件(网站与爬虫间的君子协定)和服务条款都禁止未经授权的抓取或下载YouTube内容”。与此同时,YouTube首席执行官Neal Mohan也在近日警告称,尽管没有直接证据表明OpenAI使用YouTube视频来训练其文本生成视频的AI模型Sora,但这种行为违反了YouTube现行的平台服务条款。
在数据使用的问题上,meta也面临着类似的挑战。在《泰晤士报》曝光的一段录音中,meta的AI团队为了迎头赶上OpenAI,讨论了未经许可使用版权作品的情况。该公司在考察了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后,正在考虑采取一系列措施来应对数据使用问题,如支付图书许可费用,甚至直接收购一家大型出版商。