数据世界网数据世界官方网站！

时事快闻

当前位置：数据世界 > AI前沿 > 正文内容

OpenAI数据收集新策略：转录百万小时YouTube视频

时间：2024-04-07 09:45 来源：数据世界

【数据世界网】4月7日消息，近日，AI公司在收集高质量训练数据方面遇到的难题引起了广泛关注。本周早些时候，《华尔街日报》曾报道过这一挑战，而今日，《纽约时报》则深入揭示了AI公司如何应对这一挑战，其中涉及的内容引发了关于AI版权法的讨论。

为了解决训练数据的迫切需求，OpenAI开发了一种名为Whisper的音频转录模型。该模型被用于转录超过100万小时的YouTube视频，以训练其最新一代的大型语言模型GPT-4。这一举措显示出OpenAI在寻找新数据源方面的决心和创新。

据数据世界了解，OpenAI在2021年就已经耗尽了其原有的有用数据供应。在探索新的数据源时，公司讨论了转录YouTube视频、播客和有声读物的可能性。除此之外，OpenAI还广泛利用了其他资源，如Github上的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容，以丰富其训练数据。

尽管OpenAI意识到这种做法在法律上可能存在问题，但他们认为这是对数据的合理使用。《泰晤士报》披露，OpenAI的总裁Greg Brockman甚至亲自参与了所使用视频的收集工作，足以显示公司对这一举措的重视程度。

OpenAI的发言人Lindsay Held向The Verge透露，公司为每个模型都策划了“独特”的数据集，旨在“帮助他们了解世界”，并保持其在全球研究领域的竞争力。Held还表示，公司正在考虑生成自己的合成数据，并使用“众多来源，包括公开数据和非公开数据的合作伙伴”来丰富其数据集。

然而，这一做法并非没有争议。谷歌发言人Matt Bryant在回应相关报道时指出，谷歌“看到了有关OpenAI活动的未经证实的报告”，并强调“我们的robots.txt文件(网站与爬虫间的君子协定)和服务条款都禁止未经授权的抓取或下载YouTube内容”。与此同时，YouTube首席执行官Neal Mohan也在近日警告称，尽管没有直接证据表明OpenAI使用YouTube视频来训练其文本生成视频的AI模型Sora，但这种行为违反了YouTube现行的平台服务条款。

在数据使用的问题上，meta也面临着类似的挑战。在《泰晤士报》曝光的一段录音中，meta的AI团队为了迎头赶上OpenAI，讨论了未经许可使用版权作品的情况。该公司在考察了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，正在考虑采取一系列措施来应对数据使用问题，如支付图书许可费用，甚至直接收购一家大型出版商。

更多>同类内容

免登录时代来临 ChatGPT降低使用门槛

【数据世界网】4月2日消息，OpenAI开放ChatGPT免登录使用OpenAI于4月2日宣布，其旗下的人工智能聊天机器人ChatGPT将进一步降低使用门槛，允许无账号用户直接访问并与之交互。此项新政策即刻在部分地区生效，并将在未来逐步推广至全球。根据OpenAI的官方声明，此次调整旨

04-02

澜舟科技开源Mengzi3-13B模型助力学术研究与商业应用

【数据世界网】4月1日消息，澜舟科技近期宣布了重大进展，将Mengzi3-13B模型进行开源，这一举措不仅为学术研究提供了更为广阔的探索空间，同时也为企业免费商用提供了强有力的支持。据了解，相较于今年早些时候发布的孟子大模型GPT V2系列，Mengzi3-13B在数据集质量上实

04-01

突破边界！三星Galaxy S24系列AI影像编辑功能大揭秘

【数据世界网】3月29日消息，随着数字摄影的兴起，智能手机已成为人们记录生活、分享点滴的重要工具。如今，在AI技术的推动下，手机影像领域正迎来全新的发展篇章。备受瞩目的三星Galaxy S24系列，以其卓越的AI影像技术，为用户带来了从拍摄到编辑的全方位专业影像体验

03-29

阿里云与联发科携手将通义千问大模型推向全球手机市场

【数据世界网】3月28日消息，全球知名的智能手机芯片制造商MediaTek联发科在其最新旗舰产品——天玑9300系列芯片上取得了重大突破，成功集成了通义千问大模型。这一创新性的举措意味着大模型技术首次在手机芯片领域实现了深度适配，为移动设备的智能化发展揭开了新的篇

03-28

亚马逊加码投资Anthropic 生成式AI竞赛再升温

【数据世界网】3月28日消息，亚马逊正进行其成立30年以来最大的一笔外部投资，旨在人工智能领域抢占先机，再次对位于旧金山的人工智能初创企业Anthropic进行27.5亿美元的投资。据数据世界了解，这是亚马逊在短短几个月内对Anthropic的第二次大额投资，早在去年九月，亚

03-28

Sora模型背后巨大的成本：OpenAI需216亿美元及庞大电力支撑

【数据世界网】3月27日消息，市场调查机构Factorial Funds在最新发布的报告中指出，OpenAI所部署的文本转视频模型Sora在需求高峰时期，竟需要高达72万片的英伟达H100 AI加速卡以满足其运算需求。报告详细分析了这项需求所带来的成本压力。以每片英伟达H100 AI加速卡3万

03-27

苹果全新M4芯片MacBook Pro即将登场预计2025年首季亮相

【数据世界网】3月27日消息，据彭博社知名记者马克・古尔曼(Mark Gurman)透露，苹果公司正紧锣密鼓地开发全新搭载M4芯片的MacBook Pro。与此同时，全球权威市场研究机构Canalys也发布了一份引人瞩目的AI处理器路线图，预测苹果公司的M4系列芯片有望在2025年第一季度正式

03-27

百度宣布成为苹果国行iPhone16等AI功能独家供应商市场看好其AI实力

【数据世界网】3月25日消息，百度今日宣布将为即将发布的国行iPhone16、Mac系统以及iOS18提供AI功能，这一消息迅速在科技界引起热烈讨论，市场反应积极。在消息发布后，百度股价直线上升，显示出投资者对百度此举的高度认可。据悉，由于合规问题，苹果决定在国行iPhone

03-25

人工智能再获突破：Grok-1模型开源规模创纪录

【数据世界网】3月25日消息，近日科技巨头马斯克旗下公司宣布开源其参数规模高达3140亿的混合专家模型Grok-1，成为目前所有开源模型中规模最大的存在。据官方信息透露，Grok-1采用Apache 2.0许可证，对商业使用极为友好，这一举措被看作是马斯克为了证明其开放性和透明

03-25

百度或成苹果中国AI合作伙伴 iOS 18将迎来全新智能体验

【数据世界网】3月23日消息，近期有外媒报道称，苹果在积极寻求与多家技术巨头合作，以在即将推出的iOS 18中集成生成式AI功能。此前，苹果被传正与OpenAI和谷歌进行接触，而现在，有消息透露苹果已与百度进行了相关讨论。这一动态可能意味着，百度有望成为苹果在中国市

03-23

谷歌AI技术突破：提前7天准确预测洪灾助力全球防洪减灾

【数据世界网】3月22日消息，谷歌近日在权威科学期刊《Nature》上公布了一项令人瞩目的科研成果，该研究利用人工智能(AI)技术，实现了最早能够提前7天准确预测洪灾的突破。这一技术突破有望为全球80多个国家和地区的居民提供更为可靠的洪灾预测服务，从而帮助他们更好地

03-22

微软迎来Inflection AI核心团队技术授权助力双方共拓AI新领域

【数据世界网】3月21日消息，据彭博社报道，人工智能初创公司Inflection AI的关键领导层近日发生变动，其首席执行官Mustafa Suleyman和首席科学家Karén Simonyan已离职并加入微软公司。随着这一人事变动，Inflection AI计划将其技术授权给微软，以进一步拓展其在人工智

03-21

苹果AI战略转型：专注本地小模型寻求外部合作提升大模型能力

【数据世界网】3月20日消息，摩根大通最新发布了一份投资备忘录，对苹果公司的AI发展战略进行了深度推测。备忘录指出，苹果正将战略重心一分为二，一方面致力于在iPhone上运行本地小型模型，另一方面则积极寻求与其他厂商合作，引入大型语言模型(LLM)。摩根大通在备忘录

03-20

微软消费者人工智能部迎来新帅苏莱曼领航未来智能产品时代

【数据世界网】3月20日消息，微软在周二美国当地时间宣布，已任命人工智能领域的杰出人物穆斯塔法·苏莱曼(Mustafa Suleyman)为新成立的消费者人工智能部门的负责人。同时，微软还从苏莱曼创立的初创公司Inflection中大量招聘了新员工。这一行动清晰地表明，微软正全力

03-20

黄仁勋：英伟达投入百亿研发Blackwell芯片定价反映市场需求

【数据世界网】3月20日消息，在周二的一次采访中，英伟达首席执行官黄仁勋向外界透露了关于公司最新一代Blackwell架构芯片的重要信息。据黄仁勋表示，这款引领人工智能领域潮流的芯片，预计价格将落在3万至4万美元的区间内。手持Blackwell架构芯片的黄仁勋充满信心地表

03-20

点击查看更多 +

全站最新