近日,《纽约时报》报道, OpenAI和谷歌被指涉嫌使用YouTube视频的转录文本来训练其人工智能模型,这一行为可能侵犯了YouTube创作者的版权。
据报道,OpenAI通过使用其Whisper语音识别工具,转录了超过一百万小时的YouTube视频内容,并将这些数据用于训练其GPT-4模型。同时,谷歌也被曝出使用YouTube视频来训练自家的人工智能模型。然而,这两家公司的行为似乎并未得到所有创作者的授权。
如果可以随意使用创作者的公开内容进行AI训练,那么创作者的权益将如何得到保障?
“有意见”留言板
@媒体搬运工:大模型就像是“饕餮”,对于数据有着先天的嗜好,互联网上的论坛、贴吧、短视频等都是大模型眼中的“大餐”。对于这种可以抓取的信息,需要从法规上进行规范,而不是借助用户条款。
@辣腿堡不加酱:用于训练人工智能模型的这些数据来源是否可追溯,如果是公开展示的内容是否可直接用于训练,这些都需要进一步规范,而不是问及就含糊其辞
好文章,需要你的鼓励
最新研究发现,AI搜索引擎在引用新闻源时存在严重缺陷,不仅会捏造引用,还会减少原发布者的流量。这一问题对新闻业和公众对新闻的信任度有重大影响。研究显示,付费版AI聊天机器人表现比免费版更差,给出的错误答案更加自信。这些AI工具还经常伪造链接或引用文章的重印版本,而不是直接链接到原始来源。研究人员呼吁AI开发者提高透明度和引用准确性。
人工智能正在彻底改变软件开发方式。"氛围编码"是一种新兴的编程方法,它侧重于软件的整体"氛围"而非具体代码。开发者通过概念性指导与AI互动,迭代完善功能。这种方法可能会显著提高开发速度,增加客户端功能,但也带来了一些关于代码理解、测试和质量保证的新挑战。企业需要密切关注并适应这一趋势,以保持竞争力。
OpenAI为ChatGPT用户添加了期待已久的内部知识源引用功能。ChatGPT Team用户现可在测试期间直接连接内部知识库,引入公司特定信息。这项功能将使ChatGPT能够理解公司内部术语,执行语义搜索,直接链接内部资源,并提供最相关、最新的上下文信息,从而更好地回答企业用户的问题。
Google 最新旗舰语言模型 Gemini 2.5 Pro 发布后被其他 AI 热点掩盖。然而,实际测试表明,它在长文本处理、多模态推理和数据分析等方面表现出色,可能是目前最佳的推理模型。其百万级别的上下文窗口、强大的代码能力和详细的推理过程,为企业级应用打开了新的可能性,有望推动 Google 在生成式 AI 竞赛中领先。