近日,《纽约时报》报道, OpenAI和谷歌被指涉嫌使用YouTube视频的转录文本来训练其人工智能模型,这一行为可能侵犯了YouTube创作者的版权。
据报道,OpenAI通过使用其Whisper语音识别工具,转录了超过一百万小时的YouTube视频内容,并将这些数据用于训练其GPT-4模型。同时,谷歌也被曝出使用YouTube视频来训练自家的人工智能模型。然而,这两家公司的行为似乎并未得到所有创作者的授权。
如果可以随意使用创作者的公开内容进行AI训练,那么创作者的权益将如何得到保障?
“有意见”留言板
@媒体搬运工:大模型就像是“饕餮”,对于数据有着先天的嗜好,互联网上的论坛、贴吧、短视频等都是大模型眼中的“大餐”。对于这种可以抓取的信息,需要从法规上进行规范,而不是借助用户条款。
@辣腿堡不加酱:用于训练人工智能模型的这些数据来源是否可追溯,如果是公开展示的内容是否可直接用于训练,这些都需要进一步规范,而不是问及就含糊其辞
好文章,需要你的鼓励
我问过一些朋友为什么用豆包比别的App多。一个常见的答案是语音交互做的比较好。所以虽然从生产力角度,文本编码是token生成的主力,但是如果要让AI融入社会更多角落,语音AI其实是一个重点。我还记得当年第一次听到Siri讲话有多惊讶。当然,可惜Siri十年无进步,这一点播客中也谈到了。
这项由纽约大学上海校区、纽约大学及清华大学联合开展的研究(arXiv:2604.05846,2026年4月)提出了AgentGL框架,首次将强化学习引入图谱学习领域。该框架为大语言模型配备四种图谱原生搜索工具,覆盖局部与全局、结构与语义四个维度,通过两阶段强化训练让模型学会主动在关系网络中导航收集证据、适时停止搜索,并借助图谱条件课程学习稳定训练过程。在7个文本属性图基准上,AgentGL节点分类最大提升17.5%,链接预测最大提升28.4%。
星巴克宣布推出ChatGPT应用测试版,用户可通过自然语言描述心情或口味偏好,让AI推荐合适的饮品。例如输入"我想要一款清爽的晨间饮品",ChatGPT即可给出菜单建议,用户再跳转至星巴克App或官网完成下单。该功能还支持上传图片来表达心情。星巴克高级副总裁表示,顾客点单往往从感受出发而非菜单,此次合作旨在满足用户的即时灵感需求。
这项由印度独立研究员、Accenture高级解决方案架构师发布的研究,以预印本形式发表于2026年4月(arXiv:2604.06392),提出了Qualixar OS——一个专为AI代理编排而生的应用层操作系统。系统整合了12种执行拓扑、LLM驱动的自动团队设计引擎Forge、三层模型路由、8模块质量保障流水线(含Goodhart检测和分布漂移监控)、四层内容归因以及24标签页管理后台,支持10家AI提供商的实时模型发现和MCP、A2A双协议兼容,旨在成为所有主流AI代理框架的统一运行环境。