8月31日,百度文心一言率先向全社会全面开放,用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”进行体验。文心一言的开放引发了市场的热烈反响,当日,文心一言APP出现在多家应用商店热榜中,在苹果App Store的免费榜排名也一路飙升,目前已经登顶免费总榜。根据百度官方数据,仅仅24小时,文心一言已经为网友们回答了超过3342万个问题。
“有意见”留言板
@Futon:很想国内赶快出现一个厉害的大模型产品,但文心一言这app怎么看都有不少可以留给广告和竞价排名的空间。参考前阵子在应用商店霸榜的Threads,这款app是Meta推出的,到现在都没有任何广告,很多用户把它视为“净土”,但你相信Meta允许自己的产品有这样的净土吗?我反正是不信。暂且观望,只希望它不要一枝独秀之后就是为所欲为吧。
@老董:在遥远的搜索引擎时代,百度占有了先机,成功获取到了国内互联网入口,吃到了大笔的流量红利。但在APP时代的落后也使得其沉沦,在大模型时代的文心一言会不会重新焕发青春我们还将拭目以待,但最好不要又出现竞价排名的那一套把自身搞臭就好。
@心想事成:在高研发成本的持续投入下,从最初探索深度学习等基础技术,到推动AI在互联网等场景试点落地,再到如今扎根千行百业、大力推进AI工业化大生产等,百度既完成了在芯片、框架、模型和应用四层构架对应的自研技术积累,又具备了做AI基础设施供给者的前提条件。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。