大数据时代,数据检索是必备的基础能力。近日,阿里开源了自研搜索引擎Havenask,目前项目文件已在GitHub推出。
Havenask是阿里巴巴内部广泛使用的大规模分布式检索系统,支持了包括淘宝、天猫、菜鸟、高德、饿了么、优酷在内整个阿里巴巴集团的搜索业务,是阿里过去十多年在电商领域积累下来的核心竞争力产品。在功能性上,Havenask具有灵活的定制和开发能力,支持算法快速迭代,能够帮助开发者量身定做适合自身业务的智能搜索服务,助力业务增长。
我们的科技留言板“有意见”如下
@新老产品:搜索引擎发展已有15年的历史,然而搜索引擎产品并不那么令人满意。广告、重复、不准确都是用户的痛点,但仍没有好的产品来满足。ChatGPT虽然不是定位搜索引擎的产品,其取代传统搜索引擎的功能和实力堪称强悍。搜索引擎如何继续创新,其搜索内容的广度和深度都值得大厂、初创企业继续探索。
@梁山伯与猪硬来:可以预见,随着Havenask的开源,除了电商、互联网行业可借助大规模搜索系统,更多产业也将借助其实现效率升级和体验进步。
@隔壁二大爷:在肉眼可见的将来,很多人以为搜索引擎都一样,其实不然,对比一下PDD和某宝某东,多搜索几次,你大概率能感受到差异,阿里这次做了开源的搜索引擎,试问,鼎鼎大名的ElasticSearch,您准备好了吗?
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
加拿大女王大学研究团队首次对开源AI生态系统进行端到端许可证合规审计,发现35.5%的AI模型在集成到应用时存在许可证违规。他们开发的LicenseRec系统能自动检测冲突并修复86.4%的违规问题,揭示了AI供应链中系统性的"许可证漂移"现象及其法律风险。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
这项由剑桥大学、清华大学和伊利诺伊大学合作的研究首次将扩散大语言模型引入语音识别领域,开发出Whisper-LLaDA系统。该系统具备双向理解能力,能够同时考虑语音的前后文信息,在LibriSpeech数据集上实现了12.3%的错误率相对改进,同时在大多数配置下提供了更快的推理速度,为语音识别技术开辟了新的发展方向。