本站6月6日消息,阿里正式開源了通義千問3全新的向量模型系列Qwen3-Embedding(簡稱千問3向量模型)。
該模型以千問3為底座,專門為文本表征、檢索和排序等核心任務(wù)進行優(yōu)化訓(xùn)練,相較于上一個版本,在文本檢索、聚類、分類等核心任務(wù)上提升最高40%以上的性能。
在MTEB等專項榜單中,Qwen3-Embedding-8B超越谷歌的Gemini Embedding 、Open AI的 text-embedding-3-large及微軟的multilingual-e5-large-instruct等頂尖模型,拿下同類模型的最佳性能SOTA。
向量模型可以看做是AI的“翻譯器”,它可以將文本、圖片等非結(jié)構(gòu)化信息,映射(embedding)到機器更易理解的向量空間,再基于這些向量實現(xiàn)高效的信息分類、檢索或排序。
基于千問3模型,通義團隊通過對比訓(xùn)練、SFT、模型融合等方法,打造出全新的千問3向量模型,包含文本嵌入模型Qwen3-Embedding 以及文本排序模型Qwen3-Reranker。
同時,得益于千問3的多語言能力,千問3向量模型系列率先支持超100種語言,并涵蓋多種編程語言,可實現(xiàn)強大的多語言、跨語言及代碼檢索能力。
此次共有9款千問3向量模型開源,涵蓋0.6B、4B 、8B等不同尺寸及GGUF版本,開發(fā)者可從中找到最符合需求的模型,自由組合模塊,還可自定義向量或指令,實現(xiàn)特定任務(wù)、語言和場景的深度優(yōu)化。
目前,千問3 Embedding和Reranker模型均已在魔搭社區(qū)、 Hugging Face和GitHub等平臺上開源,開發(fā)者也可直接通過阿里云百煉使用API服務(wù)。
據(jù)了解,千問3大模型自4月29日開源以來,已攬獲Artificial Analysis、LiveBench、LiveCodeBench、SuperClue多個榜單的全球開源冠軍。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。