本站6月6日消息,阿里正式開源了通義千問(wèn)3全新的向量模型系列Qwen3-Embedding(簡(jiǎn)稱千問(wèn)3向量模型)。
該模型以千問(wèn)3為底座,專門為文本表征、檢索和排序等核心任務(wù)進(jìn)行優(yōu)化訓(xùn)練,相較于上一個(gè)版本,在文本檢索、聚類、分類等核心任務(wù)上提升最高40%以上的性能。
在MTEB等專項(xiàng)榜單中,Qwen3-Embedding-8B超越谷歌的Gemini Embedding 、Open AI的 text-embedding-3-large及微軟的multilingual-e5-large-instruct等頂尖模型,拿下同類模型的最佳性能SOTA。
向量模型可以看做是AI的“翻譯器”,它可以將文本、圖片等非結(jié)構(gòu)化信息,映射(embedding)到機(jī)器更易理解的向量空間,再基于這些向量實(shí)現(xiàn)高效的信息分類、檢索或排序。
基于千問(wèn)3模型,通義團(tuán)隊(duì)通過(guò)對(duì)比訓(xùn)練、SFT、模型融合等方法,打造出全新的千問(wèn)3向量模型,包含文本嵌入模型Qwen3-Embedding 以及文本排序模型Qwen3-Reranker。
同時(shí),得益于千問(wèn)3的多語(yǔ)言能力,千問(wèn)3向量模型系列率先支持超100種語(yǔ)言,并涵蓋多種編程語(yǔ)言,可實(shí)現(xiàn)強(qiáng)大的多語(yǔ)言、跨語(yǔ)言及代碼檢索能力。
此次共有9款千問(wèn)3向量模型開源,涵蓋0.6B、4B 、8B等不同尺寸及GGUF版本,開發(fā)者可從中找到最符合需求的模型,自由組合模塊,還可自定義向量或指令,實(shí)現(xiàn)特定任務(wù)、語(yǔ)言和場(chǎng)景的深度優(yōu)化。
目前,千問(wèn)3 Embedding和Reranker模型均已在魔搭社區(qū)、 Hugging Face和GitHub等平臺(tái)上開源,開發(fā)者也可直接通過(guò)阿里云百煉使用API服務(wù)。
據(jù)了解,千問(wèn)3大模型自4月29日開源以來(lái),已攬獲Artificial Analysis、LiveBench、LiveCodeBench、SuperClue多個(gè)榜單的全球開源冠軍。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。