作者 | 吳思瑾
編輯 | 王與桐
*
AI 大模型時(shí)代下,圖片、視頻、自然語(yǔ)言等多模態(tài)的非結(jié)構(gòu)化數(shù)據(jù)量陡增,而大模型支持的 token 數(shù)有限,雖然可以在 RLHF 的配合下具備一定程度的 " 短期記憶 ",但正是因?yàn)?" 長(zhǎng)期記憶 " 的缺失,導(dǎo)致大模型經(jīng)常會(huì)出現(xiàn) " 一本正經(jīng)地胡說(shuō)八道 " 的情況。
區(qū)別于用來(lái)處理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)專門用來(lái)存儲(chǔ)、管理、查詢和檢索向量化的非結(jié)構(gòu)化數(shù)據(jù);它就像一塊外接的記憶盤,可供大模型隨時(shí)調(diào)用,以形成 " 長(zhǎng)期記憶 "。對(duì)大模型應(yīng)用開發(fā)者來(lái)說(shuō),向量數(shù)據(jù)庫(kù)是非常重要的基礎(chǔ)設(shè)施。
目前,向量數(shù)據(jù)庫(kù)大致可分為兩種。一種是原生向量數(shù)據(jù)庫(kù)產(chǎn)品,比如 Pinecone(累計(jì)融資 1.38 億美元)、Milvus(累計(jì)融資 1.13 億美元)、Weaviate(累計(jì)融資 6770 萬(wàn)美元)等,另一種是基于傳統(tǒng)數(shù)據(jù)庫(kù)增加的插件式向量搜索引擎產(chǎn)品,如 ClickHouse、ElasticSearch、Redis 等許多開源數(shù)據(jù)庫(kù)都增加了這類產(chǎn)品。
36 氪近期接觸到一家介于兩者之間的第三種數(shù)據(jù)庫(kù)——墨奇 AI 數(shù)據(jù)庫(kù),它在托管在 AWS 上,可同時(shí)支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、查詢、搜索、聯(lián)合分析和處理功能,廣泛應(yīng)用于圖像檢索、視頻分析、自然語(yǔ)言理解等 AI 驅(qū)動(dòng)場(chǎng)景。
之所以成為第三種存在,墨奇 AI 數(shù)據(jù)庫(kù)副總裁孟卓飛告訴 36 氪:" 墨奇曾在國(guó)內(nèi)與許多真實(shí)用戶進(jìn)行交流,在這個(gè)過(guò)程中,公司發(fā)現(xiàn)在真實(shí)的大模型集成應(yīng)用場(chǎng)景里,向量數(shù)據(jù)往往會(huì)與結(jié)構(gòu)化數(shù)據(jù)做混合查詢,這就決定了其分析查詢的性能是非常重要的,也就是說(shuō),向量數(shù)據(jù)庫(kù)在未來(lái)很難會(huì)作為一個(gè)單獨(dú)的技術(shù)棧存在。"
官方信息顯示,墨奇團(tuán)隊(duì)在 ClickHouse 的底層架構(gòu)上結(jié)合向量數(shù)據(jù)特點(diǎn)和任務(wù)特性,在分布式、存算分離、檢索策略等方面,對(duì)其上百萬(wàn)行源代碼進(jìn)行了 30-40% 的修改,同時(shí)還集成了自主研發(fā)的多尺度樹圖(multi-scale tree graph,簡(jiǎn)稱 MSTG)向量索引算法,以實(shí)現(xiàn)高性能的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理能力。
除具備結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)合處理能力外,孟卓飛告訴 36 氪墨奇 AI 數(shù)據(jù)庫(kù)還有兩個(gè)特點(diǎn),一是其關(guān)系型數(shù)據(jù)庫(kù)的基底,導(dǎo)致天然對(duì) SQL 在數(shù)據(jù)類型和語(yǔ)法有完全的兼容性,并具備健全的、成熟的關(guān)系型數(shù)據(jù)庫(kù)的周邊生態(tài)組建和一些包括數(shù)據(jù)安全、權(quán)限管控、數(shù)據(jù)備份等在內(nèi)的完整工具鏈;二是在同等資源用量上處理同樣規(guī)模的數(shù)據(jù)時(shí),墨奇 AI 數(shù)據(jù)庫(kù)消耗計(jì)算資源的成本是其他向量數(shù)據(jù)庫(kù)的 1/5。
恒定 500 萬(wàn)數(shù)據(jù)量每 100 次 QPS 的月成本對(duì)比 圖源:墨奇 AI 數(shù)據(jù)庫(kù)
單 QPS(向量數(shù)據(jù)庫(kù)服務(wù)一個(gè) C 端用戶一次查詢可能會(huì)消耗的計(jì)算資源大小)成本一直是影響企業(yè)對(duì)向量數(shù)據(jù)庫(kù)選型的關(guān)鍵要素,也是向量數(shù)據(jù)庫(kù)廠商們火拼的重要戰(zhàn)場(chǎng)。
依據(jù)孟卓飛介紹,墨奇 AI 數(shù)據(jù)庫(kù)在性價(jià)比上優(yōu)于插件式的向量數(shù)據(jù)庫(kù)和原生向量數(shù)據(jù)庫(kù),而實(shí)現(xiàn)這樣的結(jié)果,主要與墨奇自研的 MSTG 算法有關(guān)。
" 該算法在索引構(gòu)建、數(shù)據(jù)分片、搜索調(diào)度等方面進(jìn)行了大量底層調(diào)整,在支持用戶向量搜索的同時(shí),可大大節(jié)約內(nèi)存使用。對(duì)于過(guò)濾查詢,特別是復(fù)雜的聯(lián)合查詢,由于墨奇 AI 數(shù)據(jù)庫(kù) AP 類業(yè)務(wù)的優(yōu)化和列式存儲(chǔ)特點(diǎn),將比同類方案提升更為顯著。"
其實(shí),墨奇并不是向量數(shù)據(jù)庫(kù)行業(yè)的新人。在 2022 年之前,墨奇就在生物安全識(shí)別場(chǎng)景中,基于超大規(guī)模向量和圖的檢索算法創(chuàng)新,實(shí)現(xiàn)了超高精度的百億級(jí)指紋底庫(kù)秒級(jí)檢索。在這個(gè)過(guò)程中,公司積累了大量原創(chuàng)的向量索引算法和復(fù)雜場(chǎng)景檢索技術(shù)。后來(lái)隨著業(yè)務(wù)的發(fā)展,公司開始構(gòu)建面向向量場(chǎng)景的數(shù)據(jù)庫(kù)產(chǎn)品,也在 2022 年通過(guò)私有化部署的方式進(jìn)行市場(chǎng)驗(yàn)證,數(shù)據(jù)庫(kù)業(yè)務(wù)當(dāng)年收入達(dá)到千萬(wàn)級(jí)別。
2022 年底,AI 大模型開始爆發(fā),墨奇觀察到海外 AI 生態(tài)和技術(shù)棧正在以非常驚人的速度迭代,為了積極擁抱迅速進(jìn)化的行業(yè)和技術(shù)生態(tài),和更加高效地進(jìn)獲取客戶反饋并完成產(chǎn)品迭代,墨奇加速推進(jìn)以閉源 SaaS 的形態(tài)走向海外,面向全球市場(chǎng)。
對(duì)于選擇閉源路線的原因,孟卓飛的說(shuō)法是,首先,原生向量數(shù)據(jù)庫(kù) Pinecone 的成功已經(jīng)證明了閉源路線并非完全走不通。截至目前,Pinecone 是目前向量數(shù)據(jù)庫(kù)產(chǎn)品中聲量最大、用戶認(rèn)知程度最廣的產(chǎn)品,且在 2022 年就已經(jīng)率先實(shí)現(xiàn)了數(shù)百萬(wàn)美元 ARR。
其次,墨奇認(rèn)為,開源產(chǎn)品如果想要在海外產(chǎn)生較好的收入,需要產(chǎn)品在性能和功能等方面與競(jìng)品之間形成足夠強(qiáng)的差異化,否則對(duì)中國(guó)團(tuán)隊(duì)來(lái)說(shuō)出海會(huì)非常困難。而墨奇 AI 數(shù)據(jù)庫(kù)和競(jìng)品相比,價(jià)格是對(duì)方的 1/5,在某一些功能上,墨奇覺(jué)得只有自己能夠滿足。因此在這種情況下,閉源不再是用戶付費(fèi)的障礙。
即便產(chǎn)品獨(dú)特的同時(shí)兼具性價(jià)比,但 " 酒香也怕巷子深 "。如何在海外市場(chǎng)獲取種子用戶是擺在初入者墨奇面前的首要難題。
從行動(dòng)來(lái)看,墨奇選擇了一個(gè)討巧的方式——跟著 Pinecone 的步伐前行吸引和收獲用戶。
孟卓飛告訴 36 氪,Pinecone 在 LangChain 等大語(yǔ)言模型相關(guān)的工具鏈和社區(qū)中做了非常多貢獻(xiàn),已經(jīng)把市場(chǎng)和用戶教育的非常好。因此,有的事情無(wú)需重復(fù)再做,只需沿著對(duì)方的腳印對(duì)目標(biāo)用戶群體宣傳墨奇 AI 數(shù)據(jù)庫(kù)的產(chǎn)品特點(diǎn)即可。
墨奇有計(jì)劃的在這些社區(qū)中貢獻(xiàn)對(duì)用戶有價(jià)值的功能和開源代碼,同時(shí)也會(huì)和其他數(shù)據(jù)庫(kù)產(chǎn)品一樣分享一些共識(shí)性的用法。據(jù)介紹,這已經(jīng)成為該公司最主要的獲客渠道。
在 2023 年第二季度上線的墨奇 AI 數(shù)據(jù)庫(kù)測(cè)試版本中,該公司獲得了上百個(gè)活躍用戶,據(jù)介紹,其中很大一部分很快在第三季度轉(zhuǎn)為首批付費(fèi)客戶,近半用戶來(lái)自插件式向量搜索引擎 PG Vector 和 Pinecone 的用戶群體;通常情況下,一兩次溝通會(huì)即可確定是否轉(zhuǎn)化,周期很短,轉(zhuǎn)化率也很高,超過(guò) 80%。
對(duì)中國(guó)公司來(lái)說(shuō),如何 go to market 是全球化路上要面對(duì)的首要挑戰(zhàn),比如招募本土人才,比如運(yùn)營(yíng)不同文化和語(yǔ)言的海外社區(qū)……但是中國(guó)公司也有海外公司難以企及的競(jìng)爭(zhēng)優(yōu)勢(shì),比如在中國(guó)這種超大體量的市場(chǎng)規(guī)模、應(yīng)用場(chǎng)景和豐富的數(shù)據(jù)的環(huán)境中,成長(zhǎng)起來(lái)的一批優(yōu)秀工程師,他們是中國(guó)公司全球化的底氣。
36 氪會(huì)持續(xù)關(guān)注向量數(shù)據(jù)庫(kù)領(lǐng)域,如果您也是該領(lǐng)域的創(chuàng)業(yè)者、從業(yè)者,歡迎來(lái)聊。