作者 | 吳思瑾
編輯 | 王與桐
*
AI 大模型時(shí)代下,圖片、視頻、自然語言等多模態(tài)的非結(jié)構(gòu)化數(shù)據(jù)量陡增,而大模型支持的 token 數(shù)有限,雖然可以在 RLHF 的配合下具備一定程度的 " 短期記憶 ",但正是因?yàn)?" 長期記憶 " 的缺失,導(dǎo)致大模型經(jīng)常會出現(xiàn) " 一本正經(jīng)地胡說八道 " 的情況。
區(qū)別于用來處理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)庫,向量數(shù)據(jù)庫專門用來存儲、管理、查詢和檢索向量化的非結(jié)構(gòu)化數(shù)據(jù);它就像一塊外接的記憶盤,可供大模型隨時(shí)調(diào)用,以形成 " 長期記憶 "。對大模型應(yīng)用開發(fā)者來說,向量數(shù)據(jù)庫是非常重要的基礎(chǔ)設(shè)施。
目前,向量數(shù)據(jù)庫大致可分為兩種。一種是原生向量數(shù)據(jù)庫產(chǎn)品,比如 Pinecone(累計(jì)融資 1.38 億美元)、Milvus(累計(jì)融資 1.13 億美元)、Weaviate(累計(jì)融資 6770 萬美元)等,另一種是基于傳統(tǒng)數(shù)據(jù)庫增加的插件式向量搜索引擎產(chǎn)品,如 ClickHouse、ElasticSearch、Redis 等許多開源數(shù)據(jù)庫都增加了這類產(chǎn)品。
36 氪近期接觸到一家介于兩者之間的第三種數(shù)據(jù)庫——墨奇 AI 數(shù)據(jù)庫,它在托管在 AWS 上,可同時(shí)支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲、查詢、搜索、聯(lián)合分析和處理功能,廣泛應(yīng)用于圖像檢索、視頻分析、自然語言理解等 AI 驅(qū)動(dòng)場景。
之所以成為第三種存在,墨奇 AI 數(shù)據(jù)庫副總裁孟卓飛告訴 36 氪:" 墨奇曾在國內(nèi)與許多真實(shí)用戶進(jìn)行交流,在這個(gè)過程中,公司發(fā)現(xiàn)在真實(shí)的大模型集成應(yīng)用場景里,向量數(shù)據(jù)往往會與結(jié)構(gòu)化數(shù)據(jù)做混合查詢,這就決定了其分析查詢的性能是非常重要的,也就是說,向量數(shù)據(jù)庫在未來很難會作為一個(gè)單獨(dú)的技術(shù)棧存在。"
官方信息顯示,墨奇團(tuán)隊(duì)在 ClickHouse 的底層架構(gòu)上結(jié)合向量數(shù)據(jù)特點(diǎn)和任務(wù)特性,在分布式、存算分離、檢索策略等方面,對其上百萬行源代碼進(jìn)行了 30-40% 的修改,同時(shí)還集成了自主研發(fā)的多尺度樹圖(multi-scale tree graph,簡稱 MSTG)向量索引算法,以實(shí)現(xiàn)高性能的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合處理能力。
除具備結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)合處理能力外,孟卓飛告訴 36 氪墨奇 AI 數(shù)據(jù)庫還有兩個(gè)特點(diǎn),一是其關(guān)系型數(shù)據(jù)庫的基底,導(dǎo)致天然對 SQL 在數(shù)據(jù)類型和語法有完全的兼容性,并具備健全的、成熟的關(guān)系型數(shù)據(jù)庫的周邊生態(tài)組建和一些包括數(shù)據(jù)安全、權(quán)限管控、數(shù)據(jù)備份等在內(nèi)的完整工具鏈;二是在同等資源用量上處理同樣規(guī)模的數(shù)據(jù)時(shí),墨奇 AI 數(shù)據(jù)庫消耗計(jì)算資源的成本是其他向量數(shù)據(jù)庫的 1/5。

恒定 500 萬數(shù)據(jù)量每 100 次 QPS 的月成本對比 圖源:墨奇 AI 數(shù)據(jù)庫
單 QPS(向量數(shù)據(jù)庫服務(wù)一個(gè) C 端用戶一次查詢可能會消耗的計(jì)算資源大?。┏杀疽恢笔怯绊懫髽I(yè)對向量數(shù)據(jù)庫選型的關(guān)鍵要素,也是向量數(shù)據(jù)庫廠商們火拼的重要戰(zhàn)場。
依據(jù)孟卓飛介紹,墨奇 AI 數(shù)據(jù)庫在性價(jià)比上優(yōu)于插件式的向量數(shù)據(jù)庫和原生向量數(shù)據(jù)庫,而實(shí)現(xiàn)這樣的結(jié)果,主要與墨奇自研的 MSTG 算法有關(guān)。
" 該算法在索引構(gòu)建、數(shù)據(jù)分片、搜索調(diào)度等方面進(jìn)行了大量底層調(diào)整,在支持用戶向量搜索的同時(shí),可大大節(jié)約內(nèi)存使用。對于過濾查詢,特別是復(fù)雜的聯(lián)合查詢,由于墨奇 AI 數(shù)據(jù)庫 AP 類業(yè)務(wù)的優(yōu)化和列式存儲特點(diǎn),將比同類方案提升更為顯著。"
其實(shí),墨奇并不是向量數(shù)據(jù)庫行業(yè)的新人。在 2022 年之前,墨奇就在生物安全識別場景中,基于超大規(guī)模向量和圖的檢索算法創(chuàng)新,實(shí)現(xiàn)了超高精度的百億級指紋底庫秒級檢索。在這個(gè)過程中,公司積累了大量原創(chuàng)的向量索引算法和復(fù)雜場景檢索技術(shù)。后來隨著業(yè)務(wù)的發(fā)展,公司開始構(gòu)建面向向量場景的數(shù)據(jù)庫產(chǎn)品,也在 2022 年通過私有化部署的方式進(jìn)行市場驗(yàn)證,數(shù)據(jù)庫業(yè)務(wù)當(dāng)年收入達(dá)到千萬級別。
2022 年底,AI 大模型開始爆發(fā),墨奇觀察到海外 AI 生態(tài)和技術(shù)棧正在以非常驚人的速度迭代,為了積極擁抱迅速進(jìn)化的行業(yè)和技術(shù)生態(tài),和更加高效地進(jìn)獲取客戶反饋并完成產(chǎn)品迭代,墨奇加速推進(jìn)以閉源 SaaS 的形態(tài)走向海外,面向全球市場。
對于選擇閉源路線的原因,孟卓飛的說法是,首先,原生向量數(shù)據(jù)庫 Pinecone 的成功已經(jīng)證明了閉源路線并非完全走不通。截至目前,Pinecone 是目前向量數(shù)據(jù)庫產(chǎn)品中聲量最大、用戶認(rèn)知程度最廣的產(chǎn)品,且在 2022 年就已經(jīng)率先實(shí)現(xiàn)了數(shù)百萬美元 ARR。
其次,墨奇認(rèn)為,開源產(chǎn)品如果想要在海外產(chǎn)生較好的收入,需要產(chǎn)品在性能和功能等方面與競品之間形成足夠強(qiáng)的差異化,否則對中國團(tuán)隊(duì)來說出海會非常困難。而墨奇 AI 數(shù)據(jù)庫和競品相比,價(jià)格是對方的 1/5,在某一些功能上,墨奇覺得只有自己能夠滿足。因此在這種情況下,閉源不再是用戶付費(fèi)的障礙。
即便產(chǎn)品獨(dú)特的同時(shí)兼具性價(jià)比,但 " 酒香也怕巷子深 "。如何在海外市場獲取種子用戶是擺在初入者墨奇面前的首要難題。
從行動(dòng)來看,墨奇選擇了一個(gè)討巧的方式——跟著 Pinecone 的步伐前行吸引和收獲用戶。
孟卓飛告訴 36 氪,Pinecone 在 LangChain 等大語言模型相關(guān)的工具鏈和社區(qū)中做了非常多貢獻(xiàn),已經(jīng)把市場和用戶教育的非常好。因此,有的事情無需重復(fù)再做,只需沿著對方的腳印對目標(biāo)用戶群體宣傳墨奇 AI 數(shù)據(jù)庫的產(chǎn)品特點(diǎn)即可。
墨奇有計(jì)劃的在這些社區(qū)中貢獻(xiàn)對用戶有價(jià)值的功能和開源代碼,同時(shí)也會和其他數(shù)據(jù)庫產(chǎn)品一樣分享一些共識性的用法。據(jù)介紹,這已經(jīng)成為該公司最主要的獲客渠道。
在 2023 年第二季度上線的墨奇 AI 數(shù)據(jù)庫測試版本中,該公司獲得了上百個(gè)活躍用戶,據(jù)介紹,其中很大一部分很快在第三季度轉(zhuǎn)為首批付費(fèi)客戶,近半用戶來自插件式向量搜索引擎 PG Vector 和 Pinecone 的用戶群體;通常情況下,一兩次溝通會即可確定是否轉(zhuǎn)化,周期很短,轉(zhuǎn)化率也很高,超過 80%。
對中國公司來說,如何 go to market 是全球化路上要面對的首要挑戰(zhàn),比如招募本土人才,比如運(yùn)營不同文化和語言的海外社區(qū)……但是中國公司也有海外公司難以企及的競爭優(yōu)勢,比如在中國這種超大體量的市場規(guī)模、應(yīng)用場景和豐富的數(shù)據(jù)的環(huán)境中,成長起來的一批優(yōu)秀工程師,他們是中國公司全球化的底氣。
36 氪會持續(xù)關(guān)注向量數(shù)據(jù)庫領(lǐng)域,如果您也是該領(lǐng)域的創(chuàng)業(yè)者、從業(yè)者,歡迎來聊。