ChatGPT主導的對話式AI的普及,迅速拉近了普通人與人工智能的距離,使人和數據結合、交互比以往任何時候都更緊密、順暢。
在商業上,大模型正在與企業應用迅速結合,重塑企業應用中人與數據的交互方式,這方面的應用不勝枚舉。如在自然語言處理領域,OpenAI的GPT-4模型已經被用于各種任務,包括文本生成、問答和語言理解等。在計算機視覺領域,Facebook的DETR模型被廣泛用于圖像識別任務。
相對于通用大模型訓練難度大、投資大、運營成本高、對于特定領域的適用性不佳等問題,星環科技在行業首家全面布局行業(領域)大模型發展。在5月26日舉辦的向星力·未來數據技術峰會 (FDTC)上,星環科技行業大模型戰略布局全面亮相。
【資料圖】
星環科技創始人、CEO孫元浩表示,星環科技不僅可以為用戶提供大模型應用構建的全棧軟件工具,還基于自身在行業應用領域的積累,推出兩大行業大模型。
推出MLOps工具鏈,改造和優化現有的通用大模型
在大語言模型快速發展的今天,大語言模型能夠更好地幫助計算機了解人類的意圖。但是企業在實際使用中會發現,由于通用大語言模型缺乏領域知識和知識推演能力,無法實際完成許多專業任務。
在通用大語言模型和企業應用之間,存在著巨大的差距,需要通過LLMOps工具鏈來改造和優化現有的通用大模型,形成真正能夠在某個行業內專精的領域大模型,真正讓大語言模型技術更好地服務企業。
為了幫助企業用戶基于大模型構建未來應用,星環科技推出了大模型持續提升和開發工具Sophon LLMOps,實現領域大模型的訓練、上架和迭代。Sophon LLMOps服務于大模型開發者,幫助企業快捷地構建自己的行業大模型,通過大模型基礎設施,形成具備“新型人機交互”且“敏捷可持續迭代“的人工智能應用。
星環科技Sophon LLM-Ops的工具鏈優勢體現在以下幾個方面:
首先,Sophon LLMOps擁有自己的樣本倉庫能力,覆蓋訓練數據開發、推理數據開發、數據維護等工作,對大語言模型涉及的原始數據、樣本數據、提示詞數據做清洗、探索、增強、評估和管理等。
第二,Sophon LLMOps具有模型運維管理能力。除了傳統MLOps的六大統一——統一納管、統一運維、統一應用、統一監控、統一評估、統一解釋外,針對大語言模型的微調、持續提升、評估、對齊等提供從計算框架、工具到計算、存儲、通信的調度和優化支持。
第三,Sophon LLMOps具有大語言模型和其他任務的編排、調度和上線能力。Sophon LLMOps提供Agent、Ops、DAG,結合星環科技的多款大數據、數據庫產品,如向量庫Hippo和分布式圖數據庫StellarDB等,將不同大語言模型、傳統機器學習、其他流程等編排成符合用戶實際領域和業務需求的任務,并為客戶提供服務。
星環科技Sophon LLMOps解決了客戶三個核心痛點:
首先,提供一站式工具鏈,幫助客戶完成“通用大語言模型” 的訓練、微調,得到滿足自身業務特點的領域大語言模型。
其次,幫助客戶將原型的大語言模型應用,成功地投入到實際生產中。
第三,幫助客戶運營在生產中應用的大語言模型,完成大模型的持續提升等。
向量數據庫與圖數據庫聯合構建大模型應用,讓每個人都擁有個性化的AI助理
孫元浩表示,數據處理從多模型向多模態轉型,從單一模態向多模態進化,企業數據分析進入了“新的次元”。
使用星環科技的向量數據庫和分布式圖數據庫,可以構建基于大模型的應用,讓每個人都擁有自己個性化的AI助理。星環科技推出了自研的向量數據庫Transwarp Hippo,拓展大語言模型時間和空間維度;星環科技打造面向圖智能、業務分析的多模型企業級分布式圖數據庫StellarDB 5.0,構建海量數據互聯智慧“星”圖。
數據庫經歷了40多年的發展,依然生機勃勃。隨著人工智能(AI)的發展,非結構化數據應用日益增多,數據體量大、格式多、存儲方式多樣,對這些數據的處理,傳統數據顯然無能為力,從而誕生了一種新的數據庫——向量數據庫(vector databases)。
向量數據庫主要用于AI應用,如機器學習、自然語言處理、圖像識別等,并因為支持快速高效的數據存儲和檢索過程,而成為AI用例的理想選擇。
在此次的向星力·未來數據技術峰會 (FDTC)上,星環科技推出了自研的向量數據庫Transwarp Hippo。作為一款企業級云原生分布式向量數據庫,星環科技Hippo支持存儲、索引以及管理海量的向量式數據集,能夠高效地解決向量相似度檢索、高密度向量聚類等問題。
與開源的向量數據庫不同,Hippo具備高可用、高性能、易拓展等特點,支持多種向量搜索索引,支持數據分區分片、數據持久化、增量數據攝取、向量標量字段過濾混合查詢等功能,能很好地滿足企業針對海量向量數據的高實時性查詢、檢索、召回等場景。
大數據時代,應該如何解決海量圖數據的存儲、計算難題呢?星環科技打造面向圖智能、業務分析的多模型企業級分布式圖數據庫StellarDB 5.0。
在性能上,StellarDB 5.0一騎絕塵,實現了實時短查詢場景5倍提升,高并發上萬+QPS,近50種圖算法,平均8倍性能提升,多度關聯關系場景10倍提升,解決無限擴層問題。
同時StellarDB 5實現了圖算法可視化,帶來全面升級的數據可視化分析引擎KG Explorer 1.3,一款人人易用、面向業務、數據分析的可視化工具。
另外,StellarDB 5.0與星環科技自研的深度圖框架ZenGraph結合,基于圖數據庫的查詢計算能力,提供快速、準實時,甚至實時的特征查詢和計算;基于圖數據庫內置算法,提供多元的圖特征計算能力;基于圖數據庫存儲能力,提供高速數據寫會能力;針對不同業務場景支持多種深度圖嵌入算法模型,相比于傳統圖算法,能夠從圖中挖掘學習更多的特征知識,預測更精準。
利用向量數據庫和圖數據庫,可以構建特定領域的大模型應用。在大模型應用開發軟件棧中,知識圖譜、向量數據庫、模型倉庫和圖數據庫構成的知識語義層,與模型運行層、大語言模型、提示工程層、應用前端集成層協同,幫助用戶創建大模型應用,讓每個人都擁有自己的個性化AI助理。
其中,向量數據庫可用于應用的文本檢索,讓查詢更滿足人性化的需求;可以實現語音、圖像、視頻檢索,覆蓋如人臉識別、語音識別、視頻指紋等各類AI場景;實現個性化推薦,做到千人千面的個性化推薦效果。
而圖數據庫和知識圖譜聯合,與大模型可視化端到端構建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成存儲、基于大模型的知識問答等閉環功能。客戶以知識圖譜作為大語言模型提示即可發起模型微調,以較低代價就可獲得行業的專屬大語言模型問答應用。
而向量數據庫、圖數據庫與大語言模型結合,可以構建業務域知識圖譜和業務系統的應用服務,進一步提高人機交互的效率,提供更靈活的組合業務服務,激發出更多更深入的業務場景AI應用。相較于通用大模型,結合向量數據庫、圖數據庫與知識圖譜所存儲的具體行業知識,領域大模型更精通特定行業的知識,具備高效的語料匹配能力和知識推理能力,能夠有效回答用戶的提問。
無涯金融量化投研大模型
針對量化投研領域特定的業務邏輯,星環科技通過預訓、提示、增強、推導范式的構建,實現Financial-Specific-LLM的訓練,推出了金融行業量化投研大模型無涯Infinity。星環科技基于大模型的事件驅動與深度圖引擎,實現對事件語義刻畫、定價因子挖掘、時序編碼、異構關系圖卷積傳播,進而構建包含事件沖擊、時序變化、截面聯動和決策博弈等多個維度的量化投研新范式。
星環科技無涯金融大模型,寓意學海無涯,既代表了投資領域終身學習的精神,也蘊含了大模型本身在參數架構方面持續迭代的內涵。可以說無涯是一款面向金融量化領域、超大規模參數量的生成式大語言模型。主要通過自監督的增量訓練和有監督的指令微調,使用星環科技高性能計算集群訓練而成。
首先,星環科技無涯使用上百萬的高質量的專業金融語料,涵蓋了研報、公告、政策、新聞等高質量的自然語言文本,作為基礎大模型的二次預訓練語料,使得無涯具備對包括基本面、技術面、消息面在內的金融通識領域準確的理解能力,滿足行業分析師的需求。
其次,星環科技無涯使用了上百類特定事件類型和20多萬事件實例,完成對大模型的指令微調,從而使得無涯能夠對齊專業研究員的分析推理能力,更加智能和可靠。
再次,在此基礎上,星環科技無涯構建了包括政策、輿情、ESG、風險、量價、產業鏈等六類大模型基礎因子集,所構建的復合因子體系滿足投資經理的需求。
從應用上看,無涯金融大模型強化以下幾個能力:
第一,針對金融行業,擁有準確理解和合理分析的能力。無涯擅長處理金融量化領域的各類問題,諸如在政策和研報分析、新聞解讀、事件總結和演繹推理上都具備強大的理解和生成能力。
第二,實現事件復盤分析與推演,貫通宏觀行業和大類資產分析邏輯。能夠對股票、債券、基金、商品等各類市場事件進行全面的復盤、傳播和推演。
第三,構建六類大模型基礎因子集,支撐復合因子策略體系,能夠生成策略因子集合,構建立體的歸因解釋體系。
毫無疑問,星環科技長期深耕金融領域,服務大量金融行業客戶,積累了上百萬金融專業領域的語料;基于星環科技對圖數據庫、深度圖推理算法的技術,形成了大規模高質量的金融類事件訓練指令集。二者共同鑄就了星環科技開發金融領域大語言模型的堅實底座。
大數據分析大模型SoLar“求索”,數據庫查詢平民化
同樣在大數據領域探索、積累長達10年的星環科技,基于在SQL編輯器的多年積累,結合大語言模型,推出了星環科技大數據分析大模型SoLar求索。用戶可以通過自然語言,生成可成功執行的SQL或Cypher,從而快速獲取查詢的結果,能夠快速降低用戶的使用門檻。
星環科技此次發布的SoLar求索,將作為數據查詢和分析的智能副手,為數據工程師、數據科學、業務人員等提供更好的使用體驗。這些非大數據分析的專業用戶,可以利用 SoLar求索,在不需要學習和掌握數據庫編程語言的前提下,可以使用自然語言自由地按需查詢數據。
星環科技的數據分析大模型SoLar求索包含多個數據分析大語言模型。本次展示的是自然語言進行數據分析(SQL類)的能力。用戶可以通過自然語言提問,從星環科技的大數據平臺上的多張數據表中查詢出所需結果,并快速做出相應數據分析和相應的分析結果展現。
相較于傳統方式,應用星環科技SoLar求索的好處包括:
首先,可以使用自然語言描述業務需求,方便對多張數據表進行關聯,并使用各種星環科技大數據分析平臺提供的函數進行分析計算,讓數據庫查詢平民化。
其次,可以使用自然語言描述涉及多種數據模型的復雜業務需求,借助星環科技大數據平臺特有的多模型技術,對不同模態如圖數據、文本數據、結構化數據等的數據進行關聯分析和展示。
同時,為了保障生產可用和避免大語言模型的“幻覺”問題,星環科技Solar求索還為客戶提供了交互式數據分析的方式,方便客戶利用數據表與表之間的ER圖(實體-聯系圖),指定想使用的數據庫/表,提供數據分析代碼的一步步解釋,從而生成可被追溯、可被理解、同時更準確的分析能力。
AI大模型時代,正在加速AI應用的普及化。星環科技一方面為為用戶提供大模型應用構建的軟件工具,同時基于自身在行業應用領域的積累,推出無涯金融大模型和大數據分析大模型SoLar求索兩大行業應用大模型,幫助用戶應對大模型時代的挑戰。
本文來源:財經報道網
關鍵詞:
凡注有"實況網-重新發現生活"或電頭為"實況網-重新發現生活"的稿件,均為實況網-重新發現生活獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"實況網-重新發現生活",并保留"實況網-重新發現生活"的電頭。
熱點
- 【全球新要聞】視頻熱傳!日本賽馬場上馬匹突然倒地猝死,前騎手言論引爭議
- 中國動力:公司風電相關產品將隨著風電產業尤其是海上風電的快速發展給公司帶來新的發展機遇|每日觀察
- 當虹科技(688039):5月30日技術指標出現看漲信號-“紅三兵”
- 世界觀察:曬童年、憶童趣,快來分享你的童年回憶
- 世界短訊!【港股異動】合景泰富集團(01813.HK)漲10.17%
- 這些年,國企改革帶來新變化_世界熱訊
- 世界今亮點!汪清縣長榮街道長榮社區開展“美好生活·民法典相伴”宣傳活動
- 四部門啟動高校畢業生等青年就業創業政策宣傳周活動_全球熱點
- 工信部:1-4月份規模以上電子信息制造業實現營收4.31萬億元,同比下降4.7%-環球觀焦點
- 世界熱資訊!【東海期貨5月30日產業鏈日報】貴金屬篇:伊拉克央行黃金儲備提升,金價震蕩