中新網廣州5月17日電 (記者 蔡敏婕)AI時代帶來新的數據難題,已成為行業共識。“GenAI(生成式人工智能)推動全球企業數據量高速增長。”IDC中國軟件行業研究經理李凌霄17日在廣州表示,根據IDC報告,受生成式AI等技術驅動,預計2028年全球新生成數據量規模將達到393.9ZB(澤字節),其中企業數據規模和增速尤為凸顯。
AI技術的廣泛應用,賦予企業從數據中獲取洞察的新能力。例如數字孿生技術的持續進步,在制造、汽車和航空航天、醫療保健、公用事業等廣泛行業和用例中得到越來越多的使用,物聯網和AI協同提升其精確度與應用價值。
OceanBase第三屆開發者大會當天在廣州舉行。根據《IDC數據庫前沿趨勢白皮書》,數據量正以空前速度增長,對于企業而言,其數據倉庫的容量也已實現質的飛躍,結構化數據存儲規模“突破PB級邁向EB級”成為新常態。
李凌霄表示,傳統存儲架構面對如此量級的數據,讀寫性能下降,存儲成本大幅增加,數據管理難度呈幾何倍數增長,這給數據存儲、管理與分析帶來嚴峻挑戰。
隨著GenAI技術的持續演進與成熟,企業愈發清晰地認識到GenAI在提升業務效率方面的重要性。GenAI已成為企業戰略布局中的關鍵一環,企業積極籌備AI部署,期望借此在激烈的市場競爭中搶占先機、提升競爭力。
IDC全球調研顯示,37%的受訪企業將AI相關支出列為2025年預算增長的關鍵因素,與IT運維成本優化并列首位。
在企業部署AI創新應用及一體化數據庫方面,李凌霄建議通過優先級排序、分段實施、開放架構選擇、組織能力重塑和前瞻性布局,幫助企業高效實現AI創新應用與數據庫的融合,“在升級數據基礎設施時,提前規劃AI創新應用對數據庫的要求,避免在完成數字化后才考慮AI適配,應同步布局”。
螞蟻集團CTO何征宇在分享中指出,海量的互聯網數據成就了今天的大模型,但大模型幻覺問題的源頭也是數據問題。
“大模型幻覺的本質是缺數據,提供更好數據是解決幻覺的源頭。”何征宇認為,數據決定著大模型的能力上限,且依舊有四大挑戰:一是數據的獲取成本顯著增加,二是嚴謹的行業數據稀缺且流動困難,三是多模態數據需要更強的處理能力,四是數據的質量評估難。
面對行業的真實需求,數據庫OceanBase探索從一體化數據庫向一體化數據底座演進,通過一套引擎同時支持TP/AP/AI混合負載,支持向量數據庫,實現SQL與AI的混合檢索。
中國聯通軟件研究院OceanBase研發負責人邱永剛表示,隨著知識的積累,向量的體量會越來越大,這要求我們一方面要不斷優化向量檢索算法,另一方面要利用硬件能力,適應海量的向量檢索需求,提供更快更準確的向量檢索能力。(完)【編輯:李潤澤】
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。