在美劇《國土安全》里常出現這樣的橋段:警員在自己家里理出一面墻,把手上案件里的所有關聯人物和事件都貼在墻上,然后就是一個填肉的過程......照片、箭頭和關鍵詞組成一幅復雜的事件全貌。
——找到那個罪犯。
這幾乎是所有懸疑電影的經典場景。整個案件唯一的破綻就藏在這張關系網絡里,推理者的視線在這面墻上流轉,觀眾的腎上腺素也被極速調動起來。
圖源:《國土安全》劇照
我們會覺得這是合理的,設想中人類最敏銳的大腦可以穿破墻上的迷霧——如果墻上只有5個家庭,10個嫌疑人,和關于他們的100件事的話。
但如果把這面墻無限擴大,比如1億個嫌疑人,100億件事呢?
看起來這已遠超人腦的負載極限,但我們可能已經見過這樣的事了——或許你我的手機里就正在經歷這些——比如各式各樣的知識圖譜,以及在它底層,一個抽象出來叫做圖計算的技術概念。
圖計算緣起
“Things,notstrings.”
Google在2012年5月提出了這句話,以及知識圖譜的概念。
知識圖譜,由知識和圖譜兩個詞構成,前者是信息的內容要素,后者是信息最終的表現形態。這種信息間全新的連接方式,其基本組成單位是“實體—關系—實體”三元組,以及實體及其相關屬性—值對,實體之間通過關系相互聯結,構成網狀的知識結構。
知識圖譜能夠成立的核心是計算機的知識推理機制,圖計算為其提供了重要的底層技術支持。
圖計算中的“圖”即Graph,這是一種基于圖論而非數論的計算邏輯。
圖論的基本要素是“節點”和“邊”,“節點”可以理解為人或者網絡賬號這些相對靜態的實體,而“邊”則代表著不同實體之間的關系或者行為。
派盾:SwirlLend部署者地址已將部分資金跨入以太坊主網:8月16日消息,據派盾監測,SwirlLend部署者地址已將價值28.9萬美元的代幣從Base跨入以太坊主網。此外,SwirlLend協議在Linea網絡也遭rug,且已將94枚ETH跨入以太坊主網。
截止發稿,部署者地址在以太坊上的資金余額為165.6ETH以及32,641枚USDC。
金色財經此前消息,Base生態借貸協議SwirlLend疑似跑路,TVL已從78.4萬美元跌至49.2美元,此外,該協議官方推特也已注銷。[2023/8/16 21:27:15]
比如A在抖音上關注了B,這個動作就成為A和B之間這條“邊”上可包含的信息。“邊”在記錄內容的時候可以表示方向,這被稱為有向圖,而如果“邊”沒有標注方向則稱為無向圖。這種信息數據甚至可以是多模態的,比如在腦科學領域涉及光或電信號的時候。
相比于鏈表或者線性表的二維結構,“圖”相當于在結構上做了一次升維,這也讓其對于“關系”有更優越的描述能力,也更接近人類對于事物聯系的原生表達。
圖源:源于網絡
簡單來講,我們從來不是以Excel的樣子來理解外部世界的,圖的相互連接更接近正常人的思考方式。從遙遠的阿蘭?圖靈時代開始,人類就在思考如何讓機器像人類一樣思考,圖計算是目前為止最有潛力的路徑。
一開始只是試圖找到從鹿特丹到格羅寧根的最短路徑,荷蘭計算機科學家Dijkstra為了解決這個問題在1956年發明了尋求圖最短路徑的Dijkstra算法,這是最早與圖計算連接起來的概念之一。到Google創始人LarryPage在20世紀末發明了開創性的PageRank算法,以及隨著社交網絡時代降臨而繁榮起來的如Girvan-Newman算法等社區發現算法。
BUSD暫停鑄造后加密總市值短時跌破1萬億美元:金色財經報道,本周一美元穩定幣發行方Paxos宣布暫停BUSD鑄造后,加密貨幣總市值跌破1萬億美元,這也是該指標近三周內首次出現下跌,目前已小幅反彈至1.05萬億美元左右。此外,分析認為即將出臺的美國通脹數據和最新監管行動或也是本次下跌的主要原因,投資公司 GSR 的加密期權交易員 Christopher Newhouse 表示,隨著 1 月份的美國消費者價格指數(CPI)即將發布,加密期權市場的預期看起來不如上個月樂觀。股市方面,Coinbase 股價周一下跌 1.2%,納斯達克指數上漲約 1.5%。過去五個交易日,Coinbase 股價下跌約 24%。(雅虎財經)[2023/2/14 12:04:52]
這其中也能看出來,圖計算的定義本身也在經歷一個從狹義到廣義的延展過程。
狹義的圖計算更多指在確定不變的圖上做的計算,比如基于地圖信息的路網圖——在變化頻率和幅度很低的鹿特丹到格羅寧根之間尋找一條最短路徑——這是圖計算可以解決的典型問題。
廣義的圖計算指一切基于圖數據進行的分析計算,其中的數據概念進而擴充到海量規模并且富于動態變化,比如社交媒體的關系網絡,不斷發生新事件的歷史知識圖譜,或者將道路擁堵變化也考慮在內的路徑規劃。
于是圖數據庫的概念被引入進來。
圖數據庫是用來處理圖這種數據結構的工具,傳統的使用二維表格存儲數據的數據庫被稱為關系性數據庫——或者可以被理解成無數以橫豎軸結構展開的表數據的集合,圖數據庫則是另一種非關系性數據庫,它把所有表格打散了,然后織成一張網。
圖數據庫與關系型數據庫最大的不同是免索引鄰接。即圖數據模型中的每個節點都會維護與它相鄰的節點關系,這就意味著查詢時間與圖的整體規模無關,只與每個節點的鄰點數量有關,這使得圖數據庫在處理數據之間關系方面比關系性數據庫更加靈活之外,也具備處理大量復雜關系時比后者更優越的性能。
荷蘭加密交易所Bitvavo拒絕DCG償還70%債務的提議:1月11日消息,總部位于荷蘭的加密交易所Bitvavo在一份聲明中披露已拒絕Digital Currency Group(DCG)償還70%債務的提議,稱因為其認為DCG有足夠的資金償還全部債務。Bitvavo堅持認為,它有信心找到一個讓所有有關各方都滿意的解決方案。
Bitvavo表示,債務償還不會受到所報告的對DCG的調查的影響,也不會受到加密貸款機構Genesis可能破產的影響。但是,該過程可能會影響還款期限。
此前消息,Bitvavo表示,已無法訪問存放在DCG內的2.8億歐元(約合2.97億美元)資產,服務不會中斷,客戶可繼續提款。該交易所在此次最新公告也表示其客戶可繼續提款。[2023/1/11 11:06:16]
Google創始人LarryPage圖源:LearnBiography
圖計算與圖數據庫的發展是互聯網時代的一條暗線,在其中一些關鍵技術背后,可以看到谷歌、Meta、推特甚至高盛的身影——如果你還記得2007年開始爆發的那場金融危機的話——萊曼兄弟公司破產,高盛卻因為提前預見到了次級抵押貸款市場的熊市而活了下來,背后是圖數據庫系統——SecDB對危險的察覺能力。
不遑說,今天許多偉大公司都是基于圖計算領域的尖端技術而誕生或持續繁榮的。
而在經歷了幾十年的發展之后,圖計算現在站到了更廣泛的應用場景入口。
咨詢公司Gartner在《2021年十大數據和分析技術趨勢》的報告中預測,2025年全球將有80%的數據和分析創新會與圖技術有關。
在這屆世界人工智能大會上,與圖計算或圖數據有關的論壇數量也多達五場,是本次大會上被最高頻的概念之一。如螞蟻集團、亞馬遜云等矚目的圖數據庫框架,也在本屆WAIC上首次開源。
美SEC主席:投資者在加密貨幣領域需要得到更好的保護:11月10日消息,美國證交會主席根斯勒表示,投資者在加密貨幣領域需要得到更好的保護,否則加密貨幣客戶可能會在“破產法庭”排隊等候。(金十)[2022/11/10 12:45:42]
圖計算作為一種技術在國內開始成熟的標志是,小范圍的數據已無法探索技術上限,它比以往任何時候都需要更大的試驗場,比如6億用戶的抖音,或者12億用戶的支付寶。越來越多大型科技公司出現在關于圖計算的討論中。開源是產業化的隱喻,產業化的加速使圖計算開始獲得更豐富的能力縱深,甚至早已不局限在知識圖譜的領域。
抖音與支付寶,兩條路徑
2018年8月,字節跳動內部開始自研圖數據庫ByteGraph的開發。
ByteGraph項目的發起是為了抖音核心的社交關系問題。個性化推薦系統逐漸成為互聯網各大社交媒體和電商網站的基礎能力。與此并行的,知識圖譜的場景也正在豐富,大量研究工作逐漸指向兩者的交匯處,圖計算與知識圖譜可以用來完善基于內容的推薦系統,從而提升推薦效果。
這是圖計算在字節跳動內的起點,并由此開始進入業務的底層開發場景。從抖音開始,ByteGraph逐漸演變為支持有向屬性圖數據模型、支持寫入原子性、部分Gremlin圖查詢語言的通用圖數據庫系統,隨后逐漸滲入今日頭條、TikTok、西瓜、等幾乎字節跳動全部產品線。
圖源:知乎
“字節跳動整個業務開發團隊,已經都在用圖建模的方式來表達和處理業務邏輯”,ByteGraph團隊負責人張帥表示。
開發團隊圍聚在一起探索業務時,往往會拽過來一塊白板,把初步的開發邏輯和任何靈感寫在一起。這某種程度上即是一種知識圖譜,并且天然與人類大腦思維接近。但此前這樣一張思維導圖需要被重新整理——可以理解為把圖文并茂的圖降維成一張Excel——再進入開發步驟。
“003.eth”域名以83.5ETH成交,位列以ETH計價的域名成交價第二名:6月15日消息,“003.eth”ENS域名在今日以83.5ETH價格成交,約合8.5萬美元,僅次于此前“paradigm.eth”的420ETH,位列ENS域名成交價第二名(以ETH計價)。[2022/6/15 4:29:58]
但現在基于圖計算和圖數據庫,這張白板上的草圖可以直接被代碼化了。
在電商、到店業務甚至音樂等更復雜的場景嵌進信息流與社交屬性后,“圖”作為一種關系邏輯的重要性在字節跳動內完全顯示出來了。張帥透露ByteGraph已經在火山引擎上開始構建,這意味著字節跳動的圖數據庫開源已經開始提上日程。
在圖數據庫的進展方面,螞蟻集團走在字節跳動前面。在本屆WAIC上,螞蟻集團宣布開源圖數據庫TuGraph的單機版本。
螞蟻集團的圖數據庫研發從2015年開始,隔年第一次發布自研分布式圖數據庫并用于支付寶。2021年,螞蟻集團聯合清華大學自主研發的“大規模圖計算系統GeaGraph”完成了產品3.0版本的迭代。迭代后的版本查詢效率提升10倍,兼容性更強,并且正式升級為TuGraph。
相比抖音,支付寶背后有一張更龐大的用戶關系網絡,而其圍繞支付展開的科技金融業務,也讓兩者在進入圖計算領域的側重上分出差異。
圖源:MobileWorldLive
螞蟻集團看中的是圖計算中增強“薄”數據的表征,從而增強支付安全性的能力。
比如在支付寶的場景中,判斷一個用戶的消費偏好,或者這個人還款的信用,當用戶數據信息很豐富的時候,人工智能算法往往會得到很好的結果。但如果用戶背后沒有太豐富的信息——比如他只是偶爾的用支付寶轉過幾筆錢——如何得知這個人的特點呢?
圖數據比起以關系數據網為代表的表數據最鮮明的優越性在于,很多時候人、地點和事件的關聯性并不完全能以表的形式呈現,卻能用“節點”和“邊”這種更松散的形式記錄下來,這些隱形的關聯信息單獨來看并不能解釋某個關聯用戶的行為,但這張網聚集起來卻能形成一些社區發現。也因此,當這張關系網絡中納入的用戶越多,這種四兩撥千斤的能力也愈強。
“圖是一種最為靈活的連接方式,讓實體之間可以不受限制地連接”,螞蟻技術研究院院長陳文光表示,這同時也賦予了算法更多的“可解釋性”。
人跟隨著算法生活的蜜月正在過去,算法對人的過度入侵開始被提到高位審視。在這個過程中,算法已經不可逆的搭建起一套社會需要依附其上的運轉方式,于是當代碼替人做了決定——比如你的轉賬額度,或者為什么一直收到某一類的廣告——這個決定是如何做出的,需要可以被清晰追溯。
陳文光以社區發現舉了個例子:
“比如在某個社區里已知有一些“壞人’,然后我們發現某個人和這些鄰居的鏈接比較緊密,那這個人是”壞人”的概率也會更大。”
這是最基本的思路。一個人的節點特征是由他鄰居的節點特征通過某種運算,結合和他過去的特征合在一起型成的。能夠影響我們對一個人的判斷,形成他新的特征,這與之前純粹將數據放進神經網絡,通過統計學得到一個完全沒法解釋的分類答案不一樣。”
相比于表數據來說,圖計算帶有一個更清晰的逐層推導結構,這個結構本身就意味著一定的可解釋性。
這種把薄數據“變厚”的能力以及推理過程的可解釋性,已經開始和螞蟻集團開源的可信隱私計算框架“隱語”一起,在支付寶反詐風控的系統中形成合力。目前支付寶可在0.01秒內完成對一筆交易的風險判定,并且在2021年的全年統計中資損率低于億分之0.98——即平臺上1億人民幣的資金流轉中,出于欺詐行為的不到1元。
開始跨入現實之門
在這位從學界跨入產界的螞蟻智庫首席看來,圖計算是一個處在數據和人工智能發展交匯處的概念。技術沉淀多時,亟需的是場景。
陳文光是以費馬科技創始人的身份加入螞蟻集團的,再那之前的十幾年一直在清華大學計算機系擔任教授,這番從學界投身產界,最終進入大公司的姿態本身也像是圖計算作為一個前沿領域發展的某種映射。
費馬科技在2016年5月創立,站在臺前的是包括洪春濤和朱曉偉在內的幾位清華計算機系博士,陳文光則落于幕后擔任首席科學家。公司的業務方向是立足于高性能的分布式圖計算以進行大規模關系網絡分析,為銀行等客戶提供反欺詐能力和社交分析能力,以及整體的金融大數據解決方案。
2016年之前,陳文光在清華大學主導的圖計算研究已經有了成果,團隊自研的圖計算系統比當時開源軟件中常用的圖計算框架GraphX要快100倍左右,而所需的內存只是后者的10%。把自己培養的博士生聚攏起來,繼續優化自研的圖計算系統,并為它找到使用場景,這是費馬科技成立的初衷。
費馬的暢想卡在規模化這最后一步。
“圖計算要想真正成長起來,第一步要解決:做出來;第二步:有人用;第三步:大規模使用。而當時困擾我的問題,怎么實現從有人用到大規模使用。”
幾年時間里費馬科技確實拿到了一些標桿客戶,比如京東金融和國家電網,但整體的商業化路徑并不清晰,這也不是技術出身的團隊所擅長的事。
在本屆WAIC的一場論壇上,洪春濤與陳文光同席出現在最后的圓桌環節。洪春濤曾是費馬科技的CEO,現在他的身份是螞蟻集團圖數據庫負責人。2020年,洪春濤曾經表示圖計算未來的市場規模會達到千億,并且“已到爆發前夜”,但2021年初的多項工商變更則表明,費馬科技決定在這黎明前的最后一夜擁抱螞蟻集團。
原費馬科技高管,左三為陳文光,右二為洪春濤圖源:搜狐
“到2020年的時候,我們發現了自身的局限性。費馬團隊總體上技術上是很強,但是管理和市場銷售,特別是后者我們相對比較弱的”,陳文光在今年6月的一次采訪中對極客公園表示。
2020年,螞蟻集團宣布了陳文光的加入。兩年之后,后者開始擔任螞蟻技術研究院院長。
螞蟻集團對于圖計算的布局很早,從2015年開始就自主研發分布式圖數據庫、流式圖計算等圖相關技術,2016年發布自研分布式圖數據庫。而手握支付寶,意味著螞蟻天然有了全球領先的圖計算的場景需求,這是純粹從技術出發的圖計算團隊都不具備的。
從陳文光的表述中,費馬科技并入螞蟻集團并不是商業場上那種千篇一律的無奈收購,而是一個技術找到場景的積極故事。螞蟻集團,或者字節跳動這些掌握大量數據的科技公司正擁有這片土壤。只有在最大限度的接觸到真實數據之后,圖計算的成長才會開始加速,直到最終從象牙塔中走出,找到現實世界中的位置。
除了螞蟻和字節跳動,國內的互聯網巨頭幾乎無一例外的都已經開始圖計算和圖數據庫的相關布局。
華為云的圖引擎服務GES是國內首個商用的、擁有自主知識產權的國產分布式原生圖引擎。早在2019年華為云推出一站式AI開發平臺ModelArts,聯合了GES圖引擎打造的“圖神經網絡”,自此圖深度學習開始落地。
2020年6月1日,騰訊云正式發布分布式圖數據庫產品騰訊云數圖TGDB,能夠實現萬億級關聯關系數據實時查詢,高效治理異構數據,支持實時圖計算。
而早在2018年,百度已宣布開源大規模圖數據庫HugeGraph,這也是國內第一家開源的圖數據庫。今年5月百度將HugeGraph捐贈給了世界上最大的開源軟件基金會Apache,成為后者的孵化項目之一。孵化成功的HugeGraph有望成為全球首個Apache軟件基金會的圖數據庫頂級項目。
這一切跡象都在表明,圖計算正在被積極的潮水推動著。人類苦尋“幻視”一樣理想的人工智能,或許我們已經找到額頭上的那顆寶石了。
參考資料:
《圖論及相關歷史》
《人人都在談的圖數據庫到底是個啥?》
《圖計算,下一個科技前沿?》
Tags:Graph人工智能AICGraph幣是什么幣人工智能技術應用學人工智能后悔死了人工智能考研考哪些科目AIC價格AIC幣
近日,據威士忌拍賣雜志公布的二級拍賣市場數據顯示,9月有許多高酒齡酒款現身,同時也有不少爆款成為了全場焦點.
1900/1/1 0:00:00在本文中,我們將主要討論門羅幣與比特幣。門羅幣比比特幣好嗎?門羅幣比比特幣安全嗎?本文將向您展示。 比特幣(BTC)是始于2009年的加密貨幣.
1900/1/1 0:00:00“羊了個羊”你入坑了嗎?即使玩家被虐千百遍,卻始終愛它如初戀 每次到最后幾張,是不是恨不得上手給它拿開,O(∩_∩)O哈哈~ 反正小編是快要逼瘋了! 話說.
1900/1/1 0:00:00智通財經獲悉,中國儒意(00136)漲超5%。9月19日,中國儒意與海昌海洋公園、歐樺文娛簽訂一項為期3年的業務合作協議,積極探索更多創新性合作模式,并向其他領域進發,合力打造豐富的IP生態.
1900/1/1 0:00:001、天津大學 天津大學校徽整體為圓形,有“智圓行方”之意。校徽圖案中心圖形為盾形,源自天津大學建校初期圖形標志。盾形中篆書“北洋”,筆畫凝煉勁挺,圓健美觀,表現了天津大學源遠流長的歷史.
1900/1/1 0:00:00來源:南早網 摘要: 隨著數字經濟時代的到來,企業面臨著新的機遇和挑戰,數字化轉型成為企業提升競爭力的必要手段.
1900/1/1 0:00:00