買以太坊 買以太坊
Ctrl+D 買以太坊
ads

IND:大家都知道分布式存儲,但是你了解過分布式搜索嗎?_Hardcore

Author:

Time:1900/1/1 0:00:00

搜索引擎是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。

搜索引擎是網站建設中針對“用戶使用網站的便利性”所提供的必要功能,同時也是“研究網站用戶行為的一個有效工具”。高效的站內檢索可以讓用戶快速準確地找到目標信息,從而更有效地促進產品/服務的銷售,而且通過對網站訪問者搜索行為的深度分析,對于進一步制定更為有效的網絡營銷策略具有重要價值。

要了解分布式搜索引擎,先了解搜索這個事兒吧,搜索這個技術領域里最入門級別的一個概念就是倒排索引。我們先簡單說一下倒排索引是個什么東西。

1、倒排索引是什么

假如說你現在不用搜索引擎,單純使用數據庫來存放和搜索一些數據,比如說放了一些論壇的帖子數據吧,那么這個數據的格式大致如下:

Terra創始人Do Kwon:即將塵埃落定,大家堅持住:5月11日消息,Terra創始人Do Kwon在社交媒體上宣布:即將塵埃落定,大家堅持住。

此前報道,據三位消息人士透露,Luna 基金會 LFG 正在向機構尋求籌集超過 10 億美元來支持 UST。據 The Block 研究員 Larry 表示,目前了解到的融資細節是:LFG 尋求的這筆融資約 10 億美元至 15 億美元,目前 Jump Trading、Celsius,以及 Jane Street 已經同意了這筆融資,承諾金額約 7 億美元,Alameda Research 尚未同意。機構的條件是以 50% 的價格折扣拿到 LUNA 現貨,鎖倉一年,一年后按月線性解鎖。Larry 強調這筆融資尚未確認,一切都有可能發生變動。[2022/5/11 3:05:46]

很簡單吧,假設有一個id字段標識每個帖子數據,然后title字段是帖子的標題,content字段是帖子的內容。那么這個時候,比如我們要是用數據庫來進行搜索包含“汽車”這個關鍵字的所有帖子,大致SQL如下:

yieldfarming.insure開發者:Azeem Ahmed欺騙了大家:9月16日,Yieldfarming.insure開發者發布文章表示,項目創始人Azeem Ahmed欺騙了大家,他違背了將竭盡全力對社區保持誠實和透明的承諾,并利用項目的權限提前上線4池賺取了幾百萬美元。據了解,SAFE代幣流通總量是5萬枚,項目激勵礦工購買其所抵押資產的掩體,并在平臺上抵押yNFT(非同質化代幣),作為回報,風險承擔者將獲得SAFE代幣。[2020/9/16]

咱們姑且不論這個數據庫層面也有支持全文檢索的一些特殊索引類型,或者數據庫層面是怎么執行的,這個不是本文討論的重點,你就看看數據庫的數據格式以及搜索的方式就好了。但是如果你通過搜索引擎類的技術來存放帖子的內容,他是可以建立倒排索引的。就是說,你把上述的幾行數據放到搜索引擎里,這個倒排索引數據大致看起來如下:

所謂的倒排索引,就是把你的數據內容先分詞,每句話分成一個一個的關鍵詞,然后記錄好每個關鍵詞對應出現在了哪些id標識的數據里。那么你要搜索包含“汽車”關鍵詞的帖子,直接掃描這個倒排索引,在倒排索引里找到“汽車”這個關鍵詞對應的那些數據的id就好了。然后你可以從其他地方根據這幾個id找到對應的數據就可以了,這個就是倒排索引的數據格式以及搜索的方式,上面這種利用倒排索引查找數據的方式,也被稱之為全文檢索。

Bridge官方聲明:市場出現假幣 大家警惕交易:ZB Capital戰略投資項目Bridge(BGN)將于9月13、14日在ZBG、LBank正式發售,發售價格為380USDT,此前僅有少量節點代幣BGN在鏈上公開認籌,最后一輪價格為350USDT。因此低于300USDT以下場外出售的BGN很有可能是假幣,目前已有用戶投訴被騙,假幣假微信號已經出現在市場上,請大家注意風險,謹慎交易,認準官方渠道。

據悉,此前Bridge還獲得了維京基金會、BKEX Capital、LBank、ZBG等多家企業投資,并達成深度合作。[2020/9/12]

2、分布式搜索引擎理解

其實還是很簡單,假如說你現在要存儲1TB的數據,那么放在一臺機器還是可以的。但是如果你要存儲超過10TB,100TB,甚至1000TB的數據呢?你用一臺機器放的下嗎?當然是放不下的了,你的機器磁盤空間是不夠的。大家看一下下面的圖:

現場 | 孔劍平:區塊鏈會給大家帶來想象不到的無限空間:金色財經現場報道,12月3日,嘉楠科技聯席董事長孔劍平在“2019 CAN 萬物互鏈·區塊鏈與全球經濟新格局”大會上表示:每一次經濟的增長都是由技術驅動。新的技術和新的科技革命都會帶來新的增長。區塊鏈是一個重要的機會,區塊鏈會給大家帶來想象不到的無限空間。整個數字經濟會成為未來經濟的主要增長動力之一。數字資產如果從數字貨幣這一角度來說,可以將它分成三類:第一類是法定數字貨幣,相當于央行發行的DC/EP,這是能夠引起全球央行的熱潮,中國央行也是非常前沿的。第二類是跨主權數字貨幣,像Facebook的Libra。第三類是超主權數字貨幣,未來的超主權數字貨幣是什么我們不知道。當下是比特幣,因為它相對來說比別的數字貨幣誕生更早,并且有一定的行業地位。

中國對區塊鏈行業的政策就是支持技術創新,防范金融風險。從全球發展趨勢來看,我概括為三個詞“合規、創新、落地”。同時,區塊鏈會帶來“貨幣戰爭、算力戰爭、可信信用”。區塊鏈ASIC芯片中國已經是階段性領跑全球了。[2019/12/3]

所以這個時候,你就得用分布式搜索引擎了,也就是要使用多臺機器來部署搜索引擎集群。比如說,假設你用Elasticsearch(后面簡寫為:ES)。現在你總共有3TB的數據,那么你搞3臺機器,每臺機器上部署一個ES進程,管理那臺機器上的1TB數據就可以了。這樣不就可以把3TB的數據分散在3臺機器上來存儲了?這不就是索引數據的分布式存儲嗎?而且,你在搜索數據的時候,不就可以利用3臺機器來對分布式存儲后的數據進行搜索了?每臺機器上的ES進程不都可以對一部分數據搜索?這不就是分布式的搜索?是的,這就是所謂的分布式搜索引擎:把大量的索引數據拆散成多塊,每臺機器放一部分,然后利用多臺機器對分散之后的數據進行搜索,所有操作全部是分布在多臺機器上進行,形成了完整的分布式的架構。同樣,我們來看下面的圖,直觀的感受一下。

聲音 | 比特幣中國楊林科:比特幣公鑰私鑰算法肯定會換成抗量子攻擊,大家不必驚慌:針對經濟學家郎咸平今日早間發表的“谷歌實現量子霸權卻先把比特幣拉下水”這一言論,比特幣中國楊林科在社交平臺上回復稱,影響不會太大,就像當年從顯卡挖礦過渡到asic礦機挖礦差不多,安全方面到時候公鑰私鑰算法肯定會換成抗量子攻擊,大家不必驚慌。[2019/9/28]

3、shard的數據分片機制

那么這個時候大家考慮一下,比如有一個index,專門存放論壇的帖子,現在論壇的帖子有1億,占用了1T的磁盤空間,這個還好說。如果這個帖子有10億,100億,占用了10TB、甚至100TB的磁盤空間呢?那這個index還能放到一臺機器上存儲嗎?肯定不行的。這個時候,必須得支持這個index的數據分布式存儲在多臺機器上,利用多臺機器的磁盤空間來承載這么大的數據量。

而且,需要保證每臺機器上對這個index存儲的數據量不要太大,因為控制單臺機器上這個index的數量,可以保證他的搜索性能更高。所以就引入一個新的概念:shard數據分片結構、每個index都可以指定創建多少個shard,每個shard就是一個數據分片,會負責存儲這個index的一部分數據。

比如說index里有3億帖子,占據3TB數據。然后這個index你設置了3個shard。那么每個shard就可以包含一個1TB大小的數據分片,每個shard在集群里的一臺機器上,這樣就形成了利用3臺機器來分布式存儲一個index的數據的效果了。大家看下面的圖:

現在index里的3TB數據分布式存儲在了3臺機器上,每臺機器上有一個shard,每個shard負責管理這個index的其中1TB數據的分片。而且,另外一個好處是,假設我們要對這個index的3TB數據運行一個搜索,是不是可以發送請求到3臺機器上去?3臺機器上的shard直接可以分布式的并行對一部分數據進行搜索,起到一個分布式搜索的效果,大幅度提升海量數據的搜索性能和吞吐量。

4、Replica多副本數據冗余機制

但是現在有一個問題,假如說3臺機器中的其中一臺宕機了,此時怎么辦呢?是不是這個index的3TB數據的1/3就丟失了?因為上面有1TB的數據分片沒了。所以說,還需要為了實現高可用使用Replica多副本數據冗余機制。在Elasticsearch里,就是支持對每個index設置一個replica數量的,也就是每個shard對應的replica副本的數量。比如說你現在一個index有3個shard,你設置對每個shard做1個replica副本,那么此時每個shard都會有一個replicashard。這個初始的shard就是primaryshard,而且primaryshard和replicashard是絕對不會放在一臺機器上的,避免一臺機器宕機直接一個shard的副本也同時丟失了。我們再來看下面的圖,感受一下:

在上述的replica機制下,每個primaryshard都有一個replicashard在別的機器上,任何一臺機器宕機,都可以保證數據不會丟失,分布式搜索引擎繼續可用。Elasticsearch默認支持每個index是5個primaryshard,每個primaryshard有1個replicashard為副本。

長期以來,集中式系統給我們的生活帶來了很多改變。它對我們的日常生活產生了影響,影響了我們如何閱讀新聞,我們可以搜索到多少信息,甚至可以影響我們訪問的內容。過去幾年,區塊鏈技術有了巨大的增長,給一直堅守它的人們帶來了希望。但是,壟斷使得那些持有他們的公司處于一種強勢地位。壟斷公司可以隨時改變政策,竊取用戶數據。更可怕的事情正在發生:喪失數據所有權。

IPSOU(interplanetSearch)是基于IPFS協議的分布式存儲和區塊鏈技術的新型搜索引擎,通過關注用戶隱私,分散化和搜索效率來構建新的體驗。IPSOU允許用戶通過加密技術和智能合約控制他們的個人數據.使用IPSOU可以享受無限制和不受審查的瀏覽,您可以通過該站點發出請求,您可以獲取IPFS資源并將其發送回您的計算機和移動設備。

在IPSOU上,用戶可以免費搜索IPFS網絡文件,并使用IPFS和其他底層協議訪問內容,而不需要依賴于集中的服務(和服務器),如谷歌或百度。用戶將再次擁有自己的數據,沒有廣告跟蹤,沒有針對性的廣告,也沒有隱私問題。IPSOU使用區塊鏈技術保護隱私。

集中式系統改變我們的生活,但我們對數據的所有權也在逐漸消減,分布式系統帶來的應用,會使我們在生活、工作更加隱私、安全、高效、可信。

Tags:HARDSHASHARDINDHardcoreShanghai InuAree ShardsPindex

POL幣最新價格
SET:一文搞懂可驗證延遲函數 VDF_ETU

自從以太坊將可驗證延遲函數列入研究計劃并打算在以太坊2.0使用之后,VDF得到了廣泛的關注。VDF這個概念最初由斯坦福大學密碼學教授DanBoneh等人在其論文VerifiableDelayFu.

1900/1/1 0:00:00
ADG:閃電網絡創建人推出比特幣擴容新解決方案 Utreexo_TAD

TadgeDryja是比特幣閃電網絡原始論文的共同撰寫人,最近他發布了一份研究論文,并在其中概述了過去一年時間里提出的全新比特幣擴容解決方案.

1900/1/1 0:00:00
BTC:火星一線 | BTC全球均價7826.9美元,24小時漲幅0.07%_USD

BTC在6月7日夜間突然下跌,跌破7500美元,最低跌至7450美元,隨后BTC快速收復失地上漲.

1900/1/1 0:00:00
STR:“辣味”十足的端午節,給了我們一個驚喜_TRI

BTC行情分析 今日大餅走勢圖如下。從1小時周期圖上看,大餅日內走勢呈多頭趨勢,下午經歷一次拉升過后打破前期弱震蕩整理趨勢,不得不感慨一聲,端午佳節的幣市也是充滿了溫暖.

1900/1/1 0:00:00
ETH:好技術 好生意,DeFi的財富密碼,在誰手中?_ARC

DeFi運動從2018年10月提出,至今已經發展8個月。好技術一定是代表了先進生產力的發展要求,好生意一定是代表了廣大用戶的根本利益。如果一個產品只有好技術,那么大概率會做成一個公益項目.

1900/1/1 0:00:00
TPAY:BitMax最新金融產品測評-波動率博弈競猜-龜兔賽跑_BitHAO

BitMax平臺最近推出了一款基于主流幣價格的波動率VolatilityCard的新金融衍生產品-烏龜卡和兔子卡.

1900/1/1 0:00:00
ads