買以太坊 買以太坊
Ctrl+D 買以太坊
ads
首頁 > 火必APP > Info

MIC:一文教你如何計算變量之間的相關性_MIC價格

Author:

Time:1900/1/1 0:00:00

本文介紹了幾個重要的變量相關性的度量,包括皮爾遜相關系數、距離相關性和最大信息系數等,并用簡單的代碼和示例數據展示了這些度量的適用性對比。

從信號的角度來看,這個世界是一個嘈雜的地方。為了弄清楚所有的事情,我們必須有選擇地把注意力集中到有用的信息上。

通過數百萬年的自然選擇過程,我們人類已經變得非常擅長過濾背景信號。我們學會將特定的信號與特定的事件聯系起來。

例如,假設你正在繁忙的辦公室中打乒乓球。為了回擊對手的擊球,你需要進行大量復雜的計算和判斷,將多個相互競爭的感官信號考慮進去。為了預測球的運動,你的大腦必須重復采樣球的位置并估計它未來的軌跡。更厲害的球員還會將對手擊球時施加的旋轉考慮進去。最后,為了擊球,你需要考慮對手的位置、自己的位置、球的速度,以及你打算施加的旋轉。

所有這些都涉及到了大量的潛意識微分學。一般來說,我們理所當然的認為,我們的神經系統可以自動做到這些。

同樣令人印象深刻的是,人類大腦是如何區別對待它所接收到的無數競爭信號的重要性的。例如,球的位置被認為比你身后發生的對話或你面前打開的門更重要。

這聽起來似乎不值得一提,但實際上這證明了可以多大程度上學習從噪聲數據中做出準確預測。

當然,一個被給予連續的視聽數據流的空白狀態機將會面臨一個困難的任務,即確定哪些信號能夠最好地預測最佳行動方案。

幸運的是,有統計和計算方法可以用來識別帶噪聲和復雜的數據中的模式。

相關性

一般來說,當我們談到兩個變量之間的「相關性」時,在某種意義上,我們是指它們的「關系」。

相關變量是包含彼此信息的變量。兩個變量的相關性越強,其中一個變量告訴我們的關于另一個變量的信息就越多。

cos()的值將根據兩個箭頭向量之間的角度而發生變化。

當角度為零時,cos()等于1。

CoinShares:上周數字資產投資產品凈流出3900萬美元,為連續第6周流出:5月30日消息,據 CoinShares 報告顯示,上周數字資產投資產品凈流出 3900 萬美元,為連續第 6 周流出,連續 6 周流出總額為 2.72 億美元(占管理總資產的 0.8%)。其中上周比特幣投資產品凈流出 1100 萬美元。山寨幣上周也出現流出情況,其中 Algorand 上周出現了 65% 的資產管理規模流出(800 萬美元),以太坊流出 590 萬美元。[2023/5/30 11:48:12]

當角度為-180°時,cos()等于-1。

當角度為90°時,cos()等于0。

這可能看起來很熟悉——一個介于+1和-1之間的衡量標準似乎描述了兩個向量之間的關系?那不是Pearson’sr嗎?

那么——這正是它的解釋!通過將數據視為高維空間中的箭頭向量,我們可以用它們之間的角度作為相似度的衡量。

無盛行風向時,小船隨機漂流

如果存在盛行風向,那么小船漂流的方向將依賴于風的強度。風力越強,依賴性越顯著。

有盛行風向時,小船傾向于同向漂流

與之類似,無關變量可以被看作無盛行風向時隨機漂流的小船;相關變量可以被看作在盛行風向影響下漂流的小船。在這個比喻中,風的強弱就代表著兩個變量之間相關性的強弱。

如果我們允許盛行風向在湖面的不同位置有所不同,那么我們就可以引入非線性的概念。距離相關性利用「小船」之間的距離推斷盛行風的強度。

Coinbase調查:20%的美國成年人目前擁有加密貨幣:金色財經報道,Coinbase委托進行的一項全國調查顯示,目前約有20%的美國成年人擁有加密貨幣。此外,29%的美國成年人計劃在未來12個月內購買或交易加密貨幣。Coinbase表示,絕大多數美國人希望看到金融系統更新,他們相信加密貨幣可以成為解決方案的強大組成部分。[2023/3/1 12:36:14]

置信區間?

我們可以采取「重采樣」方法為距離相關性估計建立置信區間。一個簡單的例子是bootstrap重采樣。

這是一個巧妙的統計技巧,需要我們從原始數據集中隨機抽樣以「重建」數據。這個過程將重復多次,每次都計算感興趣的統計量。

這將為我們感興趣的統計量產生一系列不同的估計值。我們可以通過它們估計在給定置信水平下的上限和下限。

請看下面的R語言代碼,它實現了簡單的bootstrap函數:

bootstrap<-function(x,y,reps,alpha){estimates<-c()original<-data.frame(x,y)N<-dim(original)for(iin1:reps){S<-originalestimates<-append(estimates,distanceCorrelation(S$x,S$y)。u<-alpha/2;l<-1-uinterval<-quantile(estimates,c(l,u))return(2*(dcor(x,y))-as.numeric(interval)。Billions項目組-->0.237to0.546

如果你想建立統計顯著性,還有另一個重采樣技巧,名為「排列檢驗」。

排列檢驗與上述bootstrap方法略有不同。在排列檢驗中,我們保持一個向量不變,并通過重采樣對另一個變量進行「洗牌」。這接近于零假設——即,在變量之間不存在依賴關系。

這個經「洗牌」打亂的變量將被用于計算它和常變量間的距離相關性。這個過程將被執行多次,然后,結果的分布將與實際距離相關性相比較。

Coinbase CEO訪問華盛頓特區以推動監管清晰度:金色財經報道,Coinbase CEO Brian Armstrong發布推文表示,在本月監管機構對Kraken和Paxos采取執法行動后,該行業的不確定性不斷增加,他今天在華盛頓特區拜訪以推動制定更明確的規則。他說:“‘我在華盛頓,有一個會議被取消了,接下來一個小時左右,我們將在Dirksen參議院辦公大樓的餐吧,歡迎來談談加密貨幣以及我們今年如何獲得加密貨幣立法和監管清晰度。這個地方是‘碳水中心’,需要更多‘低糖’選擇。”[2023/2/14 12:04:59]

然后,大于或等于「實際」結果的經「洗牌」的結果的比例將被定為P值,并與給定的顯著性閾值進行比較。

以下是上述過程的代碼實現:

permutationTest<-function(x,y,reps){observed<-distanceCorrelation(x,y)y_i<-sample(y,length(y),replace=T)estimates<-append(estimates,distanceCorrelation(x,y_i)。p_value<-mean(estimates>=observed)return(p_value。Billions項目組-->0.036

最大信息系數

最大信息系數于2011年提出,它是用于檢測變量之間非線性相關性的最新方法。用于進行MIC計算的算法將信息論和概率的概念應用于連續型數據。

深入細節

由克勞德·香農于20世紀中葉開創的信息論是數學中一個引人注目的領域。

信息論中的一個關鍵概念是熵——這是一個衡量給定概率分布的不確定性的度量。概率分布描述了與特定事件相關的一系列給定結果的概率。

概率分布的熵是「每個可能結果的概率乘以其對數后的和」的負值

為了理解其工作原理,讓我們比較下面兩個概率分布:

X軸標明了可能的結果;Y軸標明了它們各自的概率

以太坊開發人員計劃2月7日在Zhejiang測試網上激活Shanghai升級:金色財經報道,以太坊核心開發者在2月2日的電話會議#154的會議記錄表示,以太坊公共提款測試網Zhejiang已于2月1日上線,任何人都可以從水龍頭請求測試網ETH并在網絡上啟動他們的驗證器,Zhejiang測試網目前有61000名活躍驗證者支持,其中大部分由以太坊基金會運營。

由于CL軟件客戶端可能存在配置問題,測試網正在努力處理新的質押ETH存款。假設此問題在未來幾天內得到解決,開發人員計劃于2月7日在Zhejiang測試網上激活Shanghai升級。

若上海升級在Zhejiang測試網順利進行,開發人員將在2月9日的ACDC電話會議期間決定激活日期,以在Sepolia測試網上發布升級。開發人員計劃在2月底或3月初在以太坊Goerli測試網上發布上海升級,過渡成功后,將轉向主網。[2023/2/3 11:45:11]

左側是一個常規六面骰子結果的概率分布;而右邊的六面骰子不那么均勻。

從直覺上來說,你認為哪個的熵更高呢?哪個骰子結果的不確定性更大?讓我們來計算它們的熵,看看答案是什么。

entropy<-function(x){pr<-prop.table(table(x))H<-sum(pr*log(pr,2))return(-H。dice1<-1:6dice2<-c(1,1,1,1,2:6)entropy(dice1)Billions項目組-->2.281

不出所料,常規骰子的熵更高。這是因為每種結果的可能性都一樣,所以我們不會提前知道結果偏向哪個。但是,非常規的骰子有所不同——某些結果的發生概率遠大于其它結果——所以它的結果的不確定性也低一些。

這么一來,我們就能明白,當每種結果的發生概率相同時,它的熵最高。而這種概率分布也就是傳說中的「均勻」分布。

交叉熵是熵的一個拓展概念,它引入了第二個變量的概率分布。

crossEntropy<-function(x,y){prX<-prop.table(table(x))prY<-prop.table(table(y))H<-sum(prX*log(prY,2)。

廣州市商務局指導餓了么和廣州酒家合作限量發行1萬份“廣府美食”數字藏品:金色財經報道,據廣州市商務局官方公眾號,在廣州市商務局指導下,廣州酒家與餓了么開展系列美食數字藏品合作,限量發行10000份廣府美食數字藏品免費贈領,該數字藏品是基于螞蟻鏈技術,對地方特色美食相關藝術形象生成唯一數字憑證。[2022/10/12 10:32:24]

兩個相同概率分布之間的交叉熵等于其各自單獨的熵。但是對于兩個不同的概率分布,它們的交叉熵可能跟各自單獨的熵有所不同。

這種差異,或者叫「散度」可以通過KL散度量化得出。

兩概率分布X與Y的KL散度如下:

概率分布X與Y的KL散度等于它們的交叉熵減去X的熵

KL散度的最小值為0,僅當兩個分布相同。

KL_divergence<-function(x,y){kl<-crossEntropy(x,y)-entropy(x)return(kl。

為了發現變量具有相關性,KL散度的用途之一是計算兩個變量的互信息。

互信息可以定義為「兩個隨機變量的聯合分布和邊緣分布之間的KL散度」。如果二者相同,MI值取0。如若不同,MI值就為一個正數。二者之間的差異越大,MI值就越大。

為了加深理解,我們首先簡單回顧一些概率論的知識。

變量X和Y的聯合概率就是二者同時發生的概率。例如,如果你拋擲兩枚硬幣X和Y,它們的聯合分布將反映拋擲結果的概率。假設你拋擲硬幣100次,得到「正面、正面」的結果40次。聯合分布將反映如下:

P(X=H,Y=H)=40/100=0.4

jointDist<-function(x,y){u<-unique(append(x,y))joint<-c()for(iinu){for(jinu){f<-xjoint<-append(joint,length(f)/N。return(joint。

邊緣分布是指不考慮其它變量而只關注某一特定變量的概率分布。假設兩變量獨立,二者邊緣概率的乘積即為二者同時發生的概率。仍以拋硬幣為例,假如拋擲結果是50次正面和50次反面,它們的邊緣分布如下:

P(X=H)=50/100=0.5;P(Y=H)=50/100=0.5

P(X=H)×P(Y=H)=0.5×0.5=0.25

marginalProduct<-function(x,y){marginal<-c()fX<-length(x)/NfY<-length(y)/Nmarginal<-append(marginal,fX*fY。return(marginal。

現在讓我們回到拋硬幣的例子。如果兩枚硬幣相互獨立,邊緣分布的乘積表示每個結果可能發生的概率,而聯合分布則為實際得到的結果的概率。

如果兩硬幣完全獨立,它們的聯合概率在數值上等于邊緣分布的乘積。若只是部分獨立,此處就存在散度。

這個例子中,P(X=H,Y=H)>P(X=H)×P(Y=H)。這表明兩硬幣全為正面的概率要大于它們的邊緣分布之積。

聯合分布和邊緣分布乘積之間的散度越大,兩個變量之間相關的可能性就越大。兩個變量的互信息定義了散度的度量方式。

X和Y的互信息等于「二者邊緣分布積和的聯合分布的KL散度」

mutualInfo<-function(x,y){joint<-jointDist(x,y)marginal<-marginalProduct(x,y)Hjm<--sum(joint*log(marginal,2))Hj<--sum(joint*log(joint,2))return(Hjm-Hj。

此處的一個重要假設就是概率分布是離散的。那么我們如何把這些概念應用到連續的概率分布呢?

分箱算法

其中一種方法是量化數據。這是通過分箱算法實現的,它能將連續的數據點分配對應的離散類別。

此方法的關鍵問題是到底要使用多少「箱子」。幸運的是,首次提出MIC的論文給出了建議:窮舉!

也就是說,去嘗試不同的「箱子」個數并觀測哪個會在變量間取到最大的互信息值。不過,這提出了兩個挑戰:

要試多少個箱子呢?理論上你可以將變量量化到任意間距值,可以使箱子尺寸越來越小。

互信息對所用的箱子數很敏感。你如何公平比較不同箱子數目之間的MI值?

第一個挑戰從理論上講是不能做到的。但是,論文作者提供了一個啟發式解法。他們也給出了可試箱子個數的上限。

最大可用箱子個數由樣本數N決定

至于如何公平比較取不同箱子數對MI值的影響,有一個簡單的做法……就是歸一化!這可以通過將每個MI值除以在特定箱子數組合上取得的理論最大值來完成。我們要采用的是產生最大歸一化MI總值的箱子數組合。

互信息可以通過除以最小的箱子數的對數來歸一化

最大的歸一化互信息就是X和Y的最大信息系數。我們來看看一些估算兩個連續變量的MIC的代碼。

MIC<-function(x,y){maxBins<-ceiling(N**0.6)MI<-c()for(iin2:maxBins){for(jin2:maxBins){if(i*j>maxBins){nextXbins<-i;Ybins<-jbinnedX<-cut(x,breaks=Xbins,labels=1:Xbins)binnedY<-cut(y,breaks=Ybins,labels=1:Ybins)MI_estimate<-mutualInfo(binnedX,binnedY)MI_normalized<-MI_estimate/log(min(Xbins,Ybins),2)MI<-append(MI,MI_normalized。return(max(MI)。x<-runif(100,-10,10)y<-x**2+rnorm(100,0,10)MIC(x,y)Billions項目組-->0.594to0.88

總結

為了總結相關性這一主題,我們來測試下各算法在人工生成數據上的處理能力。

完整代碼:https://gist.github.com/anonymous/fabecccf33f9c3feb568384f626a2c07

噪聲函數

set.seed(123)Billions項目組Simplelinearrelationshipx1<--20:20y1<-x1+rnorm(41,0,4)plot(y1~x1,pch=18)cor(x1,y1)distanceCorrelation(x1,y1)MIC(x1,y1)

Pearson'sr=+0.95

距離相關性=0.95

MIC=0.89

簡單二次函數

Billions項目組Cosinex3<--20:20y3<-cos(x3/4)+rnorm(41,0,0.2)plot(y3~x3,type='p',pch=18)cor(x3,y3)distanceCorrelation(x3,y3)MIC(x3,y3)

Pearson'sr=-0.035

距離相關性=0.382

MIC=0.484

圓函數

#Circlen<-50theta<-runif(n,0,2*pi)x4<-append(cos(theta),cos(theta))y4<-append(sin(theta),-sin(theta))plot(x4,y4,pch=18)cor(x4,y4)distanceCorrelation(x4,y4)MIC(x4,y4)

Pearson'sr<0.001

距離相關性=0.234

MIC=0.218

原文鏈接:https://medium.freecodecamp.org/how-machines-make-predictions-finding-correlations-in-complex-data-dfd9f0d87889

本文為機器之心編譯,轉載請聯系本公眾號獲得授權。

Tags:MICMIC幣MIC價格

火必APP
LON:中央追逃辦公布50名涉嫌職務犯罪和經濟犯罪的外逃人員線索_ONG價格LON幣

黨的十八大以來,以習近平同志為核心的黨中央就反腐敗國際追逃追贓工作作出重大決策部署,開辟了全面從嚴治黨和反腐敗斗爭的新戰場.

1900/1/1 0:00:00
聯盟鏈:“鏈動全球”區塊鏈全球行峰會香港站圓桌討論:機構投資虛擬貨幣的時代來了嗎?_聯盟鏈幣是什么幣

由三言財經和Bianews主辦、Aurora極光鏈冠名贊助的“鏈動全球·2018區塊鏈全球行峰會”第一站7月14日在香港舉行,本次大會的主題為“探索.鏈接全球區塊鏈”.

1900/1/1 0:00:00
GDP:廣東最上得了臺面的城市,遠超沙特,不輸西班牙_GDP價格

廣東作為沿海最大、發展最快的省份,經濟發展在全國來看一直是首屈一指的,無論是江蘇,還是浙江、山東,比起廣東來說,都要稍遜一籌.

1900/1/1 0:00:00
EFI:現實版的“海盜分金”_STARK

青燈昨天發的文章,閱讀者甚眾,遠超平時,這是一個可喜的現象。這說明,每個人的內心對于光明、公平、正義以及對自身利益的追求并沒有隨著口中的“絕望、放棄、黑暗”等心灰意冷而放棄.

1900/1/1 0:00:00
區塊鏈:評蔡文勝區塊鏈10問,數字貨幣不等于區塊鏈,套路韭菜不要太明顯_比特幣

今天上午,一則蔡文勝、薛蠻子、帥初等人對區塊鏈進行討論的微信聊天記錄開始在網絡傳播。在聊天對話中,蔡文勝、帥初、慕巖、陳偉星、沈波、易理華、點付大頭、FBG周碩基等人就區塊鏈領域的多個問題發表了.

1900/1/1 0:00:00
BTC:誰是預言家?2018年6月14日全球虛擬數字幣TOP100行情快報_btc短線交易騙局

建了一個群,目的很簡單,一個人炒幣是非常寂寞而無聊的。幣圈信息瞬息萬變,一個人也沒有時間和精力去閱讀所有新聞,了解成百上千種數字幣。所以希望大家在群里相互交流,擦出靈感的火花.

1900/1/1 0:00:00
ads