本文主要來介紹NLP中的命名實體識別。命名實體識別與中文分詞、詞性標注一樣,也是NLP的一個基礎任務,是信息抽取、信息檢索、機器翻譯、問答系統等多種NLP技術不可或缺的一部分。其目的是:識別語料中的人名、地名、組織機構名等命名實體。
隨著命名實體數量的不斷增加,一般不可能在詞典中全部列出,由于命名實體的構成方法具有規律性,通常把對這些詞的識別在任務中進行獨立處理,稱之為命名實體識別。NER一般分為3大類和7小類。
1.中文命名實體識別的難點
各類命名實體的數量眾多。命名實體的構成規律復雜。比如人名的構成規則各有不同,中文人名識別又可以細分為中國人名識別、日本人名識別和音譯人名識別等;再比如機構名的組成方式,機構名的種類繁多,各有獨特的命名方式,用詞也相當廣泛,只有結尾用詞相對集中。嵌套情況復雜。一個命名實體經常和一些詞組合成一個嵌套的命名實體,人名中嵌套著地名,地名中也經常嵌套著人名。長度不確定。與其他類型的命名實體相比,長度和邊界難以確定,使得機構名更難識別。中國人名一般二到四字,常用地名一般二到四字,但是機構名長度變化范圍極大,少的只有兩個字簡稱,多的達到幾十個字的全稱。2命名實體識別方式
GMX提案將所有費用收入的1.2%分配給Chainlink:4月6日消息,GMX提議Chainlink作為其GMX V2的預言機合作伙伴,以使其協議更具彈性和去中心化。Chainlink新的低延遲預言機旨在滿足永續合約交易所和其他價格敏感的DeFi產品的需求,為GMXV2的加密貨幣和非加密貨幣市場提供細化的實時市場數據。
該提案概述了將GMX協議產生的協議費的1.2%分配給Chainlink和Chainlink網絡的服務,以提供其低延遲預言機解決方案的未來發展和GMX使用的技術支持。協議費包括用戶支付的費用,目前建議為開倉/平倉費(\"保證金交易\")、借款費、互換費,以及GMX金庫隨后從協議中保留的任何其他費用。[2023/4/6 13:47:47]
中文分詞中,主要有基于規則方法、基于統計方法和基于二者的混合方法。命名實體識別主要也包含這三種方法。
CoinList宣布推出低抵押Filecoin借貸計劃:2月9日,官方消息,CoinList宣布推出低抵押Filecoin借貸計劃,允許借款人提供低至10%的初始抵押品來獲得貸款,以通過Filecoin協議提供存儲。[2022/2/9 9:40:55]
基于規則的命名實體識別:規則加詞典是早期命名實體識別中最行之有效的方式。依賴手工規則,結合命名實體庫,對每條規則進行權重賦值,然后通過實體與規則的相符情況來進行類型判斷。基于統計的命名實體識別:與分詞類似,目前主流的基于統計的命名實體識別方法有:隱馬爾可夫模型、最大熵模型、條件隨機場等。其主要思想是:基于人工標注的語料,將命名實體識別任務作為序列標注問題來解決。基于混合的命名實體識別:NLP并不完全是一個隨機過程,單獨使用基于統計的方法使狀態搜索空間非常龐大,必須借助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法,結合規則和統計方法。序列標注方式是目前命名實體識別中的主流方法,下面重點介紹基于CRF條件隨機場的方法。
Mina Protocol上線主網,計劃通過CoinList募資1875萬美元:輕量級區塊鏈協議Mina Protocol上線主網,將允許開發者構建去中心化應用程序(Snapps)。Snapps(SNARK驅動的應用程序)部署了zk-SNARK技術,以實現用戶隱私、數據所有權和可驗證性。與Mina集成的第一個應用程序是去中心化借貸協議Teller Finance。
Mina今天還宣布將與CoinList合作出售代幣以籌集1875萬美元。共有500萬枚代幣可供出售,代幣價格為0.25美元。Mina此前已通過多輪融資籌集2940萬美元,投資者包括Coinbase Ventures、Paradigm、Three Arrows Capital、Polychain、Naval Ravikant等。
據介紹,Mina Protocol是一個使用ZK-SNARKs零知識證明來將區塊鏈封裝在一個單一的、可驗證的、輕量級的證明協議,可將區塊鏈的大小從幾百GB壓縮到只有幾條推文的大小。項目曾用名為Coda Protocol,于2020年9月改為Mina Protocol。(The Block)[2021/3/23 19:11:26]
3基于CRF的命名實體識別
去中心化資產管理協議Enzyme Finance將與Chainlink進行集成:1月29日,去中心化資產管理協議Enzyme Finance官方發文宣布,將與Chainlink進行集成。Enzyme Finance用戶可訪問更多ERC20代幣并利用Chainlink去中心預言機提供的服務。[2021/1/30 18:27:50]
條件隨機場的主要思想來源于HMM,也是一種用來標記和切分序列化數據的統計模型。不同的是,條件隨機場是在給定觀察的標記序列下,計算整個標記序列的聯合概率,而HMM是在給定當前狀態下,定義下一個狀態的分布。
條件隨機場的定義為:假設X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Ym)是聯合隨機變量,若隨機變量Y構成一個無向圖G=(V,E)表示的馬爾可夫模型,則其條件概率分布P(Y|X)稱為條件隨機場,即:
動態 | 日本法院駁回Coinlab對Mt. Gox提起的160億美元索賠 僅判賠償不足400萬美元:據今日消息,日本法院駁回Coinlab對Mt. Gox提起的160億美元索賠,僅判定賠償約400萬美元。在周二舉行的債權人會議上,MT Gox的受托人披露最新情況報告表示:“2019年8月30日,法院對CoinLab, Inc.提出的索賠評估申請做出了裁決,其中批準了384,857,605日元(按當前匯率約合360.07萬美元)索賠,并批準了延遲損害賠償。”目前還不清楚這是否意味著問題已解決,因為受托人表示,CoinLab, Inc.可以對評估提出上訴,目前也不清楚他們必須在多長時間內提出上訴。據悉,Coinlab為Mt. Gox最大債權人。[2019/10/6]
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)
其中w~v表示無向圖G=(V,E)中與結點v有邊連接的所有節點,w≠v表示結點v以外的所有節點。
例如:對句子“我來到陶家村”進行標注,正確標注后的結果為:我/O來/O到/O陶/B家/M村/E。采用線性鏈CRF來進行解決,那么是其一種標注序列,也是是其一種標注選擇,類似的可選擇的標注序列有很多,在NER任務中就是在這么多的可選標注序列中,找出最靠譜的作為句子的標注。
那么我們要解決的問題就是要判斷標注序列是否靠譜。就剛才的兩種標注方法,顯然第一種比第二種更為準確,因為第二種將“陶”和“家”都作為地名首字標成了“B”,一個地名兩個首字符,顯然不合理。假如給每個標注序列打分,分值代表標注序列的靠譜程度,越高代表越靠譜,那么可以定一個規則,若在標注中出現連續兩個“B”結構的標注序列,則給它低分。連續“B”結構打低分就對應一條特征函數。在CRF中,定義一個特征函數集合,然后使用這個特征函數集合為標注序列進行打分,據此選出最靠譜的標注序列,該序列的分值是通過特征函數集合得出的。
在CRF中有兩種特征函數,分別為:轉移函數tk(yi-1,yi,i)和狀態函數sl(yi,X,i)。tk(yi-1,yi,i)依賴于當前和前一個位置,表示從標注序列中位置i-1的標記yi-1轉移到位置i上的標記yi的概率。sl(yi,X,i)依賴當前位置,表示標記序列在位置i上為標記yi的概率。通常特征函數取值為1或0,表示符不符合該條規則約束。
4日期識別代碼示例
應用場景:
現有一個智能外呼系統,由機器人撥打電話給客戶,通知客戶新股中簽情況,客戶與機器人進行對話。對話機器人根據用戶的語音進行解析,發覺用戶的需求,比如:新股中簽的時間,新股買入的時間等。通過asr技術將用戶的語音轉換成中文文本,然后由于asr的識別準確度問題,許多日期類的數據并不是嚴格的數字,比如會出現“十一月12日”“2019年11月”“20191112”“后天下午”等形式。
現在的需求是識別出每個請求文本中可能的日期信息,并將其轉換成統一的格式進行輸出。比如:“我打算今天或明天買入新股”,那么通過日期解析后,應該輸出為“2019-11-12”和“2019-11-13”。
通過結果分析可以看到,text1text2text3text4結果還是相對較好的,對于text5這種規則覆蓋之外的場景,方法效果大大降低。
作者:KevinTao
知乎號:Kevin陶民澤
備注:轉載請注明出處。
如發現錯誤,歡迎留言指正。
圖片來源@視覺中國 文|錦鯉財經 當下的企業家風頭勁出,比如傲視群雄的王健林、馬云和馬化騰以及雷軍們,他們在商界相互殺伐,諸多戰役成為經典,但十年、二十年之后誰主沉浮卻依舊讓人難以琢磨.
1900/1/1 0:00:00這片土地從來不缺一夜暴富的故事,從拆遷釘子戶,到山西的煤老板,再到各路股神,一個比一個富。人人都愛一夜暴富的故事,因為它給予我們希望,讓我們相信有一天餡餅也可能砸在自己頭上,但這世界也有太多太多.
1900/1/1 0:00:00眾所周知,中國文化是人類歷史上唯一延續至今沒有中斷的原生文明。古巴比倫被波斯帝國滅亡、古埃及被羅馬吞并、古印度被雅利安人入侵印度河城邦消失.
1900/1/1 0:00:00美國佛羅里達州卡納維拉爾角,美國東部時間周四12點29分,由區塊鏈創業公司SpaceChain開發人員制造的加密貨幣錢包搭乘SpaceX公司的獵鷹9號火箭飛入大氣層.
1900/1/1 0:00:00原作者:WeiZhang很多人認為,比特幣不像其他區塊鏈那樣對智能合約友好。這其實是一個誤解。比特幣腳本語言被設計成很原始的樣子.
1900/1/1 0:00:0010月28日,是牛津大學賽德商學院EMBA課程2020年1月入學申請的最終截止日期。馬斯克用一張圖拜年:水墨老虎搭\"中國紅\":1月31日,虎年新春來臨之際,美國特斯拉首席執行官埃隆·馬斯克在.
1900/1/1 0:00:00