海南环岛赛游戏玩法
張飛軟硬開源基于STM32 BLDC直流無刷電機驅動器開發視頻套件,??戳此立搶??

自然語言基礎技術之命名實體識別相對全面的介紹

人工智能頭條 ? 2019-04-17 10:12 ? 次閱讀

本文對自然語言基礎技術之命名實體識別進行了相對全面的介紹,包括定義、發展歷史、常見方法、以及相關數據集,最后推薦一大波 Python 實戰利器,并且包括工具的用法。

01

定義

先來看看維基百科上的定義:Named-entity recognition (NER) (also known as entity identification, entity chunking and entity extraction) is a subtask of information extraction that seeks to locate and classify named entity mentions in unstructured text into pre-defined categories such as the person names, organizations, locations, medical codes, time expressions, quantities, monetary values, percentages, etc.

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。簡單的講,就是識別自然文本中的實體指稱的邊界和類別。

02

發展歷史

命名實體識別這個術語首次出現在 MUC-6(Message Understanding Conferences),這個會議關注的主要問題是信息抽取(Information Extraction),第六屆 MUC 除了信息抽取評測任務還開設了新評測任務即命名實體識別任務。

除此之外,其他相關的評測會議包括CoNLL(Conference on Computational Natural Language Learning)、ACE(Automatic Content Extraction)和IEER(Information Extraction-Entity Recognition Evaluation)等。

在MUC-6之前,大家主要是關注人名、地名和組織機構名這三類專業名詞的識別。自MUC-6起,后面有很多研究對類別進行了更細致的劃分,比如地名被進一步細化為城市、州和國家,也有人將人名進一步細分為政治家、藝人等小類。

此外,一些評測還擴大了專業名詞的范圍,比如CoNLL某年組織的評測中包含了產品名的識別。一些研究也涉及電影名、書名、項目名、研究領域名稱、電子郵件地址、電話號碼以及生物信息學領域的專有名詞(如蛋白質、DNA、RNA等)。甚至有一些工作不限定“實體”的類型,而是將其當做開放域的命名實體識別和分類。

03

常見方法

早期的命名實體識別方法基本都是基于規則的。之后由于基于大規模的語料庫的統計方法在自然語言處理各個方面取得不錯的效果之后,一大批機器學習的方法也出現在命名實體類識別任務。宗成慶老師在統計自然語言處理一書粗略的將這些基于機器學習的命名實體識別方法劃分為以下幾類:

有監督的學習方法:這一類方法需要利用大規模的已標注語料對模型進行參數訓練。目前常用的模型或方法包括隱馬爾可夫模型、語言模型、最大熵模型、支持向量機、決策樹和條件隨機場等。值得一提的是,基于條件隨機場的方法是命名實體識別中最成功的方法。

半監督的學習方法:這一類方法利用標注的小數據集(種子數據)自舉學習。

無監督的學習方法:這一類方法利用詞匯資源(如 WordNet)等進行上下文聚類。

混合方法:幾種模型相結合或利用統計方法和人工總結的知識庫。

值得一提的是,由于深度學習在自然語言的廣泛應用,基于深度學習的命名實體識別方法也展現出不錯的效果,此類方法基本還是把命名實體識別當做序列標注任務來做,比較經典的方法是 LSTM+CRF、BiLSTM+CRF。

04

相關數據集

1. CCKS2017 開放的中文的電子病例測評相關的數據。

評測任務一:

https://biendata.com/competition/CCKS2017_1/

評測任務二:

https://biendata.com/competition/CCKS2017_2/

2. CCKS2018 開放的音樂領域的實體識別任務。

評測任務:

https://biendata.com/competition/CCKS2018_2/

3. (CoNLL 2002)Annotated Corpus for Named Entity Recognition。

地址:

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

4. NLPCC2018 開放的任務型對話系統中的口語理解評測。

地址:

http://tcci.ccf.org.cn/conference/2018/taskdata.php

5. 一家公司提供的數據集,包含人名、地名、機構名、專有名詞。

下載地址:

https://bosonnlp.com/dev/resource

05

工具推薦

1. Stanford NER

斯坦福大學開發的基于條件隨機場的命名實體識別系統,該系統參數是基于 CoNLL、MUC-6、MUC-7 和 ACE 命名實體語料訓練出來的。

地址:

https://nlp.stanford.edu/software/CRF-NER.shtml

Python 實現的 Github 地址:

https://github.com/Lynten/stanford-corenlp

2 .MALLET

麻省大學開發的一個統計自然語言處理的開源包,其序列標注工具的應用中能夠實現命名實體識別。

官方地址:

http://mallet.cs.umass.edu/

3. Hanlp

HanLP 是一系列模型與算法組成的 NLP 工具包,由大快搜索主導并完全開源,目標是普及自然語言處理在生產環境中的應用。支持命名實體識別。

Github 地址:

https://github.com/hankcs/pyhanlp

官網:

http://hanlp.linrunsoft.com/

4. NLTK

NLTK 是一個高效的 Python 構建的平臺,用來處理人類自然語言數據。

Github 地址:

https://github.com/nltk/nltk

官網:

http://www.nltk.org/

5. SpaCy

工業級的自然語言處理工具,遺憾的是不支持中文。

Gihub 地址:

https://github.com/explosion/spaCy

官網:https://spacy.io/

6. Crfsuite

可以載入自己的數據集去訓練 CRF 實體識別模型。

文檔地址:

https://sklearn-crfsuite.readthedocs.io/en/latest/?badge=latest

代碼已上傳:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/NER.ipynb

原文標題:一文讀懂命名實體識別

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
分享:

評論

相關推薦

第一屆中國AI與機器學習研討會

活動內容  人工智能技術將在未來對傳統產業產生重大顛覆性影響,人工智能將在各行各業為創新設計帶來新的動力,它也將催生新的
發表于 03-29 00:00 ? 62次 閱讀
第一屆中國AI與機器學習研討會

物聯網技術是如何支持預測性維護來實現提高產品質量的

如今,有大量不同的狀態監控技術可用于實時跟蹤資產健康狀況。這意味著您可以非常清楚地看到機器何時處于峰....
發表于 08-21 15:14 ? 3次 閱讀
物聯網技術是如何支持預測性維護來實現提高產品質量的

AI創業公司“H20.ai”獲7250萬美元投資,高盛與平安領投

H2O.ai 是一個開源機器學習平臺,主要服務于數據科學家和開發者,為其應用提供快速機器學習引擎。人....
的頭像 行業投資 發表于 08-21 11:35 ? 207次 閱讀
AI創業公司“H20.ai”獲7250萬美元投資,高盛與平安領投

該如何看到目前機器人的各種表現

人類是一個非常聰明的物種,雖然我們的個體力量并不強大,但是我們懂得學會創造科技,利用科技的力量來延伸....
發表于 08-21 09:59 ? 14次 閱讀
該如何看到目前機器人的各種表現

構建高質量數據集,推動人工智能快速發展

當前人工智能還面臨諸多挑戰,例如數據孤島問題、隱私保護問題、安全問題等瓶頸。一項2018年的研究顯示....
的頭像 倩倩 發表于 08-20 15:04 ? 235次 閱讀
構建高質量數據集,推動人工智能快速發展

由Qeexo嵌入式機器提供的AI亮相于邊緣設備

Qeexo嵌入式機器學習,不依靠云端中運行實時機器學習推理的嵌入式邊緣設備,是一個輕量級的通用平臺。
發表于 08-20 11:24 ? 29次 閱讀
由Qeexo嵌入式機器提供的AI亮相于邊緣設備

2019 DeeCamp人工智能訓練營在北京中國科學院大學舉辦全國成果展

在過去的4周時間里,來自五湖四海的DeeCamp學員們完成了由22家企業發起的50個AI相關課題,接....
的頭像 倩倩 發表于 08-19 15:51 ? 129次 閱讀
2019 DeeCamp人工智能訓練營在北京中國科學院大學舉辦全國成果展

AI對于生活的一些運用,如何讓AI服務于人類等「基礎項目」

毫無疑問,人工智能已經成為了當下甚至未來的一大熱門領域。不管你是對這個領域感興趣想要大展身手還是想要....
的頭像 倩倩 發表于 08-19 15:40 ? 100次 閱讀
AI對于生活的一些運用,如何讓AI服務于人類等「基礎項目」

AI時代的醫療會有哪些不可思議之處

盡管現代科技還沒那么先進,但是機器學習和人工智能已經出現在診斷醫學中了。就短期而言,這些技術可用于減....
發表于 08-19 15:16 ? 71次 閱讀
AI時代的醫療會有哪些不可思議之處

AI加速落地!用戶隱私與數據安全問題箭在弦上

IJCAI是人工智能領域最頂級的國際學術會議之一,今年又恰逢 IJCAI的 50周年。作為學界和業界....
的頭像 倩倩 發表于 08-19 15:06 ? 360次 閱讀
AI加速落地!用戶隱私與數據安全問題箭在弦上

SSD將引入機器學習引擎 直接處理內部數據而無需進行傳輸交換

Marvell(美滿電子)還真能玩,不但聯合東芝為SSD帶來了以太網訪問能力,還讓SSD變聰明了,要....
的頭像 39度創意研究所 發表于 08-19 10:22 ? 299次 閱讀
SSD將引入機器學習引擎 直接處理內部數據而無需進行傳輸交換

機器學習的圖像壓縮應用

DIY圖像壓縮——機器學習實戰之K-means 聚類圖像壓縮:色彩量化...
發表于 08-19 07:07 ? 33次 閱讀
機器學習的圖像壓縮應用

Xilinx ACAP架構介紹

隨著機器學習算法的研究,其變得越來越復雜和多樣性。計算密集性對計算資源和存儲以及帶寬提出了更高的要求....
發表于 08-18 11:16 ? 39次 閱讀
Xilinx ACAP架構介紹

工業物聯網成功的商業模式分析

幸運的是,工業物聯網不再是一個技術問題,制造商也不必在內部開發任何東西。今天,交付運行良好的連網系統....
發表于 08-16 17:34 ? 184次 閱讀
工業物聯網成功的商業模式分析

人工智能和機器學習的QA測試有何不同

智能手機、智能音箱、智能汽車、智能咖啡機,物品被賦予智能的例子不勝枚舉,似乎周圍的一切都獲得了生命和....
發表于 08-16 15:50 ? 31次 閱讀
人工智能和機器學習的QA測試有何不同

機器學習經驗總結

面試經驗(機器學習)
發表于 08-16 14:20 ? 52次 閱讀
機器學習經驗總結

三大驅動因素推動發展,全球AI市場規模持續增長

目前全球人工智能市場仍呈現加速增長態勢,主力廠商著重搶先布局人工智能產業生態鏈。
的頭像 機器人大講堂 發表于 08-15 16:58 ? 142次 閱讀
三大驅動因素推動發展,全球AI市場規模持續增長

構建機器學習產品必需的數學背景

必讀  我們該如何學習機器學習中的數學...
發表于 08-15 11:44 ? 39次 閱讀
構建機器學習產品必需的數學背景

如何提前預防機器學習模型受到攻擊產生嚴重的后果?

機器學習是人工智能的核心,也是使計算機具有智能的根本途徑。
的頭像 人工智能學家 發表于 08-15 10:53 ? 139次 閱讀
如何提前預防機器學習模型受到攻擊產生嚴重的后果?

關于人工智能未來的發展趨勢

與其他技術和軟件工具不同,人工智能主要依賴專業的處理器。為了適應人工智能的復雜需求,芯片制造商將研發....
發表于 08-15 10:11 ? 100次 閱讀
關于人工智能未來的發展趨勢

第三代AI要處理“可解釋性”問題

語言是人類智能的重要標志,在人類文明中的地位與作用毋庸置疑,自然語言處理,通俗地解釋就是“讓計算機學....
的頭像 人工智能學家 發表于 08-15 09:41 ? 246次 閱讀
第三代AI要處理“可解釋性”問題

神奇的GAN,基于生成的探索

科學家認為機器學習和人工智能所運用的前沿技術,是一種研究科學的全新方法。
的頭像 人工智能學家 發表于 08-15 09:36 ? 182次 閱讀
神奇的GAN,基于生成的探索

可借助日常物品來打造新工具的機器人

得益于技術和相關算法的進展,機器人正變得越來越聰明。佐治亞理工學院的一支研究團隊,剛剛開發出了一款能....
發表于 08-15 09:31 ? 30次 閱讀
可借助日常物品來打造新工具的機器人

AI賭神贏的背后,只是8天的訓練

Facebook與CMU學Noam Brown、Tuomas Sandholm的最新研究成果——Pl....
的頭像 人工智能學家 發表于 08-15 09:06 ? 143次 閱讀
AI賭神贏的背后,只是8天的訓練

機器學習算法幫助我們做出更好的決定

機器學習算法,可以幫助我們做出更好的決策,通過將人類的偏見最小化,使用更完整的數據集,或者彌補我們決....
的頭像 視聽前線音響短評 發表于 08-14 16:47 ? 161次 閱讀
機器學習算法幫助我們做出更好的決定

機器學習給了我們現實世界中的超能力

我們的人類感知系統是驚人的。
的頭像 Midifan 發表于 08-14 16:45 ? 200次 閱讀
機器學習給了我們現實世界中的超能力

機器學習將幫助我們更好地理解彼此

你可能認為人類最有能力理解彼此。畢竟,談話的另一方是另一個人類。
的頭像 Midifan 發表于 08-14 16:39 ? 191次 閱讀
機器學習將幫助我們更好地理解彼此

自動化程序使我們更有創造力

讓我分享幾個例子。
的頭像 人工智能學家 發表于 08-14 16:32 ? 171次 閱讀
自動化程序使我們更有創造力

人工智能技術怎樣應用在通信安全領域

在實際的網絡運行和維護中,根據發現的故障特征自動匹配診斷規則,從而智能化的發現故障點,并且得到處理建....
發表于 08-13 16:09 ? 74次 閱讀
人工智能技術怎樣應用在通信安全領域

IMU:通過板載機器學習讓主機休眠

有限狀態機和機器學習核心也可與主機處理器結合使用,實現更為復雜的位置跟蹤算法。STMicroelec....
的頭像 丫丫119 發表于 08-13 10:56 ? 463次 閱讀
IMU:通過板載機器學習讓主機休眠

人工智能和機器學習怎么應用于醫學?

經美國食品藥品監督管理局(FDA)批準后,第一批可穿戴式數字健康監測儀目前剛剛上市,并集成在諸如智能手表之類的消費產品中。...
發表于 08-13 07:22 ? 30次 閱讀
人工智能和機器學習怎么應用于醫學?

關于自動機器學習的概述(AutoML)

機器學習是讓算法自動的從數據中找出一組規則,從而提取數據中對分類/聚類/決策有幫助的特征,隨著機器學....
發表于 08-12 15:51 ? 68次 閱讀
關于自動機器學習的概述(AutoML)

機器學習是人工智能大眾化的必經之路

近年來,隨著人類在計算能力上取得的巨大進步,以及新計算機算法的發現和標記數據的增加,人類對神經網絡(....
發表于 08-12 15:49 ? 41次 閱讀
機器學習是人工智能大眾化的必經之路

人工智能將如何改變農業行業

隨著我們進入機器學習的新技術時代,人工智能和農業正變得密不可分。它帶來了令人興奮的無限可能性:從種子....
發表于 08-12 09:54 ? 48次 閱讀
人工智能將如何改變農業行業

機器學習怎樣為患者護理

夠為癌癥患者創建個人風險評分,可以使醫生更好地預測患者的病程和對治療的反應。
發表于 08-12 09:13 ? 49次 閱讀
機器學習怎樣為患者護理

智力債務是怎么一回事

隨著人工智能新技術,特別是機器學習的出現,我們的“智力信用額度”被提高了。
發表于 08-11 10:53 ? 57次 閱讀
智力債務是怎么一回事

機器學習的可學習性如何判定?

在業界,近些年來機器學習在人機對弈、語音識別、圖像識別等場景下取得了蓬勃發展,引發了人們對人工智能改....
的頭像 中國人工智能學會 發表于 08-09 18:24 ? 243次 閱讀
機器學習的可學習性如何判定?

人工智能領域容易進入嗎

人工智能領域是一個典型的交叉學科,不僅計算機專業的畢業生可以向人工智能領域發展,數學、物理、自動化、....
發表于 08-09 16:13 ? 56次 閱讀
人工智能領域容易進入嗎

微軟前副總裁解讀機器學習和人工智能5大關鍵

在機器學習和人工智能的世界中,信任和透明絕對是至關重要的。過去的一年間,有好幾個高調的機器學習和人工....
的頭像 云知聲 發表于 08-09 16:13 ? 236次 閱讀
微軟前副總裁解讀機器學習和人工智能5大關鍵

人工智能、機器學習和深度學習三者的關系

科技發展造福社會,隨著大數據時代的到來,人工智能(AI)、機器學習、深度學習等概念相繼出現在我們的生....
發表于 08-09 15:34 ? 97次 閱讀
人工智能、機器學習和深度學習三者的關系

回顧圍棋人機大戰細節:AI的迅猛發展

在談及 AI 時代是否真正來臨時,梁博士和劉女士都保持謹慎樂觀的態度。梁博士認為,深度學習和大數據的....
的頭像 云知聲 發表于 08-09 11:54 ? 168次 閱讀
回顧圍棋人機大戰細節:AI的迅猛發展

工業控制的自動化將會全面取代人類嗎

隨著機器學習和機器人等自動化技術在日常生活中發揮越來越重要的作用,它們對工作場所的潛在影響不出所料地....
發表于 08-09 11:25 ? 71次 閱讀
工業控制的自動化將會全面取代人類嗎

能源監測怎樣利用人工智能變得高效和低成本

EIOT大數據實驗室推出的非侵入式的負荷監測軟硬件服務,主要是通過低成本、多種形式、插件式、數據可視....
發表于 08-09 08:49 ? 61次 閱讀
能源監測怎樣利用人工智能變得高效和低成本

模擬芯片可為機器學習大幅度的提速

人工智能或許能解決一些科學和行業最棘手的挑戰,但要實現人工智能,需要新一代的計算機系統。
發表于 08-08 17:47 ? 50次 閱讀
模擬芯片可為機器學習大幅度的提速

人工智能與大數據帶來了無限的想象空間

從經濟學到機器學習,不變的是對數據奧秘的發現力。本質上,現在的經濟學就是用數據、模型認識世界、解釋世....
發表于 08-08 16:05 ? 68次 閱讀
人工智能與大數據帶來了無限的想象空間

AI、機器學習顛覆未來音樂技術

近些年來音樂技術的發展趨向于漸進式的變化,對現有的聲音合成方法進行不斷的迭代改進,比如測序器和音效插....
的頭像 Imagination Tech 發表于 08-08 11:13 ? 257次 閱讀
AI、機器學習顛覆未來音樂技術

華為成功收購了俄羅斯的人臉識別系統開發公司VOCORD

據俄羅斯《新聞報》引述接近交易消息人士的話報道稱,中國華為公司近期收購了俄羅斯的人臉識別系統開發公司....
的頭像 芯智訊 發表于 08-08 10:58 ? 443次 閱讀
華為成功收購了俄羅斯的人臉識別系統開發公司VOCORD

機器學習的十大經典算法,附有詳細原理說明,有助于機器學習的學習和運用

發表于 08-08 02:00 ? 110次 閱讀
機器學習的十大經典算法,附有詳細原理說明,有助于機器學習的學習和運用

關于人工智能的機器學習一些知識

機器學習是人工智能的一個子集,它為機器提供了自動學習和改進的能力,無需任何明確的編程。而深度學習,機....
發表于 08-07 15:52 ? 54次 閱讀
關于人工智能的機器學習一些知識

人工智能欠下的智力債誰來償還

隨著人工智能新技術,特別是機器學習的出現,我們的“智力信用額度”被提高了。機器學習系統在數據海洋中識....
發表于 08-07 15:46 ? 47次 閱讀
人工智能欠下的智力債誰來償還

人工智能將在未來生活中成為普遍現象

機器學習入門教育該教什么內容呢?埃塞姆·阿培丁認為,基礎的運算知識、高性能的運算、數據的在社會倫理及....
發表于 08-07 09:56 ? 45次 閱讀
人工智能將在未來生活中成為普遍現象

機器學習全靠調參?谷歌大腦新研究:神經網絡構建超強網絡

只靠神經網絡架構搜索出的網絡,不訓練,不調參,就能直接執行任務。
的頭像 嵌入式資訊精選 發表于 08-06 14:18 ? 430次 閱讀
機器學習全靠調參?谷歌大腦新研究:神經網絡構建超強網絡

俞凱關于自然語言處理中的認知計算的主題演講

首先從對話狀態更新的角度上把它變大,原來狀態更新的辦法絕大部分是用規則,最近幾年用統計的方法,而我們....
的頭像 思必馳 發表于 08-06 09:33 ? 213次 閱讀
俞凱關于自然語言處理中的認知計算的主題演講

怎么確定材料的制作成分?

許多國家要求明確標識紡織品的纖維成分。有時這些標簽會產生誤導。例如,在下圖中,我們看到一組標有100%棉的洗碗巾,但是經Sag...
發表于 08-06 08:36 ? 45次 閱讀
怎么確定材料的制作成分?

情感分析概述 人工智能技術落地

與其他的人工智能技術相比,情感分析(Sentiment Analysis)顯得有些特殊,因為其他的領....
發表于 08-05 15:59 ? 38次 閱讀
情感分析概述 人工智能技術落地

e絡盟宣布贊助 Startupbootcamp 物聯網計劃

Premier Farnell全球營銷總監兼Startupbootcamp項目團隊導師Steve C....
的頭像 易絡盟電子 發表于 08-05 14:11 ? 324次 閱讀
e絡盟宣布贊助 Startupbootcamp 物聯網計劃

顏水成握手依圖,專注商業場景落地

計算機視覺和機器學習領域的國際知名專家顏水成宣布正式加入依圖,擔任依圖科技首席技術官(CTO)一職。
的頭像 大數據文摘 發表于 08-03 11:35 ? 701次 閱讀
顏水成握手依圖,專注商業場景落地

Web開發工程師怎么轉型

       作為一名Web開發人員,我發現計算機視覺和機器學習領域的快速發展是讓人感到興奮,但是我沒有任何使...
發表于 08-02 06:03 ? 42次 閱讀
Web開發工程師怎么轉型

【技術雜談】用Python來預測雙色球,都想到未來的美好生活了呢~

炎炎夏日,懶的做飯,跑樓下買點烤鴨和涼面吃吃,路過一個賣彩票的店,突然靈感爆棚,想著是不是可以利用Python來預測一下的彩票...
發表于 07-29 11:07 ? 247次 閱讀
【技術雜談】用Python來預測雙色球,都想到未來的美好生活了呢~

推薦幾本機器學習和深度學習必讀書籍+機器學習實戰視頻PPT+大數據分析書籍

小白 機器學習和深度學習必讀書籍+機器學習實戰視頻PPT+大數據分析書籍推薦!...
發表于 07-22 17:02 ? 100次 閱讀
推薦幾本機器學習和深度學習必讀書籍+機器學習實戰視頻PPT+大數據分析書籍

機器翻譯不可不知的Seq2Seq模型

前  言             Seq2Seq,全稱Sequence to Sequence。它是一種通...
發表于 07-20 04:00 ? 615次 閱讀
機器翻譯不可不知的Seq2Seq模型
海南环岛赛游戏玩法 重庆时时开奖直播 重庆时时彩苹果版免费 德国pk10免费计划 奥克兰大家乐娱乐有限公司 麻将怎么胡牌 大乐透胆拖投注怎么玩 北京pk赛车是不是真的 重庆时时最新开奖结果 mg线上娱乐检测 即时比分大赢家体育