【NLP】推荐一些NER的英文数据集
?1???MUC Data Sets
https://www-nlpir.nist.gov/related_projects/muc/
?2???CoNLL-2002
https://www.clips.uantwerpen.be/conll2002/ner/
?3???CoNLL-2003
CoNLL 2003是由新聞通訊社的文章以四種不同的語言(西班牙語、荷蘭語、英語和德語)創(chuàng)建的,重點關(guān)注4個實體:PER(人員),LOC(位置),ORG(組織)和MISC(其他,包括所有其他類型的實體)
https://www.clips.uantwerpen.be/conll2003/ner/
?4???2010 I2B2
2010 I2B2 NER任務(wù)考慮了臨床數(shù)據(jù),重點關(guān)注臨床問題、測試和治療實體類型
https://www.i2b2.org/NLP/Relations/
?5???DDIExtraction2013(Drug NER)
重點關(guān)注藥品、品牌、集團和藥品n(未批準(zhǔn)或新藥)實體類型
https://www.cs.york.ac.uk/semeval-2013/task9/index.html
?6???CHEMPROT(Similar to 5)
相比5更側(cè)重于化學(xué)和藥物實體,例如縮寫、配方、家族、標(biāo)識符等
https://biocreative.bioinformatics.udel.edu/
?7?? microbiology NER datasets
從PubMed和生物學(xué)網(wǎng)站收集,并且主要關(guān)注細(xì)菌、棲息地和地理位置實體
http://2016.bionlp-st.org/tasks/bb2????
(需要FQ訪問)
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯總結(jié)
以上是生活随笔為你收集整理的【NLP】推荐一些NER的英文数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】CNN图像分类:从LeNet
- 下一篇: 【面试招聘】社招如何拿到心仪公司的off