日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

MIT自然语言处理第一讲:简介和概述(第二部分)

發(fā)布時(shí)間:2025/3/21 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 MIT自然语言处理第一讲:简介和概述(第二部分) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

自然語(yǔ)言處理:背景和概述
Natural Language Processing:Background and Overview
作者:Regina Barzilay(MIT,EECS Department,September 8, 2004)
譯者:我愛自然語(yǔ)言處理(www.52nlp.cn?,2009年1月4日)

三、NLP的知識(shí)瓶頸(Knowledge Bottleneck in NLP)
我們需要(We need):
 ——有關(guān)語(yǔ)言的知識(shí)(Knowledge about language);
 ——有關(guān)世界的知識(shí)(Knowledge about the world);
可能的解決方案(Possible solutions):
 ——符號(hào)方法or象征手法(Symbolic approach):將所有需要的信息在計(jì)算機(jī)里編碼(Encode all the required information into computer);
 ——統(tǒng)計(jì)方法(Statistical approach):從語(yǔ)言樣本中推斷語(yǔ)言特性(Infer language properties from language samples);

1、例子研究:限定詞位置(Case study: Determiner Placement)
任務(wù):在文本中自動(dòng)地放置限定詞
Task: Automatically place determiners (a,the,null)in a text
樣本
Scientists in United States have found way of turning lazy monkeys into workaholics using gene therapy. Usually monkeys work hard only when they know reward is coming, but animals given this treatment did their best all time. Researchers at National Institute of Mental Health near Washington DC, led by Dr Barry Richmond, have now developed genetic treatment which changes their work ethic markedly. ”Monkeys under influence of treatment don’t procrastinate,” Dr Richmond says. Treatment consists of anti-sense DNA – mirror image of piece of one of our genes – and basically prevents that gene from working. But for rest of us, day when such treatments fall into hands of our bosses may be one we would prefer to put off.
2、 相關(guān)語(yǔ)法規(guī)則(Relevant Grammar Rules)
 a) 限定詞位置很大程度上由以下幾項(xiàng)決定(Determiner placement is largely determined by):
  i. 名詞類型-可數(shù),不可數(shù)(Type of noun – countable, uncountable);
  ii. 照應(yīng)-特指,類指(Reference -specific, generic);
  iii. 信息價(jià)值-已有,新知(Information value – given, new)?這個(gè)翻譯不確定^_^
  iv. 數(shù)詞-單數(shù),復(fù)數(shù)(Number – singular, plural)
 b) 然而,許多例外和特殊情況也扮演著一定的角色(However, many exceptions and special cases play a role),如:
  i. 定冠詞用在報(bào)紙名稱的前面,但是零冠詞用在雜志和期刊名稱前面
  ii. The definite article is used with newspaper titles (The Times), but zero article in names of magazines and journals (Time)
3、 符號(hào)方法方案(Symbolic Approach: Determiner Placement)
 a) 我們需要哪些類別的知識(shí)(What categories of knowledge do we need):
  i. 語(yǔ)言知識(shí)(Linguistic knowledge):
   -靜態(tài)知識(shí):數(shù)詞,可數(shù)性,…(Static knowledge: number, countability, …)
   -上下文相關(guān)知識(shí):共指關(guān)系,…(Context-dependent knowledge: co-reference, … )
  ii. 世界知識(shí)(World knowledge):
   -Uniqueness of reference (the current president of the US), type of noun (newspaper vs. magazine), situational associativity between nouns (the score of the football game), …
  iii. 這些信息很難人工編碼(Hard to manually encode this information)!
4、 統(tǒng)計(jì)方法方案(Statistical Approach: Determiner Placement)
 a) 樸素方法(Naive approach):
  i. 收集和你的領(lǐng)域相關(guān)的大量的文本(Collect a large collection of texts relevant to your domain (e.g., newspaper text))
  ii. 對(duì)于其中的每個(gè)名詞,計(jì)算它和特定的限定詞一起出現(xiàn)的概率,公式如下(For each noun, compute its probability to take a certain determiner):
   - p(determiner|noun)= freq(noun,deter miner)/freq(noun)
  iii. 對(duì)于一個(gè)新名詞,依據(jù)訓(xùn)練語(yǔ)料庫(kù)中最高似然估計(jì)選擇一個(gè)限定詞(Given a new noun, select a determiner with the highest likelihood as estimated on the training corpus)
 b) 實(shí)現(xiàn)(Implementation):
  i. 語(yǔ)料:訓(xùn)練——華爾街日?qǐng)?bào)(WSJ)前21節(jié)語(yǔ)料,測(cè)試——第23節(jié)(Corpus: training — first 21 sections of the Wall Street Journal (WSJ) corpus, testing – the 23th section)
  ii. 預(yù)測(cè)準(zhǔn)確率:71.5%(Prediction accuracy: 71.5%)
 c) 結(jié)論(Does it work?):
  i. 結(jié)果并不是很好,但是對(duì)于這樣簡(jiǎn)單的方法結(jié)果還是令人吃驚(The results are not great, but surprisingly high for such a simple method)
  ii. 這個(gè)語(yǔ)料庫(kù)中的很大一部分名詞總是和同樣的限定詞一起出現(xiàn)(A large fraction of nouns in this corpus always appear with the same determiner),如:
   -“the FBI”,“the defendant”, …
5、 作為分類問(wèn)題的限定詞位置(Determiner Placement as Classification)
 a) 預(yù)測(cè)(Prediction): “the”, “a”, “null”
 b) 代表性的問(wèn)題(Representation of the problem):
  i. 復(fù)數(shù)?(是,否)(plural? (yes, no))
  ii. 第一次在文本中出現(xiàn)?(是否)(first appearance in text? (yes, no))
  iii. 名詞(詞匯集的成員)(noun (members of the vocabulary set))
 c) 圖表例子略
 d) 目標(biāo):學(xué)習(xí)分類函數(shù)以預(yù)測(cè)未知例子(Goal: Learn classification function that can predict unseen examples)
6、 分類方法(Classification Approach)
 a) 學(xué)習(xí)X->Y的映射函數(shù)(Learn a function from X->Y (in the previous example, {?1,0,1})
 b) 假設(shè)已存在一些分布D(X,Y)(Assume there is some distribution D(X, Y ), where x ∈ X, and y ∈ Y )
 c) 嘗試建立分布D(X,Y)和D(X|Y)的模型(Attempt to explicitly model the distribution D(X, Y ) and D(X|Y ))
7、 分類之外(Beyond Classification)
 a) 許多NLP應(yīng)用領(lǐng)域可以被看作是從一個(gè)復(fù)雜的集合到另一個(gè)集合的映射(Many NLP applications can be viewed as a mapping from one complex set to another):
  i. 句法分析(Parsing): 串到樹(strings to trees)
  ii. 機(jī)器翻譯(Machine Translation): 串到串(strings to strings)
  iii. 自然語(yǔ)言生成(Natural Language Generation):數(shù)據(jù)詞條到串(database entries to strings)
 b) 注意,分類框架并不適合這些情況!(Classification framework is not suitable in these cases!)
8、 機(jī)器翻譯中的映射(Mapping in Machine Translation)
 a) Weaver 1955 的經(jīng)典論述:
  i. “… one naturally wonders if the problem of translation could conceivably be treated as a problem of cryptography. When I look at an article in Russian, I say: ‘this is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.’ ”
 b) 機(jī)器翻譯示例略
 c) 機(jī)器翻譯中的學(xué)習(xí)(Learning for MT)
  i. 在許多語(yǔ)言對(duì)中都有合適的平行語(yǔ)料庫(kù)(Parallel corpora are available in several language pairs)
  ii. 基本思想(Basic idea):使用平行語(yǔ)料庫(kù)作為翻譯例子的訓(xùn)練集(use a parallel corpus as a training set of translation examples)
  iii. 目標(biāo)(Goal): 學(xué)習(xí)一個(gè)函數(shù)能將源語(yǔ)言的字符串映射為目標(biāo)語(yǔ)言的字符串(learn a function that maps a string in a source language to a string in a target language)

未完待續(xù):第三部分

 附:課程及課件pdf下載MIT英文網(wǎng)頁(yè)地址:
   http://people.csail.mit.edu/regina/6881/

注:本文遵照麻省理工學(xué)院開放式課程創(chuàng)作共享規(guī)范翻譯發(fā)布,轉(zhuǎn)載請(qǐng)注明出處“我愛自然語(yǔ)言處理”:www.52nlp.cn

from:http://www.52nlp.cn/mit-nlp-first-lesson-introduction-and-overview-second-part/

總結(jié)

以上是生活随笔為你收集整理的MIT自然语言处理第一讲:简介和概述(第二部分)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 妖精视频在线观看免费 | 女同亚洲精品一区二区三 | www99热| 欧美一级影院 | 亚洲精品四区 | 青娱乐国产视频 | 久久中文字幕av | 国产aⅴ一区二区三区 | 国产av成人一区二区三区高清 | 亚洲色图日韩精品 | 欧美日韩爱爱 | 无码aⅴ精品一区二区三区 精品久久在线 | 日本一区电影 | 国产在线视频网址 | 欧美天天搞 | 久久这里有精品视频 | 中日韩中文字幕 | 男男全肉变态重口高h | 中文字幕日韩精品一区 | 在线免费看av的网站 | 大又大粗又爽又黄少妇毛片 | 中文字幕第5页 | 欧美理论在线观看 | 99热最新网址 | 国产精品国产精品 | 91视频插插插| 久久精品国产亚洲AV熟女 | 精品产国自在拍 | 久久无码专区国产精品s | 青青草成人免费在线视频 | 超碰网址| 国产熟女一区二区 | 美女福利视频一区 | 老女人人体欣赏a√s | 精品一区二区三区蜜臀 | 久久久婷 | 人成午夜 | 中文字幕亚洲欧美日韩 | 91狠狠综合 | 秋霞网一区 | 全国最大色| 免费成人福利视频 | 成年人av在线播放 | 国产美女又黄又爽又色视频免费 | 色乱码一区二区三区 | 亚洲人精品午夜射精日韩 | 精品国产www | 亚洲在线影院 | 在线久| 日韩aⅴ视频 | 欧洲亚洲视频 | 国产精品播放 | 狠狠操欧美 | 公车激情云雨小说 | 久久精品免费网站 | 国产综合色视频 | 五月天视频网站 | 伊人久久激情 | 天堂av在线免费 | 中文字幕在线观看一区二区 | 国产高清一区二区三区 | 韩国黄色大片 | av在线看片 | 精品少妇久久 | 97视频成人| 精品影片一区二区入口 | 久久九九99 | 东京热一区二区三区四区 | 日韩av色| 精品自拍第一页 | 老子午夜影院 | 色哟哟视频 | 久久国产露脸精品国产 | 草草地址线路①屁屁影院成人 | 九九九九色| 美女又爽又黄免费 | 三级网站在线免费观看 | 99成人精品视频 | jizz免费 | 中文字幕+乱码+中文乱码www | 欧美精品1区2区3区 精品成人一区 | 日韩一区二区免费播放 | 一区二区三区毛片 | 狠狠操在线视频 | 婷婷激情五月网 | 麻豆国产一区二区 | 日本特黄一级片 | 男女做激情爱呻吟口述全过程 | 欧美日韩激情在线 | 国产精品精品软件视频 | 日韩在线视频免费观看 | 91色噜噜| 欧美一级在线观看视频 | 亚洲另类图区 | 热久久这里只有精品 | 在线一区二区三区视频 | 国产精品毛片一区二区在线看舒淇 | 91亚洲精品在线观看 | 久久艹在线视频 |