歡迎來到 常識詞典網(wǎng) , 一個(gè)專業(yè)的常識知識學(xué)習(xí)網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
當(dāng)然需要。既然是“文本挖掘”,自然語言處理最基本的功能點(diǎn)肯定都要做:新詞發(fā)現(xiàn)、分詞、詞性標(biāo)注、分類、自動提取標(biāo)簽、實(shí)體自動發(fā)現(xiàn)和識別。最基本的這些功能點(diǎn)做了之后,可以用統(tǒng)計(jì)方法完成簡單文本挖掘應(yīng)用,統(tǒng)計(jì)方法比如:TF/IDF、Map/Reduce、貝葉斯。再深入一些,就需要:聚類(層次聚類、SVM、V-)、情感趨勢分析。再想提高:語法分析、句式判斷。但一般做到NLP最基本功能點(diǎn)+統(tǒng)計(jì)方法即可搞定一般的互聯(lián)網(wǎng)應(yīng)用。答案 2:
關(guān)于鄭鈞的回答,我覺得涉及的點(diǎn)很好,但是有些知識不是很準(zhǔn)確; -p/reduce 是一種分布式計(jì)算的框架,TIIDF可以看作是一種特征表示方法;統(tǒng)計(jì)方法比較常用的包括,樸素貝葉斯,最大后驗(yàn)概率,EM算法,CRF(比如用于分詞)等; SVM不是聚類方法,而是分類回歸方法; V-應(yīng)該是vector-space-model吧,是向量空間模型,是文本表示的基本模型;常見的聚類方法分為兩類,層次聚類和扁平聚類,扁平聚類的代表算法是經(jīng)典的KMean算法。分類方法也用的很多,比如SVM和決策樹。 NLP本身有一點(diǎn)比較特別的是語言模型;答案 3:
肯定的,至于要懂到什么程度,取決于具體的應(yīng)用。答案 4:
可繁可簡,復(fù)雜的可以做到用正則表達(dá)式去處理,當(dāng)然中文不想英文那么規(guī)整;簡單的就做關(guān)鍵字匹配就好了。答案 5:
作文本挖掘需要學(xué)習(xí)NLP,因?yàn)槟阈枰幚砦谋?,提取出你感興趣的信息。如果你對機(jī)器學(xué)習(xí)熟悉,學(xué)習(xí)statistical NLP還是比較容易的。另外,也需要補(bǔ)充一些語言學(xué)基礎(chǔ)知識。答案 6:
文本挖掘包括很多個(gè)自然語言處理的模塊,如文本分類、文本聚類、文摘、關(guān)鍵詞抽取等,所有這些的基礎(chǔ)也是NLP的基礎(chǔ)工作,包括分詞、詞性標(biāo)注(很多現(xiàn)成工具)等。所以還是看一些NLP的基礎(chǔ)工作,打好底子。不需要去實(shí)現(xiàn),但需要了解,然后根據(jù)具體應(yīng)用運(yùn)用相應(yīng)的底層工具就好。答案 7:
首先,肯定是需要的。最基本要做到:新詞發(fā)現(xiàn)、詞頻統(tǒng)計(jì)、聚類、分類、文本摘要及關(guān)鍵詞提取、文檔去重、全文檢索等等。答案 8:
貴不在多,首先在于能真正了解文本挖掘的過程,以及中間涉及到的技術(shù)及應(yīng)用場合。然后根據(jù)你的需求,對其中某一個(gè)分支領(lǐng)域(比如是特征抽取,還是句法分析等等)或者某一個(gè)算法(是貝葉斯還是SVM?)進(jìn)行鉆研...下一篇:怎樣成為一個(gè)成功的銷售或售前? 下一篇 【方向鍵 ( → )下一篇】
上一篇:iPad 2 什么時(shí)候在國內(nèi)上市? 上一篇 【方向鍵 ( ← )上一篇】
快搜