一、文本挖掘定義
文本挖掘指的是從文本數(shù)據(jù)中獲取有價(jià)值的信息和知識(shí),它是數(shù)據(jù)挖掘中的一種方法。文本挖掘中最重要最基本的應(yīng)用是實(shí)現(xiàn)文本的分類和聚類,前者是有監(jiān)督的挖掘算法,后者是無監(jiān)督的挖掘算法。
二、文本挖掘步驟
1)讀取數(shù)據(jù)庫或本地外部文本文件
2)文本分詞
2.1)自定義字典
2.2)自定義停止詞
2.3)分詞
2.4)文字云檢索哪些詞切的不準(zhǔn)確、哪些詞沒有意義,需要循環(huán)2.1、2.2和 2.3步驟
3)構(gòu)建文檔-詞條矩陣并轉(zhuǎn)換為數(shù)據(jù)框
4)對(duì)數(shù)據(jù)框建立統(tǒng)計(jì)、挖掘模型
5)結(jié)果反饋
三、文本挖掘所需工具
文本挖掘?qū)⑹褂肦語言實(shí)現(xiàn),除此還需加載幾個(gè)R包,它們是tm包、tmcn包、Rwordseg包和wordcloud包。
四、實(shí)戰(zhàn)
本文所用數(shù)據(jù)集來自于sougou實(shí)驗(yàn)室數(shù)據(jù)。
DMC Text Filter是HYFsoft推出的純文本抽出通用程序庫,DMC Text Filter可以從各種各樣的文檔格式的數(shù)據(jù)中或從插入的OLE對(duì)象中,完全除掉特殊控制信息,快速抽出純文本數(shù)據(jù)信息。便于用戶實(shí)現(xiàn)對(duì)多種文檔數(shù)據(jù)資源信息進(jìn)行統(tǒng)一管理,編輯,檢索和瀏覽。
DMC Text Filter采用了先進(jìn)的多語言、多平臺(tái)、多線程的設(shè)計(jì)理念,支持多國(guó)語言(英語,中文簡(jiǎn)體,中文繁體,日本語,韓國(guó)語),多種操作系統(tǒng)(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多種文字集合代碼(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多種形式的API功能接口(文件格式識(shí)別函數(shù),文本抽出函數(shù),文件屬性抽出函數(shù),頁抽出函數(shù),設(shè)定User Password的PDF文件的文本抽出函數(shù)等),便于用戶方便使用。用戶可以十分便利的將本產(chǎn)品組裝到自己的應(yīng)用程序中,進(jìn)行二次開發(fā)。通過調(diào)用本產(chǎn)品的提供的API功能接口,實(shí)現(xiàn)從多種文檔格式的數(shù)據(jù)中快速抽出純文本數(shù)據(jù)。
數(shù)據(jù)挖掘的方法:
1.分類 (Classification)
2.估計(jì)(Estimation)
3.預(yù)測(cè)(Prediction)
4.相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
5.聚類(Clustering)
6.復(fù)雜數(shù)據(jù)類型挖掘(Text,Web ,圖形圖像,視頻,音頻等)
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(英
語:Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從
大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Association rule learning)的信
息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)
習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
在word中,以word2010為例來介紹七種文本選取的方法,以便提升工作效率。
1、第一種選擇字或詞組的方法。
通常是通過拖動(dòng)鼠標(biāo)來實(shí)現(xiàn)單詞和單詞的選擇,另外,基于單詞的強(qiáng)大關(guān)聯(lián)功能,還可以通過將光標(biāo)移動(dòng)到短語的中間然后雙擊鼠標(biāo)來選擇短語,如下圖所示。
2、第二種是選擇單行和段落的方法。
可以將光標(biāo)移動(dòng)到行的左端,當(dāng)箭頭處于箭頭狀態(tài)時(shí)單擊鼠標(biāo),然后是文本行選中,如果雙擊鼠標(biāo),則可以選擇段落文本,相比較拖動(dòng)鼠標(biāo)來選擇單行文本這種方法要快得多。
3、第三種是選擇整篇。
只需要將光標(biāo)移動(dòng)到文檔的左側(cè),顯示光標(biāo)時(shí),可以通過三擊左鍵來選擇整篇文章,除此之外還可以用“Ctrl+A”來實(shí)現(xiàn)選擇整篇。
4、第四種是跨頁選擇文本。
如果要選擇的文本不在一頁上,用手動(dòng)發(fā)票的方式來選擇是非常不方便的,這時(shí)可以用先停止光標(biāo),然后選擇文本,然后向下滾動(dòng)選擇在文本末尾,按住shift并單擊此處的方法。
或是在選擇文本前按住光標(biāo),按F8,然后在所選文本末尾單擊鼠標(biāo),可以通過調(diào)整鼠標(biāo)位置靈活選擇文本,之后,按Esc鍵結(jié)束。
5、第五種是選擇區(qū)域文本的方法。
如果選擇的劃如下圖所示的區(qū)域內(nèi)的文字,用鼠標(biāo)拖動(dòng)就無法實(shí)現(xiàn),這時(shí)可將光標(biāo)移動(dòng)到選區(qū)開頭,按住Alt鍵將矩形區(qū)域拉出到右下方,將選擇區(qū)域中的文本,更改顏色以查看選擇效果。
6、第六種是選擇相似文本的方法。
這一方法主要是針對(duì)標(biāo)題類的文本選擇,可先選中某一級(jí)的標(biāo)題,再選擇并點(diǎn)擊“選擇格式相似的文本”,就可以看到同一級(jí)的標(biāo)題都被選中了。
7、第七種是間隔選擇文本的方法。
如果要在同一文本中選擇不同區(qū)域的文本,先選擇一部分文本,然后按住Ctrl鍵,再將其它部分加入,若對(duì)某一部分不想選擇了,也可以將光標(biāo)移動(dòng)到此部分,后點(diǎn)擊左鍵即可取消該此部分。
一、變換視角,體會(huì)作者的情感
現(xiàn)代學(xué)者胡適說:“情感者,文學(xué)之靈魂?!币黄恼鲁3Mㄟ^象征、隱喻等表現(xiàn)手法,表達(dá)作者的情感。因此,讀者要借助已有的知識(shí)經(jīng)驗(yàn),從不同的角度解讀文本,體會(huì)作者的情感。
著名學(xué)者王國(guó)維說:“有我之境,以我觀物,故物皆著我之色彩?!比私贪嬲Z文七年級(jí)上冊(cè)課文《觀滄?!肥遣懿賹懙囊黄恼?。為了讓學(xué)生理解曹操眼中的“大?!钡暮x,體會(huì)其獨(dú)特的情感,筆者先從歷史角度入手,揭示文本的創(chuàng)作背景,如曹操成功北伐烏桓,即將平定中原,站在碣石山上登高望海,此時(shí)激情滿懷,然后引導(dǎo)學(xué)生思考問題:曹操是如何將“我之色彩”“著”之于“物”的呢?這種寫作手法有什么作用?學(xué)生結(jié)合歷史資料以及對(duì)曹操生平的了解,認(rèn)為作者眼前所見的大海并非實(shí)景,而是融入了作者奮發(fā)有為、躊躇滿志的理想之境。接著筆者讓學(xué)生思考問題:如果將文中的“日月之行,若出其中。星漢燦爛,若出其里”改為“日月之光,普照滄海。星漢燦爛,輝映浪濤”是否能夠表現(xiàn)出曹操博大的胸襟和氣魄?二者又有什么不同呢?學(xué)生經(jīng)過分析認(rèn)為,曹操在三國(guó)鼎立形成之后,沒有應(yīng)天命即帝位,而是說“若天命在吾,吾為周文王矣”,由此可知,文章要體現(xiàn)的不僅是詩人博大的胸襟、理想抱負(fù)和雄心壯志,還有海納百川、顧全大局的人格魅力。在曹操的眼中,大境界并不是要做世人矚目的“救世主”,而是要像大海一樣,包容宇宙萬物,吞吐日月星辰。從文化視角解讀文本,學(xué)生很容易就理解了文章采用的托物言志的寫作手法,體會(huì)到了詩人的博大胸襟和霸主氣魄。
二、品味細(xì)節(jié),探究文本內(nèi)涵
在解讀文本過程中,教師不但要引導(dǎo)學(xué)生整體感知文本,還要對(duì)文中的細(xì)節(jié)描寫進(jìn)行解讀,從平常的事物中挖掘其內(nèi)涵,從平淡的描述中探究其意蘊(yùn)。在此過程中,教師需要對(duì)文本中的特殊詞語、句子和段落進(jìn)行品讀。人教版語文八年級(jí)上冊(cè)課文《背影》中有一段文字描寫,如“我看見他戴著黑布小帽,穿著黑布大馬褂……我的淚很快地流下來了”。在作者描寫的這個(gè)畫面里“蝸居”著兩個(gè)意象,即“黑布小帽”“黑布大馬褂”。那么,如何解讀這一細(xì)節(jié)描寫呢?學(xué)生通過分析作者的寫作背景及相關(guān)資料,明白了作者的父親當(dāng)時(shí)仕途失意,賦閑在家,經(jīng)濟(jì)拮據(jù),而此時(shí)祖母病逝,在同時(shí)承受經(jīng)濟(jì)壓力和精神壓力之下,父親以這樣的一襲“黑”衣示人,體現(xiàn)了父親的貧窮、頹喪、悲苦、絕望等。在這樣的境況下,父親仍然給兒子買了一件紫毛大衣,爬過月臺(tái)買朱紅的橘子。學(xué)生通過分析文本中父親的“黑”與買給“我”的“朱紅橘子”“紫毛大衣”,并將這些顏色進(jìn)行對(duì)比,體會(huì)到了父親對(duì)兒子深沉的愛。深度挖掘文本,教師要從文本的語言文字入手,仔細(xì)推敲,認(rèn)真思考,透過語言文字領(lǐng)會(huì)文本的深刻內(nèi)涵。
三、用心體會(huì),理解文本精神
文本解讀需要心靈的關(guān)照,因此,教師要引導(dǎo)學(xué)生用心體會(huì)作者的情感,進(jìn)而領(lǐng)會(huì)文本精神。人教版語文七年級(jí)下冊(cè)課文《貓》是鄭振鐸寫的一篇文章。文章通過講述“我”三次養(yǎng)貓的過程以及三只貓不同的遭遇,生發(fā)出動(dòng)人的情感,揭示了人性的復(fù)雜,引發(fā)了對(duì)生命的思考。文中有這樣一段描寫,如“我心里十分難過,真的,我的良心受傷了,我沒有判斷明白,便妄下斷語,冤苦了一只不能說話辯訴的動(dòng)物。想到它的無抵抗的逃避,益使我感到我的暴怒、我的虐待,都是針,刺我良心的針”,圍繞這段文字描寫,筆者引導(dǎo)學(xué)生思考問題:為什么用針來表達(dá)“我”的自責(zé)?學(xué)生結(jié)合生活經(jīng)驗(yàn),明白了針扎進(jìn)皮膚里雖然不至于流血,但是傷口卻很難愈合,并且時(shí)常會(huì)感到疼痛,由此可知,作者是借此表達(dá)良心深處的不安。在這個(gè)教學(xué)案例中,筆者引導(dǎo)學(xué)生結(jié)合“針”扎皮膚的體驗(yàn),讓學(xué)生體會(huì)作者的心情,從而理解文本中的“貓”代表了當(dāng)時(shí)的弱勢(shì)群體,在人自私卑劣的行徑之下,弱者無一能夠逃脫厄運(yùn)這一精神主旨。
1. Analytic Visualizations(可視化分析)
不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。
2. Data Mining Algorithms(數(shù)據(jù)挖掘算法)
可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。
3. Predictive Analytic Capabilities(預(yù)測(cè)性分析能力)
數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。
4. Semantic Engines(語義引擎)
由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。
5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。
《文本挖掘(英文版)》是一部文本挖掘領(lǐng)域名著,作者為世界知名的權(quán)威學(xué)者。書中涵蓋了核心文本挖掘操作、文本挖掘預(yù)處理技術(shù)、分類、聚類、信息提取、信息提取的概率模型、預(yù)處理應(yīng)用、可視化方法、鏈接分析、文本挖掘應(yīng)用等內(nèi)容,很好地結(jié)合了文本挖掘的理論和實(shí)踐?!段谋就诰颍ㄓ⑽陌妫贩浅_m合文本挖掘、信息檢索領(lǐng)域的研究人員和實(shí)踐者閱讀,也適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)研究生的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等課程的教材。
從語文課程的性質(zhì)來看語文教學(xué)重在進(jìn)行語言訓(xùn)練。
學(xué)生對(duì)語言的掌握情況也是衡量課堂實(shí)效性的重要標(biāo)準(zhǔn)??墒?,如今的語文課堂似乎變了味了。
語文課不是進(jìn)行語言本身的推敲、揣摩和品位,而是圍繞文本內(nèi)容,外加了大量的補(bǔ)充性學(xué)習(xí)材料,加以多媒體的狂轟濫炸,或者過度的渲染和張揚(yáng)人文性。如在上《太陽》時(shí),不去推敲文中關(guān)鍵語句,用大量的視頻來介紹太陽特點(diǎn)和人類的關(guān)系;上《三顧茅廬》時(shí),不讓學(xué)生熟讀課文,竟花大量的時(shí)間讓學(xué)生觀看視頻三顧茅廬來了解課文內(nèi)容;教《地震中父與子》正文草草帶過,卻擴(kuò)展到朱自清的《背影》及其他關(guān)于父愛的文章。
一節(jié)語文課儼然成了科普宣傳課、歷史課和思品課了。這些設(shè)計(jì)者們認(rèn)為熱熱鬧鬧或者別出心裁的課堂就是語文課了,這是由于他們對(duì)語文課程缺少本質(zhì)的認(rèn)識(shí)造成。
這樣的課上學(xué)生們除了感官的享受以及思想的進(jìn)步外,對(duì)于學(xué)生的語言是毫無幫助的。語文課要熱鬧沒有錯(cuò),語文課要?jiǎng)e出心裁,也沒有錯(cuò),但是,所有的設(shè)計(jì)都不應(yīng)該脫離學(xué)生對(duì)語言的感悟與訓(xùn)練。
否則,語文課堂就不是語文課了。學(xué)生們所用的文本,作為語言的載體,又是前人精挑細(xì)選的篇章,其規(guī)范性毋庸置疑,對(duì)學(xué)生學(xué)習(xí)語言及進(jìn)行語言訓(xùn)練有很高的利用價(jià)值的,它又是創(chuàng)作者情感的符號(hào),字里行間總能讀出點(diǎn)情味。
我認(rèn)為真正的語文課,無需靠大量補(bǔ)充性學(xué)習(xí)材料和多媒體的狂轟濫炸及過度的渲染和張揚(yáng)人文性,應(yīng)該從文本出發(fā),引導(dǎo)學(xué)生通過深入學(xué)習(xí)文本,掌握知識(shí)點(diǎn),習(xí)得語言的方法,獲得情感的體驗(yàn)。下面我就結(jié)合實(shí)際教學(xué)談?wù)勅绾螐奈谋局袑ふ艺Z言訓(xùn)練點(diǎn)。
一、抓住關(guān)鍵字詞進(jìn)行語言訓(xùn)練在語文課堂上要讓學(xué)生的嘴巴動(dòng)起來,應(yīng)該要從文章的中的關(guān)鍵詞入手。緊緊圍繞關(guān)鍵詞進(jìn)行精心的設(shè)計(jì),一定能夠喚起學(xué)生的說話的欲望,達(dá)到課堂語言訓(xùn)練的目的。
1、在詩歌教學(xué)中抓住關(guān)鍵字詩歌是字字含意境,字字露真情。因此,在教學(xué)詩歌時(shí),深入字面意思,再現(xiàn)詩人的創(chuàng)作時(shí)的情境,感悟字里透出的感情顯得特別的重要了。
《九月九日憶山東兄弟》全詩圍繞一個(gè)“憶”字展開,每句詩中都有一個(gè)關(guān)鍵的字“獨(dú)、逢、遙、少”,詩人因“獨(dú)”常常有客居他鄉(xiāng)的寂寞,因“逢”佳節(jié)而倍生思鄉(xiāng)情懷,因離家“遙”而想起了兄弟們登高望遠(yuǎn),卻又因此又有“少”一人的惆悵。這四個(gè)字的感悟?qū)τ谕黄圃姼璧睦斫?,感受作者的客居他鄉(xiāng)復(fù)雜的情懷有很大的作用。
因此,我就這么問學(xué)生:“獨(dú)”字什么意思?“獨(dú)”字讓你想到的作者此時(shí)怎樣的處境?這樣的問題,容易打開學(xué)生們想象的翅膀,他們應(yīng)該會(huì)聯(lián)系自己生活中經(jīng)歷父母外出時(shí)單獨(dú)一人在家的情景來。然后教師再讓學(xué)生閉上你們的眼睛心里不停地默念著“獨(dú)”字,想著自己只有一個(gè)人,(過一會(huì))請(qǐng)各位同學(xué)睜開眼睛,心理什么滋味,誰來說說?這么一問學(xué)生們積極踴躍的發(fā)言起來“我感到了十分地孤獨(dú)”“我會(huì)不停的想家人”“我看到周圍寂靜的很,有話沒地方說”等,他們都能說出自己對(duì)“獨(dú)”字獨(dú)特的體驗(yàn),我想這些小孩們?cè)谏钪幸泊_實(shí)體驗(yàn)過單獨(dú)在家孤單的感覺。
對(duì)于“逢、遙、少”也一樣的,只要設(shè)計(jì)好,每個(gè)字都可能引起學(xué)生語言的欲望的。2、在說明文中抓關(guān)鍵詞在以往的聽其他老師上課的過程中,說明文往往容易上成科普文。
問題的關(guān)鍵就在于很多老師沒有深入的理解和挖掘文本,就采用了大量的輔助材料,以求達(dá)到學(xué)生對(duì)知識(shí)點(diǎn)的理解。這種現(xiàn)象重知識(shí)點(diǎn)輕語言訓(xùn)練,就是造成把語文課上成科普課的原因。
《太陽》一課中,文章在說明太陽的特點(diǎn)時(shí),用了較多的數(shù)字來說明,因此,讓學(xué)生感悟這些數(shù)字顯得特別的重要了??墒呛芏嗬蠋焻s忽略了這點(diǎn),學(xué)生能找到關(guān)鍵的數(shù)字,就很高興地急于直接從數(shù)字中總結(jié)出太陽遠(yuǎn)、大、熱三個(gè)特點(diǎn),然后再外加視頻加以輔助理解,以至于偏離了語文課的性質(zhì)了。
我想如果深入挖掘這些數(shù)字,讓學(xué)生深刻體會(huì)體驗(yàn)這些數(shù)字更有語文味點(diǎn),比如:同學(xué)們看到“3500年”你們的第一感受是什么?告訴我?!罢鸷场薄半y以想象”。
你們?yōu)槭裁磿?huì)第一時(shí)間想到這些詞?有什么想說的話盡管說出來。學(xué)生們自然也會(huì)聯(lián)系人的生命,人類的歷史來談自己的的這種感受。
如:“一個(gè)人只能活多久啊,要走多少代???”“人類歷史才多久?。俊钡鹊?。經(jīng)過這樣一問,學(xué)生一聯(lián)系實(shí)際,就更能體會(huì)到了太陽離我們的遠(yuǎn)。
學(xué)生在這個(gè)過程中,既有了說的訓(xùn)練,又深刻的認(rèn)識(shí)了數(shù)字說明的妙用。因此,說明文中,也應(yīng)該能夠用抓關(guān)鍵詞來體會(huì)。
1、在記敘文中抓住關(guān)鍵詞在記敘文中,有時(shí)候一個(gè)詞往往能將整篇文章串聯(lián)起來,創(chuàng)造學(xué)生的語言運(yùn)用的平臺(tái)?!兑粋€(gè)村莊的故事》中,村莊原先是很美麗的,可是由于斧頭的出現(xiàn)一切都改變了。
因此,在上這節(jié)課的時(shí)候應(yīng)緊緊抓住“斧頭”進(jìn)行教學(xué)設(shè)計(jì):自由讀文,然后說說斧頭造就了什么?別看這么一問,后面的答案是一個(gè)比一個(gè)精彩。他們將課文的語言充分的利用了起來,從斧頭造就了應(yīng)有盡有的家具和人類美好的生活,到裸露的土地和災(zāi)難。
這樣,既抓住了文本的意思,讓學(xué)生有所感悟,又能讓學(xué)生將文中學(xué)的語言得以運(yùn)用。二、填補(bǔ)空白的文本進(jìn)行語言訓(xùn)練課文中常常有。
聲明:本網(wǎng)站尊重并保護(hù)知識(shí)產(chǎn)權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果我們轉(zhuǎn)載的作品侵犯了您的權(quán)利,請(qǐng)?jiān)谝粋€(gè)月內(nèi)通知我們,我們會(huì)及時(shí)刪除。
蜀ICP備2020033479號(hào)-4 Copyright ? 2016 學(xué)習(xí)鳥. 頁面生成時(shí)間:5.042秒