文本挖掘(TM),又稱(chēng)自然語(yǔ)言處理(NLP),是AI時(shí)代炙手可熱的數(shù)據(jù)分析挖掘前沿領(lǐng)域,其所涉及的人機(jī)對(duì)話(huà)系統(tǒng),推薦算法,文本分類(lèi)等技術(shù)在BAT等企業(yè)中都得到廣泛應(yīng)用。
本課程將使用經(jīng)典武俠小說(shuō)、大眾點(diǎn)評(píng)抓取結(jié)果、微博語(yǔ)料數(shù)據(jù)等多個(gè)實(shí)際案例進(jìn)行教學(xué)。
本次課程將會(huì)從基礎(chǔ)的分詞、詞袋模型、分布式表示等概念開(kāi)始,全面介紹文本挖掘技術(shù)的各個(gè)方面,特別會(huì)針對(duì)目前熱的word2vec,gensim 等結(jié)合實(shí)際案例進(jìn)行學(xué)習(xí),幫助學(xué)員從零基礎(chǔ)直接升級(jí)至業(yè)界的新技術(shù)前沿。
學(xué)習(xí)完本課程后,學(xué)員將能夠獨(dú)立使用Python環(huán)境完成中文文本挖掘的各種工作。
【學(xué)員基礎(chǔ)】
學(xué)員需要懂得Python語(yǔ)言的基本編程知識(shí)。
【課程大綱】
第1章:文本挖掘概述
第2章:磨刀不誤砍柴工
第3章:分詞
第4章:詞云展示
第5章:文檔信息的向量化
第6章:關(guān)鍵詞提取
第7章:抽取文本主題
第8章:文本相似度
第9章:文檔分類(lèi)
第10章:情感分析
第10章:自動(dòng)摘要
第11章:自動(dòng)寫(xiě)作