自然語言處理Python進階 | 生病了怎麼辦 - 2024年7月

自然語言處理Python進階

作者:(印)克里希納·巴夫薩
出版社:機械工業
出版日期:2019年02月01日
ISBN:9787111616436
語言:繁體中文

第1章教你使用內置的NLTK語料庫和頻率分佈。我們還將學習什麼是WordNet,並探索其特點和用法。第2章演示如何從各種格式的數據源中提取文本。我們還將學習如何從網路源提取原始文本。最後,我們將從這些異構數據源中對原始文本進行規範並構建語料庫。第3章介紹一些關鍵的預處理步驟,如分詞、詞幹提取、詞形還原和編輯距離。第4章介紹正則表達式,它是最基本、最簡單、最重要和最強大的工具之一。在本章中,你將學習模式匹配的概念,它是文本分析的一種方式,基於此概念,沒有比正則表達式更方便的工具了。第5章將學習如何使用和編寫自己的詞性標注器和文法規則。詞性標注是進一步句法分析的基礎,而通過使用詞性標記和組塊標記可以產生或改進文法規則。第6章幫助你了解如何使用內置分塊器以及訓練或編寫自己的分塊器,即依存句法分析器。在本章中,你將學習評估自己訓練的模型。第7章介紹信息抽取和文本分類,告訴你關於命名實體識別的更多信息。我們將使用內置的命名實體識別工具,並使用字典創建自己的命名實體。我們將學會使用內置的文本分類演算法和一些簡單的應用實例。第8章介紹高階自然語言處理方法,該方法將目前為止你所學的所有課程結合到一起,並創建應對你現實生活中各種問題的適用方法。我們將介紹諸如文本相似度、摘要、情感分析、回指消解等任務。第9章介紹深度學習應用於自然語言處理所必需的各種基本原理,例如利用卷積神經網路(CNN)和長短型記憶網路(LSTM)進行郵件分類、情感分類等,最後在低維空間中可視化高維詞彙。第10章描述如何利用深度學習解決最前沿的問題,包括文本自動生成、情景數據問答,預測下一個最詞的語言模型以及生成式聊天機器人的開發。克里希納·巴夫薩(KrishnaBhavsar)花了大約10年時間在各行業領域如酒店業、銀行業、醫療行業等進行自然語言處理、社交媒體分析和文本挖掘方面的研究。他致力於用不同的NLP語料庫如StanfordCoreNLP、IBM的 SystemText和BigInsights、GATE和NLTK來解決與文本分析有關的行業問題。克里希納還致力於分析社交媒體給熱門電視節目和流行零售品牌以及產品帶來的效應。2010年,他在NAACL上發表了一篇關於情感分析增強技術的論文。近期,他創建了一個NLP管道/工具集並開源以便公眾使用。除了學術和科技,克里希納還熱衷於摩托車和足球,空閑時間喜歡旅行和探索。他騎摩托車參加過環印度公路旅行並在東南亞和歐洲大部分國家徒步旅行過。納雷什·庫馬爾(NareshKumar)曾為財富500強企業設計、實施和運行超大型網際網路應用程序,在這方面他擁有超過十年的專業經驗。他是一位全棧架構師,在電子商務、網路托管、醫療、大數據及分析、數據流、廣告和資料庫等領域擁有豐富的實踐經驗。他依賴開源並積極為其做貢獻。納雷什一直走在新興技術的前沿,從Linux系統內部技術到前端技術。他曾在拉賈斯坦邦的BITS-Pilani學習,獲得了電腦科學和經濟學的雙學位。普拉塔普·丹蒂(PratapDangeti)在班加羅爾的研究和創新實驗室開發機器學習和深度學習方法,以用於結構化、圖像和TCS文本數據。他在分析和數據科學領域擁有豐富的經驗,並在IIT Bombay獲得了工業工程和運籌學項目的碩士學位。普拉塔普是一名人工智慧愛好者。閑暇時,他喜歡閱讀下一代技術和創新方法。他還是Packt出版的《Statisticsfor Machine Learning》一書的作者。


相關書籍