高性能並行珠璣：多核和眾核編程方法 | 生病了怎麼辦 - 2024年11月

高性能並行珠璣：多核和眾核編程方法

作者：（美）詹姆斯·賴因德斯，吉姆·傑弗斯等

出版社：機械工業

出版日期：2017年11月01日

ISBN：9787111580805

語言：繁體中文

售價：621元

書籍連結

本書由Intel的技術專家撰寫，系統地講解在IntelXeon處理器和IntelXeonPhi協處理器上進行並行處理和編程的方法和技術，展示了更好地利用Intel處理器或其他多核處理器的系統計算潛力的有效方法。全書包括大量來自多個行業和不同領域的並行編程例子。每章既詳細講述所采用的編程技術，同時展示了其在IntelXeonPhi協處理器和多核處理器上的高性能結果。幾十個新的例子和案例顯示的「成功經驗」不但展現了這些強大系統的主要特征，而且展示出如何在這些異構系統上保持並行化。James Reinders 英特爾軟件總監，首席技術布道師。參與多個旨在加強並行編程在工業界應用的工程研究和教育項目。他對多個項目做出了貢獻，包括世界上首例 Teraflop 級超級計算機（ASCI Red）和世界上首例 Teraflop 級微處理器（Intel Xeon Phi協處理器）。Jim Jeffers 英特爾MIC（集成眾核）架構專家和首席工程師，對至強融核協處理器有着較為深入與全面的研究。

出版者的話譯者序推薦序前言作者簡介第1章引言 11.1 學習成功經驗 11.2 代碼現代化 11.3 並發算法現代化 11.4 向量化和數據局部性現代化 21.5 理解功耗使用 21.6 ISPC和OpenCL 21.7 Intel Xeon Phi協處理器特性 21.8 眾核和新異構系統 21.9 書名中沒有Xeon Phi與新異構架構編程 31.10 眾核的未來 31.11 下載 31.12 更多信息 4第2章從正確到正確&高效：Godunov格式的Hydro2D案例學習 52.1 現代計算機上的科學計算 52.1.1 現代計算環境 62.1.2 CEA的Hydro2D 62.2 沖擊流體動力學的一種數值方法 72.2.1 歐拉方程 72.2.2 Godunov方法 72.2.3 哪里需要優化 92.3 現代計算機架構的特征 92.3.1 面向性能的架構 92.3.2 編程工具和運行時 102.3.3 計算環境 112.4 通向高性能的路 112.4.1 運行Hydro2D 112.4.2 Hydro2D的結構 122.4.3 優化 152.4.4 內存使用 162.4.5 線程級並行 172.4.6 算術效率和指令級並行 242.4.7 數據級並行 262.5 總結 322.5.1 協處理器與處理器 322.5.2 水漲船高 322.5.3 性能策略 332.6 更多信息 34第3章 HBM上的SIMD與並發優化 363.1應用程序：HIROMB-BOOS-MODEL 363.2 關鍵應用：DMI 363.3 HBM執行配置文件 373.4 HBM優化綜述 383.5 數據結構：准確定位位置 383.6 HBM上的線程並行 413.7 數據並行：SIMD向量化 453.7.1 零散的可優化部分 463.7.2 過早抽象是萬惡之源 483.8 結果 503.9 詳情分析 513.10 處理器與協處理器可擴展性對比 523.11 CONTIGUOUS屬性 533.12 總結 543.13 參考文獻 543.14 更多信息 55第4章流體動力學方程優化 564.1 開始 564.2 1.0版本：基礎版本 574.3 2.0版本：線程盒 594.4 3.0版本：棧內存 634.5 4.0版本：分塊 634.6 5.0版本：向量化 644.7Intel Xeon Phi協處理器上的運行結果 684.8 總結 694.9 更多信息 70第5章分階段准同步柵欄 715.1 如何改善代碼 745.2 如何進一步改善代碼 745.3 超線程方陣 745.4關於該方案哪些地方不是最優的 755.5 超線程方陣編碼 765.5.1如何確定內核間兄弟線程和內核內HT線程 775.5.2 超線程方陣手動分區方法 775.5.3 吸取教訓 795.6 回到工作 805.7 數據對齊 815.7.1 盡可能使用對齊的數據 815.7.2 冗余未必是件壞事 815.8 深入討論分階段准同步柵欄 845.9 如何節省時間 865.10 幾個留給讀者的優化思考 905.11類似Xeon Phi協處理器的Xeon主機性能優化 915.12 總結 925.13 更多信息 92第6章故障樹表達式並行求解 936.1 動機和背景 936.1.1 表達式 936.1.2 表達式選擇：故障樹 936.1.3 程序實例中的故障樹：基本模擬 936.2 實例實現 946.3 其他因素 1016.4 總結 1016.5 更多信息 101第7章深度學習的數值優化 1027.1 擬合目標函數 1027.2 目標函數與主成分分析 1057.3 軟件及樣例數據 1067.4 訓練數據 1097.5 運行時間 1097.6 擴展結果 1117.7 總結 1117.8 更多信息 112第8章優化聚集/分散模式 1138.1 聚集/分散在Intel架構下的說明 1148.2 聚集/分散模式在分子動力學中的應用 1158.3 優化聚集/分散模式 1178.3.1 提高時間和空間的局部性 1178.3.2 選擇一種適當的數據布局：AoS與SoA 1188.3.3 AoS和SoA之間的動態轉換 1198.3.4 分攤聚集/分散和轉換的開銷 1228.4 總結 1238.5 更多信息 123第9章 N體問題直接法的眾核實現 1259.1 N體模擬 1259.2 初始解決方案 1259.3 理論極限 1269.4 降低開銷和對齊數據 1289.5 優化存儲層次 1319.6 改進分塊 1339.7 主機端的優化 1359.8 總結 1369.9 更多信息 136第10章 N體方法 13710.1 快速N體方法和直接N體內核 13710.2 N體方法的應用 13810.3 直接N體代碼 13810.4 性能結果 14110.5 總結 14210.6 更多信息 142第11章使用OpenMP 4.0實現動態負載均衡 14411.1 最大化硬件利用率 14411.2 N體內核 14611.3 卸載版本 14911.4 第一個處理器與協處理器協作版本 15011.5 多協處理器版本 15211.6 更多信息 155第12章並發內核卸載 15612.1 設定上下文 15612.1.1 粒子動力學 15612.1.2 本章結構 15712.2 協處理器上的並發內核 15812.2.1 協處理器設備划分和線程關聯 15812.2.2 並發數據傳輸 16312.3 在PD中使用並發內核卸載進行作用力計算 16612.3.1 使用牛頓第三定律並行評估作用力 16612.3.2 實現作用力並發計算 16712.3.3 性能評估：之前與之后 17112.4 總結

譯者序High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches近十年，我國高性能計算機的發展突飛猛進，最近「天河二號」連續六次奪得全球超算TOP 500排行榜第一，標志着我國硬件的發展已經達到國際先進水平。然而，在高性能軟件方面，我國至今未獲得過Gordon Bell獎這一超算應用大獎，並行應用的發展整體上仍然落后於發達國家。我國高性能計算學術界和產業界早已充分認識到這一問題，多年來已設立眾多相關研究項目並取得了一系列重要研究成果，與國外先進水平的差距也在逐步縮小。

您不可不知道的幹細胞科技(2版)