课程:AI历史与发展
| 您的姓名: | |
| 联系电话: | |
| 联系邮箱: | |
| 留言内容: | |
| 课程名称 | 课程简介 | 课程内容 | 授课方式 | 课时 | 报名咨询 |
|---|---|---|---|---|---|
| AI 历史与发展 | 本章节回顾人工智能的发展历程,从早期的理论提出到现代AI技术的快速发展,帮助学员了解AI技术发展的背景与未来趋势。 |
1. AI的发展历程与重要里程碑 2. AI技术的关键阶段与突破点 3. AI的未来趋势与发展方向 |
线上 | 1 | |
| AI系统全栈架构 | 学习AI系统的全栈架构设计,从硬件到软件栈的全景视角,理解智算集群在AI应用中的全栈支撑能力。 |
1. AI全栈架构的组成与设计思路 2. 硬件层:GPU、存储与网络的协同设计 3. 软件层:框架、工具链与平台优化 4. 全栈架构优化的典型案例 |
线上 | 1 | |
| 智算集群基础概述 | 本章节主要介绍智算集群的基本概念、发展背景、以及在AI计算、大数据处理中的应用场景,帮助学员了解智算集群的重要性和组成结构。 |
1. 智算集群的定义与特点 2. 智算集群的应用场景 3. 国内外智算集群发展现状及趋势 |
线上 | 2 |
| 课程名称 | 课程简介 | 课程内容 | 授课方式 | 课时 | 报名咨询 |
|---|---|---|---|---|---|
| GPU服务器概述 | 详细讲解GPU服务器的结构、型号及其在AI任务中的优势,帮助学员了解GPU服务器的选择与配置。 |
1. GPU服务器的组成与工作原理 2. NVIDIA GPU架构概述 3. GPU服务器在智算集群中的应用场景 |
线上 | 2 | |
| InfiniBand(IB)网络基础 | 介绍IB网络技术的基本原理及其在智算集群中的作用,学习IB网络的优势、协议及主要组件。 |
1. IB网络技术基础 2. IB交换机和网络接口卡 (NIC) 3. IB网络与以太网的对比 |
线上 | 2 | |
| 存储技术概述 | 学习全闪存和混闪存储的原理、优势以及在智算集群中的存储策略设计。 |
1. 全闪存与混闪存储的基本原理 2. 存储IO性能优化方法 3. 存储在集群中的部署与应用案例 |
线上 | 2 |
| 课程名称 | 课程简介 | 课程内容 | 授课方式 | 课时 | 报名咨询 |
|---|---|---|---|---|---|
| 智算集群的设计 | 本章节重点讲解智算集群硬件基础设施设计的关键要素,包括机柜、电力、动环和桥架等,为后续的安装和部署提供指导。 |
1. 智算集群机柜设计规范与布局 2. 电力供应与冗余设计 3. 桥架与线缆布放的设计与优化 |
线上 | 2 | |
| 网络设计与组网 | 本章节聚焦智算集群网络设计的关键技术,涵盖交换机、光纤与模块的选型和组网方法。 |
1. 网络拓扑设计原则 2. 交换机与光模块的选型与配置 3. 高性能组网的优化方法 |
线上 | 2 | |
| 主要网络优化 | 本章节深入讲解智算集群网络优化的关键技术,包括流量调优、延迟优化及吞吐量提升,帮助学员掌握提升网络性能的实用方法和工具。 |
1. 网络性能指标与优化目标 2. 关键优化技术 3. 网络硬件调优 4. 工具与方法 5. 典型案例分析 |
线下 | 2 | |
| GPU服务器软件生态 | 探索GPU服务器的软件生态,包括CUDA、NCCL、深度学习框架优化等内容。 |
1. GPU服务器常用软件与驱动 2. CUDA与NCCL基础 3. 深度学习框架的GPU优化 |
线下 | 2 | |
| GPU服务器单机优化 | 讲解GPU服务器单机性能优化的方法,包括显存利用率优化、计算效率提升等。 |
1. GPU服务器性能监控与分析 2. 单机计算性能优化技巧 3. 常见单机性能问题及解决方案 |
线下 | 4 | |
| GPU服务器集群优化 | 学习如何优化GPU服务器集群性能,提升整体计算效率。 |
1. 集群任务调度与负载均衡 2. 集群通信优化与NCCL调优 3. 集群资源管理与优化案例 |
线下 | 4 | |
| 智算集群运维管理 | 掌握智算集群的日常运维管理方法,包括硬件、网络与软件的监控与维护。 |
1. 集群监控与故障预警 2. 日常运维流程与实践 3. 集群生命周期管理 |
线下 | 2 | |
| GPU集群运维管理 | 资源监控与性能分析,故障诊断与恢复,自动化运维。 |
1. GPU资源监控工具(NVIDIA DCGM、Prometheus+Grafana) 2. 节点健康状态检测(GPU温度、功耗、显存占用) 3. 日志分析(ELK Stack、集群日志聚合) 4. 常见GPU故障排查(驱动崩溃、显存溢出、硬件故障) 5. 网络问题定位(延迟、带宽瓶颈、RDMA配置错误) 6. 自动化告警与应急响应流程 7. 使用Ansible/SaltStack进行批量配置管理 8. 集群扩容与缩容 |
线下 | 4 |
课程:AI历史与发展
| 您的姓名: | |
| 联系电话: | |
| 联系邮箱: | |
| 留言内容: | |