当期目录

    2022年 第43卷 第4期    刊出日期:2022-12-14
    上一期   
    青年评述
    高性能计算中的性能工程问题
    谭光明
    2022, 43(4):  343-362.  DOI: 10.12288/szjs.s2022-0842
    摘要 ( 67 )   PDF (1343KB) ( 129 )  
    参考文献 | 相关文章 | 计量指标
    高性能计算的核心目标是追求极致的计算性能.本文对高性能计算在硬件工程、软件工程、性能工程三个阶段需要攻克的核心技术难题进行了总结,并且重点针对E级计算发展趋势下实现复杂应用负载与多样异构系统之间高效适配存在的性能可移植挑战,阐述了性能工程的相关概念和研究意义,最后讨论了当前性能工程涉及的三大关键技术:模式驱动的性能建模方法、输入感知的智能调优引擎、统一抽象的软硬件代码生成.
    论文
    一类基于带约束能量最小基函数的数值均匀化方法的二维数值实现
    刘新亮, 张镭, 朱圣鑫
    2022, 43(4):  363-379.  DOI: 10.12288/szjs.s2021-0768
    摘要 ( 37 )   PDF (903KB) ( 28 )  
    参考文献 | 相关文章 | 计量指标
    近年来,多尺度偏微分方程的数值均匀化方法得到了快速发展.本文以Rough Polyharmonic Splines (RPS)及其推广形式Generalized Rough Polyharmonic Splines (GRPS)为例,介绍了一类基于带约束能量最小基函数的数值均匀化方法的数学形式,并详细给出了基于粗细两网格,且具有拟最优计算量和收敛性的局部化基函数的数值实现方法.我们对具有多尺度系数的二维椭圆方程验证了这类方法的收敛性,此类方法在简单修改后还可用于多尺度Helmholtz方程等其他问题.
    基于GPU架构的两层并行块Jacobi SVD算法
    黄荣锋, 赵永华, 于天禹, 刘世芳
    2022, 43(4):  380-399.  DOI: 10.12288/szjs.s2021-0760
    摘要 ( 22 )   PDF (1170KB) ( 24 )  
    参考文献 | 相关文章 | 计量指标
    SVD(singular value decomposition)广泛应用于图像处理、人脸识别、信号降噪等领域.本文基于单边Jacobi SVD算法给出了块间和块内两层并行的块Jacobi SVD GPU算法.为了更好地利用GPU的共享内存,块间并行通过存储矩阵列块之间的内积解决了共享内存不足的问题.此外,块间并行还通过矩阵块操作技术提高数据利用率及数据预取技术实现数据访问和数据计算的重叠.块内并行通过直接更新矩阵列块之间的内积替代了更新矩阵列块以及更新矩阵列块之后计算矩阵列块之间内积的归约操作,增加了GPU线程的利用率.另一方面,块内并行将需要多次访问的数据存储于共享内存或寄存器,减少了对全局内存的访问从而提升了算法实现性能.在NVIDIA Tesla V100 GPU上的数值实验结果表明,本文的算法较Cusolver库有1.8×倍的加速,较MAGMA库中最快的算法加速达2.5×倍.
    基于长短期记忆神经网络的非侵入式约化基方法在非线性波问题中的应用
    郑淑雯, 高振, 袁春鑫
    2022, 43(4):  400-414.  DOI: 10.12288/szjs.s2021-0762
    摘要 ( 28 )   PDF (2875KB) ( 19 )  
    参考文献 | 相关文章 | 计量指标
    在基于反向传播(Back Propagation BP)网络的非侵入式约化基方法(BP-RBM)的基础上非侵入式约化基方法(Reduced basis method RBM)引入了长短期记忆神经网络(Long Short-Term Memory LSTM)提出了基于LSTM网络的非侵入式约化基方法(LSTM-RBM).该网络在继承循环神经网络(Recurrent Neural Network RNN)的可记忆性参数共享性图灵完备性等特性的基础上同时解决了RNN在长时间序列训练过程中存在的梯度消失和梯度爆炸问题.LSTM-RBM解决了BP-RBM无法准确求解的具有复杂非线性特性的非线性波问题例如二维Navier-Stokes方程和海洋内孤立波问题.此外在求解一般的非线性波问题中该方法相比BP-RBM在处理由非线性性质产生的大梯度结构上更有优势.数值测试结果表明相比于BP-RBM该方法恢复的降阶解与高保真快照解的误差可以缩小10倍左右.
    求解散射问题快速多极算法截断误差的一种新的估计
    李瑞蓉, 孟文辉
    2022, 43(4):  415-424.  DOI: 10.12288/szjs.s2021-0769
    摘要 ( 23 )   PDF (407KB) ( 23 )  
    参考文献 | 相关文章 | 计量指标
    快速多极算法(FMM)是处理大规模多粒子系统的一种有效的快速算法.在应用快速多极算法求解散射问题时,相关的展开式和转换式都使用了Bessel函数的Graf加法定理.在实际计算中,算法的误差是通过截断Graf加法定理产生的.本文针对快速多极算法误差的特征,给出了Graf加法定理截断误差的一个新的估计,该结果比已有的结果形式更简单且逼近效果更好,这就使得本文的结果能够更好地应用于求解散射问题的快速多极算法中.数值实验验证了本文结果的有效性和精确性.
    非线性消去算法在跨音速全速势方程计算中的应用
    周佳敏, 刘璐璐, 余瀚
    2022, 43(4):  425-446.  DOI: 10.12288/szjs.s2021-0770
    摘要 ( 23 )   PDF (6930KB) ( 19 )  
    参考文献 | 相关文章 | 计量指标
    基于非线性消去技术,构造了跨音速全速势方程的并行非线性求解器.首先详细阐述了跨音速全速势方程及其有限差分格式.其次,借助非线性消去技术,通过隐式消去局部强非线性的方式,改善牛顿迭代法的全局收敛性质,从而在激波存在的情况下达到加速收敛的目的.最后,研究了马赫数、网格大小、处理器个数以及局部子问题求解精度等参数对算法收敛情况和总计算时间的影响.数值结果表明,提出的右侧非线性预条件算法在求解全速势方程时具有很好的鲁棒性和可扩展性.
    Krylov子空间法求解非对称代数Riccati方程
    杨玉凤, 郭晓霞
    2022, 43(4):  447-456.  DOI: 10.12288/szjs.s2021-0794
    摘要 ( 28 )   PDF (364KB) ( 40 )  
    参考文献 | 相关文章 | 计量指标
    文献[1]给出了求解对称代数Riccati方程的Krylov子空间迭代法.本文利用该思想,提出了求解非对称代数Riccati方程的Krylov子空间迭代法.通过Cayley变换,我们得到了该方法的一个非常简洁的迭代公式,该公式只涉及矩阵计算.利用该公式,收敛性证明也变得非常简单易懂.最后数值算例验证了算法的可行性和有效性.