AI软件 | 北京麟卓信息科技有限公司

AI软件

将CUDA生态应用（目标识别、语音识别等）迁移到国产AI芯片平台。

半自动优化

快速支持

供应链安全

成本控制

芯片架构特性分析

设计特定代码，间接测试芯片架构中的诸如寄存器数量、访存带宽、片上缓存带宽等潜在特性，为开展优化奠定基础。

内存访问优化

综合采用合并内存访问、共享内存（Shared Memory）缓存、内存对齐与预取等技术，优化内存访问性能。

计算并行度优化

综合采用数据分块与复用、最大化占用率、向量指令优化等技术，提高计算单元的利用率。

流水并行优化

多个任务之间，交错执行访存和计算，减少任务执行过程中的“气泡”，缩短整体任务响应时间。

关键算子的高性能优化

2025年9月

结合国产SoC瑞芯微3588上的mali GPU和多核arm CPU的系统架构和性能特性，对信号处理领域的快速傅里叶变换FFT算子进行了极致优化，相较于知名开源项目实现了性能翻倍。

复杂领域应用迁移

2025年9月

基于多摄像头的环视拼接CUDA开源项目，迁移到基于OpenCL的国产SoC瑞芯微3588上，可满足终端典型业务需求。

通用算子迁移到国产GPU

2025年9月

以OpenCL为通用计算接口，实现了常用数学计算、图像处理、深度学习等算子，并成功迁移到景嘉微、凌久微、摩尔线程等国产GPU。

大模型算子迁移到国产化NPU

2025年9月

将复杂的Attention前向后向算子等，成功迁移到华为昇腾、寒武纪思元、百度昆仑芯等国产AI芯片上。

某安防企业

旧版CUDA视频分析流直接迁移到国产芯片，监控大屏切换时竟无一丝卡顿感。

某语音实验室

二十年积累的CUDA语音模型在国产NPU上原样跑通，识别响应如初遇般灵敏。

某工业检测厂商

产线CUDA瑕疵检测算法平移后，老师傅操作界面流畅得看不出换了“芯”。

某医疗影像机构

DICOM预处理CUDA模块国产化迁移完成时，医生晨会调片全程未察觉平台变更。

某边缘计算公司

野外设备的CUDA推理任务轻量化迁移，故障诊断效率比预想高出三倍。

某高校科研团队

复杂CUDA仿真代码在国产芯片寄存器优化后，实验成功率飙升。

某自动驾驶方案商

环视拼接CUDA项目迁移到国产SoC时，鸟瞰图生成依旧行云流水。

某云计算服务商

冷门CUDA算法迁移响应神速，小众需求也能享受VIP级护航。

某教育机器人公司

情感交互CUDA模块在国产芯片运行后，儿童互动自然度超乎团队预期。

某无人机厂商

CUDA避障算法跨平台迁移完成，急转弯测试时飞控手感稳如磐石。

某金融科技企业

风控模型CUDA算子迁移全程静默完成，交易峰值时段零业务波动。

某军工研究所

涉密CUDA应用在国产芯片无缝承接，断供风险下的窒息感终于消散。