Posts Tagged ‘ CUDA

NVIDIA CUDA Programming Guide 编程手册3.0 简体中文版下载

在今天的时候,ITPUB把CUDA Programming Guide 编程指南 3.0的中文版本发出来了.

译者是来自NVIDIA的风辰,此前只有CUDA Programming Guide 2.0才有中文译本.

貌似最近开勇低调了好多.

由于是付费主题,而且是ITPUB首发,我也不好转别人的劳动成果,需要的同学来这里购买主题然后下载吧,只需要10个PUB的虚拟货币即可(大概每个回帖可以得到两个PUB).

http://cuda.itpub.net/thread-1281433-1-1.html

CUDA Tookit & SDK 3.0正式发布

还有四天,Fermi GPU就要正式发布了,前些天,NVIDIA终于正式发布了Beta已久的CUDA Tookit & SDK 3.0版本,同时带有CUDA Programming Guide 3.0.

此次架构变化可谓相当大,CUDA Programming Guide 3.0里面也有很多让人耳目一新的东西.

让我们来看看具体变化:

Release Highlights

  • Support for the new Fermi architecture, with:
    • Native 64-bit GPU support
    • Multiple Copy Engine support
    • ECC reporting
    • Concurrent Kernel Execution
    • Fermi HW debugging support in cuda-gdb
    • Fermi HW profiling support for CUDA C and OpenCL in Visual Profiler
  • C++ Class Inheritance and Template Inheritance support for increased programmer productivity
  • A new unified interoperability API for Direct3D and OpenGL, with support for:
    • OpenGL texture interop
    • Direct3D 11 interop support
  • CUDA Driver / Runtime Buffer Interoperability, which allows applications using the CUDA Driver API to also use libraries implemented using the CUDA C Runtime such as CUFFT and CUBLAS. Read more

谈GPGPU和CUDA技术

这篇档是去年6月份就写好的了,现在发过来,当时的看法以现在的眼光来看,还是显得稚嫩,当然我现在也很稚嫩,如有错误请多多指正.
;-)

毫无疑问 CUDA或者GPGPU是带给业界的一次计算的革命.
非常出色的并行计算能力,这是带给我们最明显的特点.

当然,请不要混淆概念,目前的GPU架构来说是不可能取代CPU的.
CUDA或者GPGPU来说不是全部.

并不是任何情况都适合GPGPU或者CUDA,在串行非常多的情况下,是不适合用CUDA来做的.
CUDA只能适合高度并行的地方,并且对数据精度要求不高的地方.
目前CUDA的环境来说,只有GT200芯片才能支持double数据类型,其他所有芯片G9X和G8X系列都不支持double数据类型,仍然在32 位,这对一些高精度的数据类型来说是一个很难办的事情,而且GT200芯片对于double的运算性能非常差(64bit运算单元在每个SM中只有一个, 因此运算速度只有32bit数据的八分之一到十二分之一左右.),不过NVIDIA已经在GT300中大幅加强了双精度的计算性能.
Read more

在OpenGPU组织上面关于我的文章”由IBM停止Cell研发而想到的异构计算与CUDA GPGPU”的讨论.

文章被转载到了OpenGPU.org组织上面去,里面有很多高手对偶的这篇档案展开了讨论,无奈偶才疏学浅,不好发表什么,于是就默默的看着他们的言论学习强大.

现在整理一下他们的回帖,也是相当棒的资料和经验,让我受益匪浅.

原文地址:http://www.ispinel.com/2010/01/27/163

讨论内容:

qiaojie:我相信异构平台会是未来并行计算的主流,不过感觉Cell的Local Memory是个比较失败的设计,直接导致了编程困难从而导致最终被抛弃,如果把Local Memory变成cache的话编程就简单多了。

cyj:我对GPGPU只有一知半解的理解,但是根据我的分析来看,CUDA中正是因为有的Shared Memory才能或得几十倍于CPU的加速比……,不知道这是不是也算作失败的设计?

qiaojie:其实NV也知道ShareMemory只是过渡方案,所以在设计Fermi的时候做了改进,可以让ShareMemory配置成Cache。Larrabee的话就更是直接的支持统一内存空间了,从编程角度上来说,我是更青睐Larrabee的,不过可惜Larrabee难产了。

Read more

CUDA各硬体计算能力的区别

20 二月 2010

今天看到有人在一个硬体论坛问起CUDA的计算能力1.0,1.1,1.2和1.3版本的区别.

现在做个小小的解释.

首先说明,CUDA的硬体计算能力是不可以通过软体升级来升级的,就像DirectX的版本支持一样,但是同样也可以像DirectX一样通过软体 模拟(EMU模式),不过性能暴降,而且准确性难以保证.

CUDA硬体的计算能力最先正式发布的是1.0版本,是搭载G80 GPU面世的,目前最新的是1.3版本.

其也不同于CUDA Tookit和SDK的软体版本,曾经看到一篇驱动之家的Fermi架构分析里面居然还分不清CUDA的软体和硬体计算能力版本是完全不一样的东西,真是 贻笑大方了.

CUDA Tookit和SDK是给开发人员的软体,目前官方最新版本是2.3,当然3.0版本的Beta早已面世.

让我们看看硬体计算能力版本的规格.

来自CUDA Programming Guide:

计算能力 1.0 的规范

每个块的最大线程数为 512;

一个线程块的 x、y 和 z 维的最大规格分别为 512、512 和 64;

Read more

NVIDIA CUDA Programming Guide 3.0发布.

20 二月 2010

今天打开NVIDIA的CUDA开发者网站,惊讶的发现CUDA Programming Guide 3.0的链接已经挂在上面了,马上下载下来.

编程手册的封面上面写着日期是2/09/2010,看来是新鲜出炉的东西.

CUDA Programming Guide 3.0的发布自然是面向NVIDIA即将发布的Fermi GPU,Fermi在CUDA方面架构变化还是比较大的,因此这次的编程手册的新版本应该改动不小.

附下载链接:

http://developer.download.nvidia.com/compute/cuda/3_0/toolkit/docs/NVIDIA_CUDA_ProgrammingGuide_3.0.pdf

此外NVIDIA还发布了一个Fermi  Compatibility Guide for CUDA Applications  的文档,一并附上下载地址:

http://developer.download.nvidia.com/compute/cuda/3_0/docs/NVIDIA_FermiCompatibilityGuide.pdf

return top