日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

C与CUDA混合编程的配置问题

發布時間:2025/3/15 编程问答 13 豆豆
生活随笔 收集整理的這篇文章主要介紹了 C与CUDA混合编程的配置问题 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

C與CUDA混合編程的配置問題

526人閱讀 評論(2) 收藏 舉報 分類: CUDA(6)

目錄(?)[+]

原文: http://blog.csdn.net/u012234115/article/details/34860273


在做項目集成的時候需要用到cpp和cuda文件聯調,自己摸索了兩種方式實現cpp和cu文件混合編譯。

本文環境:

  • windows7 64位
  • VS2010
  • CUDA5.5
  • 英偉達顯卡Tesla C1060

前言

裝好CUDA 5.5 sdk后,默認會自動添加好系統環境變量。


因此不需要額外配置,不過為了保險起見,可以選擇性地添加以下環境變量:
CUDA_BIN_PATH  %CUDA_PATH%\bin CUDA_LIB_PATH  %CUDA_PATH%\lib\Win32 CUDA_SDK_BIN  %CUDA_SDK_PATH%\bin\Win32 CUDA_SDK_LIB  %CUDA_SDK_PATH%\common\lib\Win32 CUDA_SDK_PATH  C:\cuda\cudasdk\common
這時可以打開CUDA自帶的sample運行一下,運行能通過才可以繼續下面的內容————cpp和cuda聯調。

方法一:先建立cuda工程,再添加cpp文件

1.打開vs2010,新建一個cuda項目,名稱CudaCpp。




2.cuda默認建立的工程是如下,實現了兩個一維向量的并行相加。kernel函數和執行函數還有main函數全都寫在了一個cu文件里。




3.接下來在工程里添加一個空的cpp文件。將原來cu文件里main函數里的內容剪切到cpp文件main函數里。

為了讓cpp能夠調用cu文件里面的函數,在addWithCuda函數前加上extern "C"?關鍵字 ?(注意C大寫,為什么addKernel不用加呢?因為cpp里面直接調用的是addWithCuda)




4.在cpp里也要加上addWithCuda函數的完整前向聲明。下圖就是工程的完整結構




5.可以在cpp里的main函數return之間加入getchar()防止運行后一閃就退出,加上system("pause")或者直接ctrl+F5也行。

運行結果:




下面貼出CudaCpp項目代碼。

kernel.cu

[plain]?view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • ??
  • #include?<stdio.h>??
  • ??
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • ????c[i]?=?a[i]?+?b[i];??
  • }??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • extern?"C"??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??
  • ????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);??
  • ??
  • ????//?Check?for?any?errors?launching?the?kernel??
  • ????cudaStatus?=?cudaGetLastError();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"addKernel?launch?failed:?%s\n",?cudaGetErrorString(cudaStatus));??
  • ????????goto?Error;??
  • ????}??
  • ??????
  • ????//?cudaDeviceSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaDeviceSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaDeviceSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • Error:??
  • ????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??
  • ??????
  • ????return?cudaStatus;??
  • }??
  • main.cpp

    [cpp]?view plaincopy
  • #include?<stdio.h>??
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • ??
  • extern?"C"??
  • ????cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size);??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ??
  • ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",??
  • ????????c[0],?c[1],?c[2],?c[3],?c[4]);??
  • ????printf("cuda工程中調用cpp成功!\n");??
  • ??
  • ????//?cudaDeviceReset?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaDeviceReset();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaDeviceReset?failed!");??
  • ????????return?1;??
  • ????}??
  • ????getchar();?//here?we?want?the?console?to?hold?for?a?while??
  • ????return?0;??
  • }??

  • 方法二:先建立cpp工程,再添加cu文件

    方法一由于是cuda工程是自動建立的,所以比較簡單,不需要多少額外的配置。而在cpp工程里面添加cu就要復雜一些。為了簡單起見,這里采用console程序講解,至于MFC或者Direct3D程序同理。


    1.建立一個空的win32控制臺工程,名稱CppCuda。



    2.然后右鍵工程-->添加一個cu文件




    3.將方法一中cu和cpp文件的代碼分別拷貝到這個工程里來(做了少許修改,extern "C"關鍵字和某些頭文件不要忘了加),工程結構如圖:




    這個時候編譯是通不過的,需要作一些配置。


    4.關鍵的一步,右鍵工程-->生成自定義 ,將對話框中CUDA5.5前面的勾打上。




    這時點擊 工程-->屬性,會發現多了CUDA鏈接器這一項。




    5.關鍵的一步,右鍵kernel.cu文件-->屬性,在 常規-->項類型 里面選擇CUDA C/C++(由于cu文件是由nvcc編譯的,這里要修改編譯鏈接屬性)




    6.工程-->屬性-->鏈接器-->附加依賴項,加入cudart.lib




    7.工具-->選項-->文本編輯器-->文件擴展名 添加cu \cuh兩個文件擴展名




    8.至此配置成功。運行一下:




    9.為了更加確信cuda中的函數確實被調用,在main.cpp里面調用cuda函數的地方加入了一個斷點。




    單步執行一下。




    可以看到程序跳到了cu文件里去執行了,說明cpp調用cuda函數成功。




    貼上代碼(其實跟方式一基本一樣,沒怎么改),工程CppCuda

    kernel.cu

    [plain]?view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • ??
  • #include?<stdio.h>??
  • ??
  • //cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size);??
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • ????c[i]?=?a[i]?+?b[i];??
  • }??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • extern?"C"??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??
  • ????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);??
  • ??
  • ????//?Check?for?any?errors?launching?the?kernel??
  • ????cudaStatus?=?cudaGetLastError();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"addKernel?launch?failed:?%s\n",?cudaGetErrorString(cudaStatus));??
  • ????????goto?Error;??
  • ????}??
  • ??????
  • ????//?cudaDeviceSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaDeviceSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaDeviceSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • Error:??
  • ????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??
  • ??????
  • ????return?cudaStatus;??
  • }??
  • main.cpp

    [cpp]?view plaincopy
  • #include?<iostream>??
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • using?namespace?std;??
  • ??
  • extern?"C"??
  • ????cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?unsigned?int?size);??
  • int?main(int?argc,char?**argv)??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ??
  • ????cout<<"{1,2,3,4,5}?+?{10,20,30,40,50}?=?{"<<c[0]<<','<<c[1]<<','<<c[2]<<','<<c[3]<<'}'<<endl;??
  • ????printf("cpp工程中調用cu成功!\n");??
  • ??
  • ????//?cudaDeviceReset?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaDeviceReset();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaDeviceReset?failed!");??
  • ????????return?1;??
  • ????}??
  • ????system("pause");?//here?we?want?the?console?to?hold?for?a?while??
  • ????return?0;??
  • }??
  • 注意有時候編譯出問題,把??"device_launch_parameters.h"?這個頭文件去掉就好了(去掉之后就不能調里面的函數或變量了),至于為什么,還不是很清楚。

    總結

    以上是生活随笔為你收集整理的C与CUDA混合编程的配置问题的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。