nVIdia 케플러 GK104의 CUDA성능은?

techpowerup.com 에 GK104의 다이어그램이 올라왔는데요.
약간 실망한 부분도 있고 해서 다이어그램에 대해서 제 생각을 좀 적어봤습니다.
GK104(케플러)의 다이어그램(이미지 출처 http://www.techpower.com )
4e49585a9c565e4d7b4b5e00960a9ee7
1ac1a472c68eab7154a77e291f1d73b3

GF110(페르미)의 다이어그램

f7051088d68489a86fd9e596ffa6b5d5

우선 techpowerup.com에 올라온 기사에 오자가 있는것 같습니다.
SM이 16개로 나와있습니다. sm은 다이어그램상으로도 8개이고 8*192= 1536인데요. 16*192 = 3072니까 sm 개수는 8개가 맞는것 같습니다.
다이어그램으로 보면 그냥 딱 게임에 맞췄다고 보는것이 맞을것 같습니다. GPGPU는 아마도 페르미 아키텍쳐와 비슷한 수준일걸로 추측합니다. SM개수가 GTX580의 16개의 절반밖에 안됩니다.
GPGPU에선 각각 독립적으로 실행 가능한 유닛은 SM단위로 움직이거든요. 다만 SM2.1모델부터 SM한개당 여러개의 워프를 실행할 수 있도록 수정되었기 때문에 성능이 생각보다는 잘 나올수도 있다고 봅니다. SM의 워프스케쥴러가 4개인게 약간 특이한 점인데 SM2.0(페르미)에서 SM당 실제로 작동하는 워프가 1개였던것에 반해 SM당 워프를 4개 동시에 작동할 수 있다는 것으로 보여집니다.
수치상으로는 CUDA성능도 2배 정도가 가능할지도 모른다는 얘기네요.
그런데 또 SM당 붙어있는 64KB캐쉬가 문제입니다. 64KB캐쉬는 16KB의 L1캐쉬와 48KB의 Shared Memory로 사용하게 되는데 SM당 캐쉬사이즈가 이전과 똑같기 때문에 SM 개수가 절반으로 줄었다는 것은 총 캐쉬사이즈가 GTX580에 비해 절반으로 줄은것과 같습니다.
SM당 작동하는 워프수를 따져보면
GTX580-SM당 워프 1개 * 16 = 16개 < GTX680- SM당 워프4 * 8 = 32개
SM의 총 캐쉬 사이즈
GTX580 – 1024KB > GTX680 – 512KB
CUDA성능은 기존과 비슷하거나 1.5배정도 향상되지 않을까 추측해봅니다.
다소 실망. 그냥 케플러 무리해서 사느니 GTX580 중고를 사는게 낫지 않을까 싶군요.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중