이번 AMD의 불도저를 간단하게 정리하자면..

AMD가 투반이후로 코어의 모듈화라는 개념을 구축하고

이를 설계하여 구현해낸게

자카테와 라노 그리고 불도저 3가지입니다.

자카테는 가장먼저 출시되어 E350, E360(싱글버전 E120등)

itx시스템과 넷북으로 인기를 끌고있습니다.

라노의 경우 기존 프로푸스/데네브라인업을 대체하며

고성능 GPU를 내장해서 엔트리레벨의 데스크탑을 공략하였는데,

가격도 생각보다 낮지 않고

샌드브릿지 듀얼코어의 공세에 크게 밀리고있습니다.

발열하고 소비전력도 그렇게 유리하진 않습니다..

마지막 남은게 불도저.. 정확히 지금 출시된건 잠베지인데..

라노부터 코어를 대형화하면서 문제가 살짝 살짝 드러나던게

불도저에서는 그냥 모조리 터져버렸다고 보면 됩니다.

1모듈 2코어라는 개념은

1개의 모듈에 FPU를 공유 정수연산 유닛은 따로 갖게해서

인텔의 HT보다 향상된 2개의 쓰레드를 갖게됩니다.

이것을 2코어로 보느냐 1모듈로 보느냐 관점이 다르겠지만

개념만 놓고보자면 정수연산 유닛은 따로갖고 FPU를 공유하기때문에

상황에 따라서는 HT보다도 더 좋은 성능을 내줘야 합니다.

그러나 딜레마가 생긴거죠..

FPU를 강화하였어도 결국 2개의 코어 공유를 하고

정수연산 유닛을 따로 갖지만 결국은 2개의 코어이기때문에

1개의 모듈은 1개의 코어보다 커집니다. 2개의 코어보다 작아지면 그만이겠지만

안타깝게도 현재의 불도저는 다이사이즈가 엄청나게 큽니다.

문제가 생긴건 AMD의 설계방향 미스죠..

불도져의 간단 설명을 보자면 1개의 모듈이 2개의 코어화가 되면 아무래도 2개의 native코어보다는

성능이 후달릴수 밖에 없습니다.

만약 2모듈 4코어를 만든다면 native 4코어보다는 좀 후달리다는 거죠.

그래서 AMD는 파이프라인 stage를 페넘2의 14개에서 18개로 늘리는등

클럭을 많이 높이는 방식으로 설계를 했습니다.

32nm공정을 등에엎고 설계까지 그쪽으로 맞춰서 클럭을 높임으로써 코어당 성능을 높이겠다는 거고

어느정도 마케팅효과도 거두겠다는 거죠.

안타깝게도 이정책은 이미 인텔이 넷버스트에서(파이프라인을 31단계까지 팠습니다.) 실패를 거둔건데

그걸 그대로 담습하고

보기좋게 깨졌습니다.

이유는 분기예측을 더럽게 못합니다.

파이프라인이 깊어질수록 분기예측이 어려워지는데

겨우 18단계 밖에 안대는 파이프라인에서 분기예측을 못해서 성능이 개 안습이 나온겁니다.

인텔은 참고로 31단계의 파이프라인 역시 분기예측이 빡쳐서 결국 실패한거죠..

고클럭의 딜레마에 빠져서 클럭이 올라가도 성능이 올라가지않는..

그래서 AMD가 선택한게 캐시빨로 밀어부치자..

해서 L2를 모듈당 2MB를, L3를 모듈당 2MB를 줬습니다.

캐시가 많으면 성능에 이득일수도 있지만 감당못할 수준의, 그리고 성능이 떨어지는

캐시는 오히려 레이턴시를 늦추고 다이사이즈만 키우는 모순을 낳습니다.

인텔과 AMD의 캐시는 약간 차이가 있는데

인텔이 include라면 AMD는 exclude죠.

인텔은 상위 캐시의 내용이 하위캐시에도 저장되는 형태라서

L3캐시가 8MB인 2600k는 전체 캐시에 저장가능한 양도 8MB밖에 안댑니다.

AMD는 반대로 상위캐시나용과 하위캐시 내용이 겹치지 않습니다.

그래서 투반의 캐시를 512KB*6+6MB=9MB로 표현합니다.

즉, 불도저는 4모듈 8코어 전체의 캐시가 16MB를 넘는다는 말이며

이는 다이전체의 절반을 차지합니다.

이 뭐 병X도 아니고.....;;

AMD의 exclude방식의 캐시의 목적은 사실 같은 사이즈의 캐시를 갖고도

더 많은 양을 사용할수 있게하는.. 그런 목적인데 반대로 자리만 차지하게 된거죠..

간단하게 토스트에 잼발라 먹는 수준에 테이블은 20명은 앉아서 먹는 호화로운...

테이블만 호화로운...-ㅅ-...

큰 틀의 모듈 구조는 하위모델들이 모두 성공하듯 그 개념이 나쁜게 아닙니다.

문제는 그걸 받쳐 주는 설계가 미X거죠...

코어당 성능이 후달리니 클럭을 올려야지 근데 올려도 성능이 올라가질않아..(분기예측 X신)

그럼 캐시올려서 성능올려야지~ 근데 성능이 올라가지도 않고 오히려 다이사이즈만 커지고

캐시능력치는 못 살리고..

다이사이즈가 크면 불량률이 커져서 생산량도 떨어지고..

밥은 밥대로 처먹고...(크기가 커지니 누설전류가 많을수밖에..)

열은 열대로 나고

성능은 안나와..

가격도 싸게는 못나와..

뭐 이런거...

리비전 몇번했다고 해결 될 일이 아니고..

시급한건 자리만 차지하는 잉여 캐시부터 줄여야죠..

라노 2모듈 4코어가 2.9Ghz로 i3 2100 3.1Ghz와 비슷한 성능을 냈습니다.

아주 가능성 없는 아키텍처는 아닙니다. 라노는 L3캐시가 없거든요..

차라리 라노를 기반으로 4모듈 8코어를 만들었으면 문제 없겠는데..

AMD는 예전부터 native에 너무 목숨걸어서.. 페넘1때도 그렇고..

native아니어도 성능만 나오면 장땡인데...

그리고 결정적으로 투반이 32nm로 찍어낸다면 어떻게 될까

아마 불도저한테 밀리진 않을껍니다.. 이시점에서 불도저 아키텍처는 퇴보해버린거죠..