پردازنده برداری

یک پَردازنده بُرداری، یا آرایه‌پرداز، رایانهٔ خاصی است با چند پردازنده برای پردازش موازی تعداد زیادی از آرایه‌ها.^[۱]

آرایه‌پرداز در واقع یک واحد پردازش مرکزی (CPU) می‌باشد که یک مجموعه دستورالعمل‌هایی را اجرا می‌کند که روی آرایه تک بعدی از داده، که همان بردار است، عمل می‌کند. این درست مقابل پردازنده‌های عددی قرار می‌گیرد که دستورالعمل‌های آن صرفاً روی یک تکه داده عمل می‌کند. اکثر پردازنده‌ها، پردازنده‌های عددی می‌باشند.

پردازنده‌های برداری در دهه ۱۹۷۰ مورد بحث واقع شدند و پایه و اساس اکثر ابررایانه‌های دهه ۱۹۸۰ تا ۱۹۹۰ را تشکیل دادند. پیشرفتهای پردازنده‌های عددی، مخصوصاً ریزپردازنده‌ها، باعث کاهش به کار گیری پردازنه‌های برداری سنتی در ابررایانه‌ها و همچنین کاهش استفاده از تکنیک‌های پردازش برداری در پردازنده‌ها در اوایل دهه ۱۹۹۰ شد. امروزه اکثر پردازنده‌ها از یک معماری استفاده می‌کنند که در آن دستورالعمل‌هایی برای پردازش برداری روی چندین تکه داده، را به‌طور برجسته نشان می‌دهد. این دستورالعمل‌ها را SIMD (تک دستور، چند داده) می‌شناسند. از مثال‌های مشهود اینگونه دستورالعمل‌ها می‌توان به MMX, SSE و AltiVec اشاره کرد. نمونه‌هایی از استفاده از تکنیک پردازش برداری را می‌توان در کنسول‌های بازی و شتاب دهنده گرافیکی نیز پیدا کرد. در سال ۲۰۰۰، IBM، توشیبا و سونی با همکاری هم موفق به تولید یک پردازنده سلولی (نوعی ریزپردازنده) شدند، این پردازنه سلولی شامل یک پردازنده عددی و هشت پردازنده برداری بود که در پلی استیشن ۳ مورد استفاده قرار گرفت.

در برخی از طراحی‌های پردازنده‌ها، دستورالعمل‌های چندگانه روی چندین تکه داده عمل می‌کنند که آن‌ها را به عنوان MIMD (چند دستوره، چند داده) می‌شناسیم. اینگونه طراحی‌ها مختص کاربردهای ویژه هستند و به‌طور عادی برای استفاده‌های متداول کاربرد ندارند.

تاریخچه ویرایش

پردازش برداری اولین بار در اوایل دهه ۱۹۶۰ توسط وستینگهاوس، در پروژه Solomon مورد توجه قرار گرفت و توسعه یافت. هدف این پروژه افزایش چشمگیر سرعت محاسبات ریاضی، با استفاده همزمان از تعداد زیادی عملیات ساده ریاضی، زیر نظر یک پردازنده بود. به این صورت که پردازنده در هر کلاک یک سیگنال مشترکی را برای تمامی واحدهای محاسبه و منطق (ALUها) می‌فرستاد. در حالی که هر یک از این واحدهای محاسبه ورودی‌های مجزایی داشتند، یک کار مشترک روی آن ورودی‌ها انجام می‌دادند. این روش به ماشین‌های Solomon این قابلیت را می‌داد که یک الگوریتم را روی انبوهی از داده‌ها (که از آرایه‌ها تغذیه می‌شدند) اجرا نماید.
در سال ۱۹۶۲، وستینگهاوس پروژه را لغو کرد ولی دوباره در دانشگاه ایلینوی تحت عنوان ILLIAC IV از سر گرفته شد. در طراحی ابتدایی آن، این ماشین به ۲۵۶ واحد محاسبه و منطق مجهز بود، درحالی که وقتی در سال ۱۹۷۲ عرضه شد تنها ۶۴ واحد محاسبه و منطق داشت و فقط می‌توانست ۱۰۰ تا ۱۵۰ میلیون فلاپس کار کند. برای کار با اطلاعات فشرده و حجیم، مانند دینامیک محاسباتی سیالات، همین ماشین معیوب (به دلیل اینکه نتوانستند تعداد ۲۵۶ واحد محاسبه و منطق ایجاد کنند) سریعترین ماشین دنیا بود.
تکنیک پردازش برداری تقریباً در تمام طراحی‌های پردازنده‌های مدرن وجود دارند، اگرچه معمولاً با نام SIMD می‌شناسند. در اینگونه پردازنده‌ها، واحد پردازش برداری در کنار واحد پردازنده عددی کار می‌کند و برنامه‌هایی با آن بخش کار می‌کنند که واقعاً می‌دانند که این واحد حضور دارد.

جزئیات ویرایش

بیشتر پردازنده‌ها دستورالعملی دارند که بیان می‌کند «A را با B جمع کن و درون C بریز». مقادیر A, B و C (حداقل در تئوری) به ندرت می‌تواند داخل دستورالعمل باشند (چه به صورت صریح، چه رجیستر). در واقع داده به ندرت به‌طور خام فرستاده می‌شود، بلکه به صورت اشاره‌ای به آدرس حافظه که داده داخل آن است، می‌باشد. رمزگشایی^[۲] این نشانی و دریافت داده از حافظه،^[۳] خود زمان بر است. با افزایش سرعت پردازنده‌ها، این تأخیر حافظه تبدیل به مانعی بزرگ برای عملکرد سریع پردازنده محسوب می‌شود.

خط لوله ویرایش

برای کاهش زمان تأخیر، اغلب پردازنده‌های امروزی از فن خط لوله^[۴] استفاده می‌کنند. در این تکنیک دستورالعمل‌ها از چندین بخش عبور می‌کند تا نوبتش برای اجرا فرارسد. اولین بخش، آدرس را خوانده و کدگشایی می‌کند، بخش بعد مقادیر آدرسها را از حافظه می‌گیرد و بعدی کار محاسبه و اجرا را انجام می‌دهد. در تکنیک خط لوله، رمز کار در این است که شروع کدگشایی دستورالعمل بعدی، باید حتی قبل از خروج دستورالعمل قبلی از پردازنده صورت گیرد؛ در نتیجه واحد کدگشایی آدرس همواره مشغول به کار می‌باشد. هر دستورالعمل برای اجرای کامل به همان زمان قبلی (بدون خط لوله) نیاز دارد. زمانی که آن را تأخیر می‌نامیم؛ ولی پردازنده با خط لوله می‌تواند دسته‌ای از دستورالعملها را خیلی سریعتر انجام دهد.

پردازنده برداری ویرایش

پردازنده برداری یک قدم فراتر برمی‌دارد و به‌جای ایجاد خط لوله برای دستورالعمل‌ها، داده‌ها را نیز خط لوله می‌کند. دستورالعملهایی هستند که به‌جای اینکه بگویند «A را با B جمع کن»، می‌گوید «تمامی اعداد از اینجا تا آنجا را با تمامی اعداد از اینجا تا آنجا جمع کن». و به‌جای اینکه دستورالعمل‌ها را پشت سر هم رمزگشایی و داده‌های مربوط به آن‌ها را از حافظه دریافت کند، یک دستورالعمل را از حافظه می‌خواند و با فرض اینکه می‌داند که آدرس بعدی یکی بیشتر از آدرس فعلی است، دستورالعمل بعدی را رمزگشایی می‌کند. این عمل صرفه جویی چشمگیری در زمان رمزگشایی می‌کند. برای نشان دادن اینکه چه تفاوتی می‌کند، فرض کنید می‌خواهیم دو آرایه ۱۰ تایی از اعداد را با هم جمع کنیم. در حالت عادی نیاز به یک حلقه داریم که هر بار یک زوج از این دو آرایه را انتخاب می‌کند و سپس آن‌ها را با هم جمع می‌کند:

 execute this loop 10 times
 read the next instruction and decode it
 fetch this number
 fetch that number
 add them
 put the result here
 end loop

در حالی که در پردازش برداری اینگونه خواهد بود:

 read instruction and decode it
 fetch these 10 numbers
 fetch those 10 numbers
 add them
 put the results here

در پردازش برداری، اول اینکه فقط دو انتقال آدرس از پردازنده به حافظه داریم، همچنین در این حالت به‌جای اینکه ۱۰ مرتبه یک دستورالعمل را کدگشایی کند تنها یک بار این کار را انجام می‌دهد. همچنین کد مورد استفاده در پردازش برداری کوتاه‌تر است که این خود سبب کاهش حافظه مورد نیاز برای دستورالعمل‌های آن می‌باشد.

بررسی وابستگی بین این اعداد لازم نیست چون دستورالعمل برداری، چندین عمل غیر وابسته را معین می‌کند. این خود منطق کنترل را ساده می‌کند. مسئله زمانی جالب تر می‌شود که بتوان چند عمل را روی چند داده انجام داد. کد زیر را در نظر بگیرید که در آن می‌خواهیم دو گروه عدد را با هم جمع کنیم و سپس با گروه سوم ضرب کنیم. در این کد عمل دریافت دستورالعمل فقط یک بار انجام می‌شود (بر خلاف حالت عادی که ۲*۱۰=۲۰) و این دو عمل فقط در یک دستورالعمل انجام می‌پذیرد:

 read instruction and decode it
 fetch these 10 numbers
 fetch those 10 numbers
 fetch another 10 numbers
 add and multiply them
 put the results here

عملیات ریاضی بالا خیلی سریعتر انجام خواهند شد چرا که دیگر تأخیر در دریافت و کدگشایی دستورالعمل بعدی را نداریم (فقط یک دستورالعمل داریم).

جنبه منفی ویرایش

باید توجه داشت که تمام مسائل را نمی‌توان با استفاده از این روش بهبود داد. پیاده‌سازی این دستورالعمل‌ها در پردازنده خود پیچیدگی زیادی را بر هسته پردازنده تحمیل می‌کند. این پیچیدگی‌ها معمولاً سبب می‌شوند که دستورالعمل‌های دیگر دیرتر اجرا شوند. به عنوان مثال زمانی که بخواهیم فقط دو عدد تنها را با هم جمع کنیم. همچنین دستورالعمل‌های پیچیده سبب کندی قسمت رمزگشایی و پیچیدگی بیشتر آن خواهد شد، که این خود باعث کندی اجرای دستورهای عادی می‌شود.

جنبه مثبت و کاربرد ویرایش

در حقیقت، پردازش برداری برای انجام عملیات روی انبوهی از داده‌ها بهترین کارایی را دارند. برای همین است که این پردازنده‌ها اصولاً در ابر رایانه‌ها استفاده می‌شوند. این ابر رایانه‌ها عموماً برای پیش‌بینی وضعیت هوا و آزمایشگاه‌های فیزیک استفاده می‌شوند که انبوهی از داده را به چالش می‌گیرد.

مثال دنیای واقعی: دستورالعملهای برداری در معماری x86 ویرایش

کد زیر مثال حقیقی معماری x86 با دستورالعمل‌های برداری می‌باشد. در اینجا از دو آرایه اعداد اعشاری استفاده می‌کند.

//SSE simd function for vectorized multiplication of 2 arrays with single-precision floatingpoint numbers
//1st param pointer on source/destination array, 2nd param 2. source array, 3rd param number of floats per array
 void mul_asm(float* out, float* in, unsigned int leng)
 {    unsigned int count, rest;

      //compute if array is big enough for vector operation
      rest  = (leng*4)%16;
      count = (leng*4)-rest;

     // vectorized part; 4 floats per loop iteration
      if (count>0){
      __asm __volatile__  (".intel_syntax noprefix\n\t"
      "loop:                 \n\t"
      "movups xmm0, [ebx+ecx] ;loads 4 floats in first register (xmm0)\n\t"
      "movups xmm1, [eax+ecx] ;loads 4 floats in second register (xmm1)\n\t"
      "mulps xmm0,xmm1       ;multiplies both vector registers\n\t"
      "movups [eax+ecx],xmm0 ;write back the result to memory\n\t"
      "sub ecx,16            ;increase address pointer by 4 floats\n\t"
      "jnz loop              \n\t"
      ".att_syntax prefix    \n\t"
        : : "a" (out), "b" (in), "c"(count), "d"(rest): "xmm0","xmm1");
      }

      // scalar part; 1 float per loop iteration
      if (rest!=0)
      {
       __asm __volatile__  (".intel_syntax noprefix\n\t"
      "add eax,ecx           \n\t"
      "add ebx,ecx           \n\t"

      "rest:                 \n\t"
      "movss xmm0, [ebx+edx]  ;load 1 float in first register (xmm0)\n\t"
      "movss xmm1, [eax+edx]  ;load 1 float in second register (xmm1)\n\t"
      "mulss xmm0,xmm1       ;multiplies both scalar parts of registers\n\t"
      "movss [eax+edx],xmm0  ;write back the result\n\t"
      "sub edx,4             \n\t"
      "jnz rest              \n\t"
      ".att_syntax prefix    \n\t"
        : : "a" (out), "b" (in), "c"(count), "d"(rest): "xmm0","xmm1");
      }
      return;
 }

منابع ویرایش

↑ توضیح واژه آرایه‌پرداز در واژه‌های مصوب فرهنگستان زبان فارسی.
↑ decode
↑ fetch
↑ pipeline

مشارکت‌کنندگان ویکی‌پدیا. «Vector_processor». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۲۰۱۱.

[1] توضیح واژه آرایه‌پرداز در واژه‌های مصوب فرهنگستان زبان فارسی.

[2] ↑ decode

[3] tch

[4] ↑ pipeline

[۱]

[۲]

[۳]

[۴]