Главная › Телефон › Как делают микропроцессоры. AMD Llano: последние соки Атлона

Как делают микропроцессоры. AMD Llano: последние соки Атлона

Расклад сил

Год назад мы уже рассказывали о новом в кратком обзоре « ». (Кстати, применять аббревиатуру APU мы тут не будем, используя более знакомый термин .) Рассматривать Llano отдельно от остальных двух новинок этого года от AMD было бы неверно, ибо компания весьма точно разделила потребителей на сегменты, покрыв новыми процессорами почти всё, что до 2011 г. было отдано на откуп Феномам, Атлонам и Семпронам. Главной идеей создания гибридных ЦП было помещение графического процессора (ГП) на кристалл центрального, названное маркетологами «слиянием» (Fusion). Ранее интегрированная графика у AMD существовала лишь в северном мосте чипсета (у Intel её в 2010 г. переместили в ЦП, но оставили отдельным , причём изготовленным по худшей ). А какая вообще графика требуется пользователям?

Простая: для интернета, офиса, фильмов и старых игр - только это до сих пор и могла обеспечить «интеграшка»;
Быстрая: в т. ч. для современных игр - такой уровень и сейчас под силу только отдельным видеокартам, цена которых чаще всего больше, чем у ЦП;
Средняя: в т. ч. для игр, но либо не самых современных, либо не с самыми крутыми настройками, а главное - в компактном и тихом корпусе и за весьма ограниченный бюджет.

Именно для таких среднячков и сделан Llano. Он точно не поставит рекорды ни в одной категории, которой обычно сравнивают процессоры - ни по скорости (причём и в графической, и в вычислительной частях), ни по экономии, ни по цене. Его цель - занять золотую середину между всеми крайностями. Хотя нельзя сказать, что новизны нет совсем: гибридный ЦП впервые позволил сделать систему одновременно компактную (даже северный мост не нужен), пригодную для большинства игр и доступную почти всем игрокам. Например, всё более популярный форм-фактор «всё-в-одном» (монитор и системный блок в одном корпусе) теперь получит достойную 3D-графику.

Помимо того, что хотят массы, AMD должна была учесть и собственные возможности, которые сильно рассеяны из-за внедрения в течение года трёх , причём каждая - по новому для фирмы (совершенно немыслимая для конкурента ситуация - с их известной стратегией «тик-так»). Поэтому в данном случае (из трёх) ради минимизации рисков и экономии денег и времени решили не делать новую -архитектуру, а в очередной (но последний) раз обновить и дополнить старую. Так получились K12, пришедшие на смену K10.

Впрочем, весь процессор мог «получиться» куда раньше. Дело в том, что впервые идея об APU была заявлена из уст представителей AMD ещё в 2006 г., почти одновременно с покупкой ATI. Уже через год планов было громадье: сначала готовилась интеграция двух кристаллов в корпусе (как сделала Intel), затем - на одном кристалле, но со слабым взаимодействием (видимо, с отдельным КП для графической памяти), потом - с разделяемыми ресурсами, и, наконец, с полным «сплавом» вычислительных блоков общего и графического назначений. Причём шаг №1 должен был произойти уже в 2008 или 2009 г. Ясно, что многое пошло не так, а сложная финансовая ситуация заставила AMD даже выделить производственные мощности в виде отдельной компании Global Foundries (GF). Потерянное время пришлось навёрстывать авралом, так что первый вышедший APU оказался сразу третьим шагом вышеозначенного плана.

Если кратко перечислить суть Llano, то получится вот что:

2–4 ядра K12, суть - улучшенные K10;
по 0,5 или 1 МБ на ядро, без ;
накристальный ГП класса HD 5000;
более скоростной , чем у K10, но лишённый за ненадобностью поддержки ;
контроллер шины PCIe 2.0, в т. ч. для подключения внешней видеокарты или двух;
более агрессивный авторазгон 2.0 (TC), но только для x86-ядер;
шин питания x86-ядер, ГП и блока UVD;
кристалл изготовлен по 32 нм технорме.

K10++ = K12

Интересно, что AMD ради высокой производительности GPGPU и некоторых других вычислений (в т. ч. перекодировании видео) сделала оптимизацию случая, когда графические и x86-ядра работают над общими данными - при этом их не требуется копировать из общей (когерентной) памяти в графическую и обратно. Интерфейс OpenCL даёт сразу несколько способов это сделать. Например, область памяти типа USWC (некэшируемая, упреждающая, со слиянием записей) обычно используется под кадровый буфер, но графические и x86-ядра могут получать к ней доступ поочерёдно. Также можно объявить некоторые страницы «фиксированными» (pinned), которых накладываются на непрерывно (для облегчения трансляции) - тогда любые ядра могут одновременно получать в них доступ, хотя для ГП так будет медленней.

Впрочем, эта оптимизация меркнет при рассмотрении пропусков разных видов обменов. На схемах видно, что максимум ПСП для одно- и многопоточного обменов между памятью и x86-ядрами - всего 8 и 13 ГБ/с, т. е. 27% и 43% от теоретического пика. Цифры для ГП - 40% и 57%. Тут, правда, не ясно, допустимо ли сложение чтений и записей - если да, то ситуация несколько лучше: одновременно читая и записывая, только x86-ядра могут в многопотоке загрузить 87% ПСП, а только графические - 97%. Тем не менее, странно, почему для каждого случая мы не можем получить 100%. Возможно, дело как раз в том самом приоритете для ГП, который понижает ПСП и для себя (когда простаивают x86-часть), и для x86 (когда молчит уже ГП).

Ещё меньше пропуски при обменах с чужими адресными пространствами, но тут объяснения есть: где-то нет кэширования в L2, а только буферы (WC, по 4 на ядро); где-то нужны снуп-проверка и трансляция адресов. В любом случае, AMD ещё надо хорошо поработать, чтобы нагрузить на полную широкие внутренние шины и внешнюю память. Для сравнения, ещё более широкая кольцевая шина в Sandy Bridge сразу даёт весь свой теоретический максимум, т. к. подключена к кэшу L3. Наконец-то 32!

Тут GF явно в догоняющих. Её 32-нанометровый техпроцесс на частично обеднённых КНИ-пластинах (PD-SOI) использует HKMG-транзисторы с напряжённым кремнием, изготовленные по методу «затвор первым» (детали обо всех этих технологий см. в нашем ). По утверждению GF, на кристалле могут присутствовать транзисторы, настроенные под три разных напряжения срабатывания - от 0,8 до 1,3 В (какие из них фактически используются в Llano - не ясно). Поверх них - 11-слойная медная металлизация с низкопроницаемыми диэлектриками; шаг затвора с учётом его контакта до одного из нижних трёх слоёв дорожек - 104 нм (для сравнения параметры Intel: 9 металлов и 112,5 нм - детально значение этих цифр исследовано в наших ). Есть несколько разных видов ячеек СОЗУ с разным сочетанием площади, потребления и скорости. Также допустимы (TSV), хотя на практике их в AMD пока никто не показал. В общем, всё примерно как у Intel, но в массовом производстве - на год позже.

Из тонких особенностей выделяются специальные транзисторы, корректирующие фронты сигналов для борьбы с утечками и выравнивания параметров всего массива транзисторов на многобитных шинах. Причём такая мера является «костылём», вызванным тем, что без него переведённое с 45 на 32 нм ядро заработало бы не так хорошо. При этом присутствуют и некоторые штатные средства экономии, в полном наборе имеющиеся в ядрах Bulldozer, изначально сделанных под 32 нм - детально поговорим о них в грядущей статье об этой архитектуре.

Разумеется, никак не обойти замену 6-транзисторных ячеек СОЗУ в кэшах на 8-транзисторные; зачем это надо - описано . (Кстати, впервые Intel применила такой приём экономии в Pentium 4 при переходе на 65 нм - разумеется, не для того, чтобы сделать его ультрамобильным, а т. к. иначе даже на новом техпроцессе не укладывались в предел по .) Но тут есть любопытный момент: замена почему-то почти не отразилась на площади кэшей. Чтобы разобраться с хитростями 32 нанометров у AMD, самое время заняться любимым делом процессорных аналитиков - подсчётом транзисторов:)

Кристалл 4-ядерного Llano

Итак, 4-ядерный Llano (с текущими и частотами потребляющий 35–100 Вт) имеет площадь 228 мм², на которых расположились 1450 млн. транзисторов (как обычно, сократим эту меру до «Мтр»). При этом на рекламном слайде AMD утверждает, что на x86-ядра и ГП ушло по 35%, а на СМ - 30%. Звучит крайне сомнительно: по расчётам, внеядро K10 (за вычетом контроллера и драйвера(ов) шины ) занимает ≈16 Мтр, а присутствующие тут блок UVD и контроллер PCIe никак не тянут на 419 Мтр. Возможно, речь шла о соотношении потраченной площади, что близко к реальности, но совсем не показательно, поэтому вернёмся к транзисторам. 2-ядерная версия кристалла (неизвестной пока площади) получит 758 Мтр и ГП на 240 «ядер».

Каждое ядро x86 занимает 9,69 мм² без учёта L2 и 17,7 мм² с L2. Транзисторов в нём «более 35» Мтр (у K10 было 30) + 1,38 на силовые ключи, а вместе с L2 - 110 Мтр. Предположим, что «более 35» означает «меньше 35,5», и получим ≈73,5 Мтр на мегабайт L2. Вычисленное значение для K10 - 76,25. Разница небольшая, но меньше это число точно стать не должно. Выходит, что либо ранее мы недооценивали сложность ядра K10 (где должно быть примерно на 3 Мтр больше), либо AMD (как уже многажды бывало) снова «намудрила» с цифрами. Проверим выкладки так: в «лишние» 5 Мтр должны уложится по 2 тр./бит в 128 КБ обоих L1 (это 2,1 Мтр), дополнительные 512 72-битных (скорее всего, тоже 8-транзисторных) ячеек для L2D TLB (+ 0,3 Мтр), а почти всё остальное - добавленная логика (в частности, целочисленный делитель - штука весьма немалая). Вроде всё совпадает. Видимо, «110» были округлены вниз примерно на 3 Мтр. Тем не менее, примем данное число.

Подсчитаем транзисторный бюджет большого и малого ГП + UVD + СМ: 1450−4×110=1010 и 758−2×110=538 Мтр. А теперь заглянем в той же архитектуры (изготавливаются на 40-нанометровом техпроцессе компании TSMC) и обнаружим вышеупомянутый Redwood с такими же параметрами, что и у старшего ГП Llano, но с транзисторным бюджетом лишь в 627 Мтр (включая контроллеры двух шин). А в наши 1010 Мтр уместится почти целый Juniper, который вдвое круче по всем параметрам! Далее, можно вычесть цифры Juniper из Redwood, т. к. эти ГП прежде всего отличаются формулой графических ядер и спаренных с ними спецблоков. Получаем 413 Мтр на 400 ФУ, 20 TMU и 8 ROP. Если же аналогично вычесть старший ГП Llano из младшего, то получится 472 Мтр на 160 ФУ, 8 TMU и 4 ROP!

Корпус (с варварски содранной крышкой) и основной кристалл XCGPU

Можно зайти с другой стороны - год назад был представлен чип, имеющий полное право называться первым массовым APU - XCGPU, процессор для нового поколения приставки Xbox моделей S. Предыдущие версии имели ЦП и ГП отдельно, тут же 45-нанометровое изделие GF умещает:

3 ядра ЦП (чуть модифицированные версии миниядер PPE из ЦП IBM Cell), работающие на частоте 3,2 ГГц;
1 МБ общего для них кэша L2, работающего с половинной частотой и подключенного к 256-битной шине;
500 МГц ГП AMD Xenos на 240 ФУ с пиковой производительностью в 240 Гфлопс;
на втором чипе, связанном 500-мегагерцовой 512-битной шиной - 8 ROP и кадровый буфер на 10 МБ с архитектурой eDRAM (встроенное динамическое ОЗУ с 1-транзисторными ячейками).

Один корпус вместо двух (у прошлого ГП кадровый буфер также сидел рядом вторым кристаллом) сэкономил 60% TDP и 50% площади. На 10 МБ ОЗУ + ROP ушло 105 Мтр, т. е. для 8 ROP остаётся всего ≈10 Мтр. Но главное для нас то, что у основного чипа - 372 Мтр, из которых 165 ушло на ЦП + L2, а 232 - на ГП. И вот эта последняя цифра совсем не вяжется с похожим (в т. ч. по пиковой скорости) младшим ГП в Llano, которому, как мы подсчитали по не менее официальным цифрам, выпало 538 Мтр. В общем, веселуха с транзисторами продолжается - видимо, на техасщине это тоже популярная забава:) Кристалл со странностями

Теперь вернёмся к x86-ядрам. Тут полезно сделать небольшую ретроспективу. Давным-давно жила-была компания DEC - один из мировых лидеров по производству мэйнфреймов, миникомпьютеров и рабочих станций. И была в ней группа талантливых разработчиков микроархитектур, из-под руки которых вышли всемирно известные PDP-11, VAX и Alpha. О последней стоит сказать особо: её первая версия, Alpha 21064 или EV4 (1992 г.), это первый -процессор, частота которого превысила самые быстрые доселе компьютеры на ЭСЛ-логике. Второе поколение (21164 или EV5 - 1995 г.) - первый ЦП со встроенным L2 (который, правда, убрали из ЦП следующей версии). 21264 (EV6, 1998 г.) - второй (после AMD K5) 4-путный ЦП с (и с рекордными для логики 15,2 Мтр). 21364 (EV7, 2003 г.) - первый ЦП с высокоскоростным ИКП и сетевой межпроцессорной шиной. Планировавшийся на 2004 г. 21464 (EV8) должен был стать первым на 8 IPC и с 4-путной .

Но из-за просчётов руководства (и неожиданного для всех скачка производительности у x86 с выходом Pentium Pro) компьютеры с ЦП Alpha становились всё менее популярны, DEC терпела убытки, пока не была куплена компанией Compaq в 1998 г. Последняя свои микросхемы не разрабатывала и не производила (являясь активным покупателем ЦП Intel), так что судьба инженеров, продолжавших дорабатывать Альфы, была весьма печальна. В 2001 г. все наработки по Alpha (включая исследования по SMT, которые позже вырастут в технологию HyperThreading) Compaq продала в Intel, а та пригласила технарей работать над будущим Itanium (совместно с HP). (Говорят, большинство из перешедших 300 с чем-то инженеров до сих пор работают над новыми версиями этих ЦП.) Но часть персонала ушла ещё при кончине DEC…

…И ушла в AMD! Более того, Дэррик «Дёрк» Мэер, один из создателей Альфы, перешёл в AMD ещё в 1996 г. Возглавив группу, во многом состоящую из своих бывших коллег, он стал работать над новым ЦП. И уже в 1999 г. вышел первый Athlon. ЦП, разумеется, сделан с нуля, но в нём использовалась системная шина с технологией , первоначально разработанная для Alpha 21264. А в первых Opteron применили ИКП и шину HyperTransport, также от наработок для Alpha. Атлоны позволили в первый (и, пока, в последний) раз на равных соревноваться с Intel, пока та соображала, что бы такого сделать с Pentium 4… В общем, без команды архитектурщиков и инженеров из DEC об AMD сейчас бы вспоминали не чаще, чем о VIA. Но самое интересное для нас тут - как выглядели ядра Атлонов с первого по последний, и, для сравнения, Llano (по ссылкам - крупные версии):

K7, 250 нм, 1999 г.	K7, 180 нм, 2001 г.	K8, 130 и 90 нм, 2003 и 2004 гг.

K8, 65 нм, 2006 г.	K10, 65 и 45 нм, 2007 и 2009 гг.	K12, 32 нм, 2011 г.

Ясно, что любое сделанное с нуля ядро будет иметь совершенно новую раскладку блоков, с учётом архитектуры, техпроцесса и прочих параметров. Однако лицо Атлонов словно застряло во времени: за 12 лет на семи поколениях техпроцессов взаимное расположение и даже относительный размер основных блоков почти не изменились! Для сравнения, за это время Intel сделала с нуля P4, P-M, Core 2, Nehalem и Atom (не считая тех же Itanium и других не x86-ЦП), каждый их которых имеет совершенно отличный расклад ядра. Нельзя сказать, что в AMD сидят лентяи - просто либо первоначальный расклад оказался исключительно удачным, либо (что куда более вероятно) в AMD не хватило людских ресурсов, чтобы разработать совершенно новую микроархитектуру ранее 2011 г. Поэтому каждый раз ограничивались такими обновлениями существующей, чтобы они не повлекли полной переделки ядра.

Впрочем, кое-какие сдвиги в K12 всё же достойны комментария. Из-за удлинившегося целочисленного (включающего в себя и резервации) контроллер L2 «вылез» дальше остальных блоков, так что по обе стороны от него есть полосы свободного места. Особенно его много у L1I - настолько, что, немного потеснившись в логике фронта, его можно было бы увеличить на 50%. В других местах тоже стало посвободней - прежде всего из-за чуть более широких кэшей. Однако не смотря на их перевод с 6- на 8-транзисторную ячейку, относительная длина у них почти та же, что и у K10. Тем не менее, инженеры могли бы сократить несколько долей миллиметра по длине, пересобрав некоторую мешающую этому логику. Но не сделали это либо из-за недостатка времени, либо за ненадобностью.

Ладно там независимые аналитики из интернетов - но как AMD умудрилась ошибиться в разрисовке своего же кристалла, проведя границу блока UVD по его середине?..

А причина ненадобности может оказаться весьма проста - по ширине 4-ядерный кристалл ограничен длиной ГП. В результате парам x86-ядер не тесно даже с мегабайтовыми кэшами L2 - вокруг них полно свободного места. А ведь можно было ограничиться половиной L2 и развернуть ядра и СМ на 90° - сверху от них (по фото) освободится пространство, где можно разместить половину драйверов шин памяти, а вторую - вдоль левого края (ничего страшного, у Athlon II X2 эта полоска имеет аж два излома). В результате чип станет чуть длиннее (на ширину драйверов ОЗУ), но куда у́же.

Рассмотрим теперь ГП. Сразу можно сделать наблюдение: каждый большой прямоугольный блок устроен по принципу «массивы - по периметру, логика - по центру». Массивы - это мелкие горизонтальные прямоугольнички, устройство которых удивительно похоже по всему ГП. Зато логика, наоборот, совершенно хаотична. Такая комбинация может быть, только если и логику, и массивы оптимизировали по площади (и, во вторую очередь, экономии) в ущерб частоте. Но тут она и не нужна - выше 850 МГц не поднимаются даже дискретные ГП этой архитектуры. Тем не менее, линейная регулярность в логике должна быть, но тут она видна только на крупноблочном уровне: можно сказать точно, что 5 столбцов одинаковых блоков по 5 строк - это те самые 400 ФУ и 20 TMU. Число ROP (8) не делится на 5, и т. к. вряд ли одна пара рендер-блоков отключена даже в старшем ГП - их среди регулярных столбцов, видимо, нет…

Одна из пяти строчек с (предположительно) 80 графическими ФУ в ГП Llano

Резонно предположить, что вычислительные тракты займут наибольшую часть места, и это будут два похожих столбца по центру. Однако неясно, почему они хоть немного, но отличаются, и почему в каждом из них должно быть по 8 пятёрок 32-битных ФУ, но визуально ничего подобного не наблюдается… Выходит, либо AMD играет с Фотошопом (как это до сих пор продолжается с изображениями кристалла 4-модульного Bulldozer - скоро увидите), либо инженеры бывшей ATI намудрили что-то такое, что распознать это не могут даже видавшие всякого аналитики:)

Впрочем, кое-что всё же видно: по периметру каждой половины блока есть 64 одинаковых регулярных массива. При этом в вычислительную часть SIMD-блока (помимо 80 SP) входят 16 (РФ) по 1024 128-битных регистра. Плотность этих РФ в битах/мм² оказывается лишь чуть меньше плотности кэша L2 для x86-ядер и примерно в 20 раз лучше, чем у векторно-вещественного РФ там же. И это при обязательной многопортовости! Вот какие транзисторные оптимизации доступны при низких целевых частотах.

Теперь сообразим, как выглядит 2-ядерный кристалл с младшим ГП на 240 ФУ и половиной ROP. Все уже заметили «трещину» посреди ГП? Очевидно, это и есть «линия разреза», остаться после которого суждено только нижней части - вместе с нижней парой x86-ядер. Но постойте, ведь в верхней половине ГП есть ещё куча нужной логики и блок UVD - где будут они? Допустим, что их уместят встык к ФУ и TMU, но тогда придётся подвинутся драйверам ОЗУ, которые должны быть расположены либо углом, либо в 4 ряда (а не в 2, как сейчас: по числу каналов).

Не меньший вопрос - насчёт «потерянных» двух ROP. По 4 этих блока должны оказаться по разные стороны «трещины» (у всех старших ГП их 8, а у младших - 4). Но не считая вышеуказанных пяти «вычислительных столбцов», все остальные блоки и сверху и снизу разные. Если кто-то из читателей сможет аргументированно привязать хоть что-то из них к схеме ГП - добро пожаловать в комментарии на форуме. Стоит добавить, что при сравнении с не менее качественным фото ядра APU Zacate (с ГП на 80 ФУ той же архитектуры) ничего похожего на структуры из Llano не видно… Экономия

Первый пункт - цифровое предсказание потребления в модуле управления питанием (Digital APM). До сих пор APM работал примерно так: собирая аналоговые данные с термодиодов и датчиков тока, модуль их оцифровывал и делал выводы об общем потреблении. Цифровой APM таким методом только подтверждает ранее сделанное предсказание, основанное на сборе статистики по загрузке отдельных блоков. Зная её и зависимость потребления этого конкретного блока от его прошлой и текущей нагрузок, можно вычислить, сколько через мгновение должен потреблять весь чип, исходя из его математической модели. Смысл этого в том, что предсказание делается куда быстрее реальных измерений, причём его не надо предварительно калибровать под особенности конкретного кристалла, как того требуют аналоговые датчики. Цифровой APM, замеряя 95 сигналов и ошибаясь менее чем на 2%, обеспечивает более быстрые подстройки частот и напряжений при колебаниях нагрузки - ещё до того, как кристалл среагирует изменением температуры.

Любопытная хитрость, позволяющая цифровой модели там мало отклоняться от реальности, заключается в том, что APM учитывает теплопроводность отдельных участков кристалла, зная их расположение, площадь и локальную температуру. Поток тепла перераспределяется из работающих блоков в соседние, которые, возможно, простаивают, оттягивая на себя часть тепла. Учитывая, что тепло отводится через всю поверхность чипа, но имеет ограничение по потоку (≈50 Вт/см²) - чем с большей площади идёт охлаждение, тем лучше. Таким образом, горячее место на кристалле, если оно окружено простаивающими блоками, будет охлаждаться не только над собой, но и немножко сбоку, что и учитывает модель APM. Ей надо также учесть, что технология кремния-на-изоляторе (), при всех её технических преимуществах, имеет и недостаток: слой диоксида кремния работает в качестве не только электро-, но и термоизолятора. При прочих равных КНИ-кристалл имеет больше шансов перегреться. Но AMD с этим знакома уже давно и наверняка что-то придумала:)

Пилообразная граница между доменами питания у Llano удлиняет периметр, позволяя разместить над двойным набором ключей (вертикальные пунктиры) силовые контакты (квадраты) смежных доменов для экономии места под ключи. Иллюстрация с доклада для конференции ISSCC

Второй момент - силовые ключи , подключающие «землю» к ядрам (шины питания тут всегда включены). Используются n-канальные транзисторы, эффективность которых в качестве ключей (особо низкое сопротивление во включенном режиме и особо высокое в выключенном) оказывается лучше, чем у p-канальных - что является следствием применения КНИ. Intel использует p-канальную коммутацию шин питания - т. к. у неё техпроцесс на цельном кремнии. AMD утверждает, что n-канальные транзисторы меньше и быстрее при тех же электрических параметрах. В результате утечка тока у отключенного ядра уменьшена в 10 раз. Фактические тесты действительно подтверждают резкое сокращение потребления ЦП при частичной или нулевой загрузке.

Карта утечек тока Llano (красный - больше, синий - меньше) при нулевом тактировании, полученная с помощью «meridian photon recombination». При этом никакого другого упоминания этой фразы в сети больше нет - что же это за загадочный метод? И почему часть ГП странно замазана?..

AMD также показала карту утечек тока в трёх случаях: когда цепи включены, когда выключен блок UVD и когда выключена вся графика. x86-ядра, разумеется, могут отключаться по отдельности в C6. При усыплении всех ядер напряжение на шине их питания снижается, чтобы уменьшить даже эту мизерную утечку. При этом APM позволяет усыпить ядро как по его просьбе (т. е. от исполняющейся на нём программе), так и по команде ОС (которая исполняется в другом ядре). Усыпление ГП происходит после неактивности в течение заданного времени. Усыпление UVD и контроллера PCIe - программное, через драйверы и BIOS соответственно.

Засыпание ↓	Пробуждение
Ядро активно
Смыв кэшей
Сохранение состояния в ОЗУ
	Инициализация кэшей
	Запуск загрузочного микрокода (как после сброса)
	Подключение перемычек с коррекцией микрокода
Понижение частоты	Повышение частоты
Отключение PLL
Отключение шин до СМ	Подключение шин до СМ
Отключение силовой шины	Подключение силовой шины
	Включение и калибровка PLL
Ядро спит

В этой таблице указаны процедуры засыпания в состояние C6 и пробуждения из него. Последнее занимает 30 мкс для одного ядра и 100 мкс для всего ЦП (включая пробуждение модулей памяти), причём AMD обещает даже эти достойные цифры ещё улучшить. (Можете их сравнить с моделей Z6xx.) При этом в спящем ЦП всё равно работает APIC - программируемый контроллер прерываний, реагирующий на внешние события, включая регулярные пробуждения по таймеру. В отличие от того же «Атома», AMD не стала внедрять специальное буферное для хранения состояния ядра на кристалле, разумно полагая, что пока будут выполняться остальные процедуры, ИКП успеет подкачать нужные несколько сот байт.

Заметим, что шин питания , у Llano - две: для x86-ядер и всего остального, включая ГП (кроме умножителей, для которых есть отдельная слаботочная шина). Это чуть удешевляет плату, но не приводит к неоптимальному потреблению энергии. Второе напряжение является максимумом из потребностей СМ (включая ИКП), ГП, UVD и контроллера PCIe. При декодировании видео ГП простаивает, но запитывается полными вольтами - однако они не доходят до потребления, остановленные силовыми ключами. Похоже, что AMD нашла оптимум между ценой и экономией.

Наконец, третья добавка - разряжённая сеть тактирования . Через неё умножитель частоты передаёт потребителям тактовые импульсы нужной им частоты. Требуется, чтобы все импульсы дошли строго одновременно до всех частей потребителей, что вынуждает строить разветвлённое дерево дорожек, высчитывая их длину так, чтобы задержка распространения сигнала до любой конечной ветки была одинакова. Учитывая затухание сигнала, приходится регулярно ставить усилители, вносящие собственную задержку. В результате на полной частоте вся эта сеть потребляет значительную энергию, даже если никакой полезной работы не выполняется. Например, у Pentium 4 на её питание уходило до трети потребляемой мощности.

В AMD поступили так же, как и создатели Atom: сократили число буферов и усилителей вдвое, а число ветвей - впятеро, удалив ненужные с учётом нагрузки. Теперь при полной выкладке Llano тактирует всего 32% блоков (только фактически работающие), а при простое (без отключения блоков) - лишь 12%. Так получилось уменьшить на 54% потребляемую сетью мощность. Опять же - всё со слов AMD. В таблице рядом показаны результаты моделирования максимального потребления при питании 1 В.

Ещё три технологии касаются конкретно ГП. Во-первых, адаптивная модуляция подсветки (adaptive backlight modulation, ABM) плавно затемняет лампы или светодиоды подсветки при выводе «тёмной» картинки - при этом выводимые пиксели пропорционально осветляются, чтобы воспринимаемое изображение имело верную яркость. Во-вторых, сжатие кадрового буфера позволяет выводить только изменённые части кадра относительно предыдущего - с сильной экономией трафика шины (много ли пикселей меняется от кадра к кадру при перемещении курсора?). В-третьих, внешний ГП при простое спит, потребляя всего 0,2 Вт (с готовностью проснуться за 0,15 с), хотя это больше заслуга его устройства, а не процессора.

Что всё это даст потребителю? А то, что впервые со времён мобильных Pentium 4 AMD предложила платформу, достаточно экономную, чтобы если не выиграть, то хотя бы на равных соревноваться с соперником (при одинаковой скорости и ёмкости батарей). При этом вариант AMD стоит дешевле, если систему на базе Intel оснастить дискретным ГП, сравнимым со встроенным в Llano. Turbo Core 2.0

Экономия ватт даст больше шансов разогнать работающие ядра, что будет посильнее призрачных «6%», когда вычислительная производительность нужна во что бы то ни стало. Поможет в этом новый (по сравнению с внедрённым в Phenom II X6) алгоритм Turbo Core 2.0. Он работает во всех мобильных моделях, разгоняя их на 400-900 МГц, но не во всех настольных, где разгон - всего на 300 МГц. Причём для конкретного ЦП разгон либо включен, либо нет - никакой регулировки типа «от 100 до 500 МГц» нет. Если сравнить это с возможностями Turbo Boost, то видно, что AMD есть к чему стремиться.

Как и с Turbo Boost 2.0, теперь можно ненадолго превысить предел TDP, если температура ещё не подошла к своему лимиту. В версии 1.0 ускорение делалось на базе активности половины ядер, а не каждого по отдельности. Т. е. формула ускорения (приращение множителей при простое от N−1 до 0 ядер) для 6-ядерного Фенома выглядела так: x-x-x-0-0-0. Однако у Llano авторазгон присутствует и у 3-ядерного A6-3500 (т. е. с нечётным числом ядер), из чего можно сделать осторожный вывод, что TC 2.0, видимо, наконец-то научился работать с поядерной дискретностью. Проверить это, как ни странно, весьма трудно, т. к. AMD до сих пор не даёт возможность считать реальную частоту ядер. Кроме того, как уже сказано, не может ускоряться ГП. Пока… Модели, чипсеты и платформы

Как обычно, дадим ссылки на описания и моделей в Википедии и прокомментируем увиденное. Во-первых, не доверяйте всему, что там пишут над таблицами;) Во-вторых, знакомые имена ушли в прошлое, оставив лишь буквы и цифры. С буквами после номера модели просто: M - мобильная модель на 35 Вт, MX - на 45, K - настольная со свободным множителем. А вот их комбинации с цифрами уже возвращают нас в привычный бардак. В таблице указаны общие характеристики первых выпущенных видов Llano.

Ряд	Число ядер	Объём L2, МБ	ГП	Turbo Core	Память	TDP, Вт
E2	2	0,5×2	6370D	нет	DDR3-1600	65
E2-M	2	0,5×2	6380G	у всех	DDR3-1333	35
A4	2	0,5×2	6410D	нет	DDR3-1600	65
A4-M		1×2	6480G	у всех	DDR3-1333	35
A4-MX		1×2	6480G	у всех	DDR3-1333	45
A6	3/4	1×3/4	6530D	иногда	DDR3-1866	65/100
A6-M	4	1×4	6520G	у всех	DDR3-1333	35
A6-MX	4	1×4	6520G	у всех	DDR3-1600	45
A8	4	1×4	6550D	иногда	DDR3-1866	65/100
A8-M			6620G	у всех	DDR3-1333	35
A8-MX			6620G	у всех	DDR3-1600	45

Казалось бы, куда логично назвать все 4-ядерные модели - A8, а отличия в ГП оставить лишь в номерах. Не менее разумно оснастить все A4 полными кэшами L2, а все MX-версии - памятью на 1600 МГц (иначе не ясно, почему на +200 МГц базовой частоты x86-ядер модели A4-3310MX в сравнении с A4-3300M угрохали лишние 10 Вт). Из номеров моделей пока можно узнать, что первая цифра - 3, последняя - 0, а две средние - чем больше, тем лучше. При всём идиотизме такого описания - это всё, что можно сказать, чтобы не пускаться в исключения.

Занятно, что TС отсутствует у 100-ваттовых ЦП, хотя, казалось бы, у них-то точно потолок разгона высокий… Куда хуже то, что, несмотря на все ухищрения, меньше 65 Вт у настольных моделей нет. Разумеется, надо отдать должное неслабому ГП (даже у A4 и E2), но как минимум с маркетинговой точки зрения (по сравнению с модельным рядом Intel) смотрится плохо.

С тех пор уже объявлены новые модели, описание которых показывает, куда расширяется модельный ряд:

Помимо A8-3870K, планируется ещё одна разблокированная модель - A6-3670K на 2,7 ГГц (также без авторазгона) и ГП 6530D на 443 МГц. Таким образом, даже скромный игрок сможет быть разгонщиком;
Готовятся 4-ядерные Athlon II X4 моделей 631, 641 и 651 на 2,6, 2,8 и 3 ГГц, 100 Вт TDP, без TC и даже без ГП. К ним присоединятся и 2-ядерные Sempron X2 198 на 2,5 ГГц и Athlon II X2 221 на 2,8 (оба - с 0,5 МБ L2 и TDP на 65 Вт). Все они уже не APU - потому, видимо, их и назвали старыми именами. Возможно, эти модели придут, когда современные ЦП на 45 нм уже уйдут на покой, а новые ещё не появятся;
Модель A4-3305M отличается от A4-3300M тем, что имеет половинные кэши L2 и самый слабый ГП, зато последний работает на частоте 593 МГц (быстрее любого другого мобильного Llano). Таким образом, внезапная пятёрка внесла очередное исключение: по большинству характеристик 3305M относится к линейке E2;
Планируемые модели ноутбуков HP Pavilion в списке доступных ЦП имеют и другие модели Llano, которые вносят ещё больший бардак (например, больший номер может означать меньшую частоту, а буква M - 45 Вт TDP). Впрочем, эти номера запросто могут бесследно исчезнуть…

Настольные модели используют -корпус для разъёма Socket FM1 на 905 выводов, а мобильные - FS1 на 722. В будущем возможны мобильные модели в -корпусе для распайки на плате, хотя для них почему-то также указывается разъём - FP1. Интересно, что для этих ЦП TDP указан как 20 или 26 Вт для 2-ядерных и 30 Вт для 4-ядерных - нижняя граница вплотную подходит к чипам Zacate с ядрами Bobcat…

От чипсетов остались лишь южные мосты, потому что северный уже весь «сынтегрирован» - и это вдвойне хорошо, т. к. уже известно, что они смогут работать как минимум с некоторыми ЦП из второго поколения APU, выходящего в 2012 г. Официально чипсет называется Fusion Controller Hub («узел управления слиянием», смех в зале ), а неофициально - Hudson. Изготавливается по технорме 65 нм в корпусе FCBGA-605 размером 23×23 мм. FCH для Llano делятся на два класса - мобильные M с TDP 2,7–4,7 Вт и настольные D на 5 Вт.

Все версии имеют: 6 портов SATA 3.0 (на 6 Гбит/с), RAID 0/1, 4 порта PCIe 2.0 x1 и 3 PCI, VGA (аналоговая часть), звук HD Audio, 14 портов USB 2.0, гигабитный Ethernet, контроллер карт SD (до 32 ГБ и 25 МБ/с), встроенный тактовый генератор и поддержка UEFI (новый «BIOS»);
M2 (он же - A60M, предназначен для платформы Sabine): стандартная модель;
M3 (A70M, для Sabine): как M2, но 4 порта USB обновлены до версии 3.0;
D1 (A45, для Value Lynx): отсутствуют Ethernet, RAID, SD и VGA; все порты SATA - только версии 2.0; + 1 порт PCI;
D2 (A55, для Lynx и Carina): как M2, но с поддержкой RAID 10 и FIS-based switching (возможность подключения к порту SATA до 15 устройств через хаб-разветвитель);
D3 (A75, для Lynx и Carina): как D2, но 4 порта USB обновлены до версии 3.0.

Платформа Sabine - для «обычных» ноутбуков, Value Lynx - дешёвые домашние ПК, Lynx - «просто» домашние ПК, а Carina - офисные ПК. Чем отличаются последние два - неясно. Итого

В теории всё выглядит хорошо: AMD малыми усилиями сделала ЦП, некоторые характеристики которых можно с полным правом назвать передовыми и даже уникальными, что и обеспечит им продажи. Заменив старые Атлоны и добавив к ним графику за меньшие деньги и ватты, можно почувствовать, что прогресс есть даже у ЦП с 12-летней микроархитектурой. Но всему приходит конец - выходящее весной 2012 г. второе поколение APU Trinity уже будет использовать новые ядра Piledriver («улучшенный Бульдозер») и новый разъём Socket FM2 на 904 вывода (специально несовместимый с нынешним). В Trinity обещают ГП с новой архитектурой VLIW4 (используется пока только в чипе Cayman, он же Radeon HD 69x0), аппаратный видеокодер (VCE), подключение до трёх мониторов, наличие TC версии 3.0 (с разгоном ГП), поддержку DDR3-2133 и PCIe 3.0, 65–125 Вт TDP и обновлённые чипсеты.

А в следующих поколениях встроенных ГП на базе архитектуры «Southern Islands» появятся: лучшая поддержка языков высокого уровня для GPGPU (с использованием более привычной суперскалярных -ядер вместо ), общее адресное пространство с x86, 64-битная виртуальная адресация с подкачкой страниц, переключение контекста (для многозадачности) и протокол когерентности для PCIe (чтобы всё вышеперечисленное было возможно и для внешнего ГП).

На радостях от выпуска новых ЦП в AMD даже считать разучились, заявив в одном из слайдов, что «APU знаменуют самый большой сдвиг в технологии ПК с момента изобретения x86-ЦП более 40 лет назад». Изобретения? Более 40 лет назад? Ну, пока кто-то в AMD открывает для себя непознанные страницы истории (или арифметики) - отдадим дань окончательно уходящим на покой Атлонам. Из них выжали всё, и этого хватило надолго.

Сложно в это поверить, но современный процессор является самым сложным готовым продуктом на Земле - а ведь, казалось бы, чего сложного в этом куске железа?

Итак, когда фабрика для производства процессоров по новой технологии построена, у нее есть 4 года на то, чтобы окупить вложенные средства (более $5млрд) и принести прибыль.

Из несложных секретных расчетов получается, что фабрика должна производить не менее 100 работающих пластин в час.

Вкратце процесс изготовления процессора выглядит так: из расплавленного кремния на специальном оборудовании выращивают монокристалл цилиндрической формы.

Получившийся слиток охлаждают и режут на «блины», поверхность которых тщательно выравнивают и полируют до зеркального блеска.

Затем в «чистых комнатах» полупроводниковых заводов на кремниевых пластинах методами фотолитографии и травления создаются интегральные схемы.

После повторной очистки пластин, специалисты лаборатории под микроскопом производят выборочное тестирование процессоров - если все «ОК», то готовые пластины разрезают на отдельные процессоры, которые позже заключают в корпуса.

Уроки химии

Давайте рассмотрим весь процесс более подробно. Содержание кремния в земной коре составляет порядка 25-30% по массе, благодаря чему по распространённости этот элемент занимает второе место после кислорода.

Песок, особенно кварцевый, имеет высокий процент содержания кремния в виде диоксида кремния (SiO 2) и в начале производственного процесса является базовым компонентом для создания полупроводников.

Первоначально берется SiO 2 в виде песка, который в дуговых печах (при температуре около 1800°C) восстанавливают коксом:

Такой кремний носит название «технический » и имеет чистоту 98-99.9%. Для производства процессоров требуется гораздо более чистое сырье, называемое «электронным кремнием » — в таком должно быть не более одного чужеродного атома на миллиард атомов кремния.

Для очистки до такого уровня, кремний буквально «рождается заново». Путем хлорирования технического кремния получают тетрахлорид кремния (SiCl 4), который в дальнейшем преобразуется в трихлорсилан (SiHCl 3):

3SiCl 4 + 2H 2 + Si ↔ 4SiHCl 3

Данные реакции с использованием рецикла образующихся побочных кремнийсодержащих веществ снижают себестоимость и устраняют экологические проблемы:

2SiHCl 3 ↔ SiH 2 Cl 2 + SiCl 4
2SiH 2 Cl 2 ↔ SiH 3 Cl + SiHCl 3
2SiH 3 Cl ↔ SiH 4 + SiH 2 Cl 2
SiH 4 ↔ Si + 2H 2

В результате образуется так называемая «буля» — монокристалл высотой со взрослого человека. Вес соответствующий — на производстве такая дуля весит порядка 100 кг.

Слиток шкурят «нулёвкой»:) и режут алмазной пилой. На выходе - пластины (кодовое название «вафля») толщиной около 1 мм и диаметром 300 мм (~12 дюймов; именно такие используются для техпроцесса в 32нм с технологией HKMG, High-K/Metal Gate).

Когда-то давно Intel использовала диски диаметром 50мм (2"), а в ближайшем будущем уже планируется переход на пластины с диаметром в 450мм - это оправдано как минимум с точки зрения снижения затрат на производство чипов. К слову об экономии — все эти кристаллы выращиваются вне Intel; для процессорного производства они закупаются в другом месте.

Каждую пластину полируют, делают идеально ровной, доводя ее поверхность до зеркального блеска.

Производство чипов состоит более чем из трёх сотен операций, в результате которых более 20 слоёв образуют сложную трёхмерную структуру. Остановимся совсем коротко на самых важных этапах.

Итак. В отшлифованные кремниевые пластины необходимо перенести структуру будущего процессора, то есть внедрить в определенные участки кремниевой пластины примеси, которые в итоге и образуют транзисторы. Как это сделать?

Вообще, нанесение различных слоев на процессорную подложу - это целая наука, ведь даже в теории такой процесс непрост.

Фотолитография

— На кремниевую подложку наносят слой материала, из которого нужно сформировать рисунок. На него наносится фоторезист — слой полимерного светочувствительного материала, меняющего свои физико-химические свойства при облучении светом.
— Производится экспонирование (освещение фотослоя в течение точно установленного промежутка времени) через фотошаблон
— Удаление отработанного фоторезиста.

Нужная структура рисуется на фотошаблоне — как правило, это пластинка из оптического стекла, на которую фотографическим способом нанесены непрозрачные области. Каждый такой шаблон содержит один из слоев будущего процессора, поэтому он должен быть очень точным и практичным.

Иной раз осаждать те или иные материалы в нужных местах пластины просто невозможно, поэтому гораздо проще нанести материал сразу на всю поверхность, убрав лишнее из тех мест, где он не нужен — на изображении выше синим цветом показано нанесение фоторезиста.

Пластина облучается потоком ионов (положительно или отрицательно заряженных атомов), которые в заданных местах проникают под поверхность пластины и изменяют проводящие свойства кремния (зеленые участки — это внедренные чужеродные атомы).

Как изолировать области, не требующие последующей обработки?

Перед литографией на поверхность кремниевой пластины (при высокой температуре в специальной камере) наносится защитная пленка диэлектрика - как я уже рассказывал, вместо традиционного диоксида кремния компания Intel стала использовать High-K-диэлектрик.

Он толще диоксида кремния, но в то же время у него те же емкостные свойства. Более того, в связи с увеличением толщины уменьшен ток утечки через диэлектрик, а как следствие - стало возможным получать более энергоэффективные процессоры.

В общем, тут гораздо сложнее обеспечить равномерность этой пленки по всей поверхности пластины — в связи с этим на производстве применяется высокоточный температурный контроль.

Так вот. В тех местах, которые будут обрабатываться примесями, защитная пленка не нужна - её аккуратно снимают при помощи травления (удаления областей слоя для формирования многослойной структуры с определенными свойствами).

А как снять ее не везде, а только в нужных областях? Для этого поверх пленки необходимо нанести еще один слой фоторезиста - за счет центробежной силы вращающейся пластины, он наносится очень тонким слоем.

Для точной фокусировки необходима специальная система линз или зеркал, способная не просто уменьшить, изображение, вырезанное на маске, до размеров чипа, но и точно спроецировать его на заготовке. Напечатанные пластины, как правило, в четыре раза меньше, чем сами маски.

Она образует проводник или будущий активный элемент - результатом такого подхода становятся различные картины замыканий на каждом слое микропроцессора.

Допустим, нам нужно сделать в кремнии область концентрации носителей p-типа, то есть зону дырочной проводимости. Для этого пластину обрабатывают с помощью устройства, которое называется имплантер — ионы бора с огромной энергией выстреливаются из высоковольтного ускорителя и равномерно распределяются в незащищенных зонах, образованных при фотолитографии.

Понятно, что у современных процессоров может быть несколько таких слоев — в таком случае на получившемся рисунке снова выращивается слой диэлектрика и далее все идет по протоптанной дорожке — еще один слой фоторезиста, процесс фотолитографии (уже по новой маске), травление, имплантация… ну вы поняли.

Характерный размер транзистора сейчас — 32 нм, а длина волны, которой обрабатывается кремний — это даже не обычный свет, а специальный ультрафиолетовый эксимерный лазер — 193 нм. Однако законы оптики не позволяют разрешить два объекта, находящиеся на расстоянии меньше, чем половина длины волны. Происходит это из-за дифракции света. Как быть?

Применять различные ухищрения — например, кроме упомянутых эксимерных лазеров, светящих далеко в ультрафиолетовом спектре, в современной фотолитографии используется многослойная отражающая оптика с использованием специальных масок и специальный процесс иммерсионной (погружной) фотолитографии.

Логические элементы, которые образовались в процессе фотолитографии, должны быть соединены друг с другом. Для этого пластины помещают в раствор сульфата меди, в котором под действием электрического тока атомы металла «оседают» в оставшихся «проходах» — в результате этого гальванического процесса образуются проводящие области, создающие соединения между отдельными частями процессорной «логики».

Излишки проводящего покрытия убираются полировкой.

Самое сложное позади. Осталось хитрым способом соединить «остатки» транзисторов — принцип и последовательность всех этих соединений (шин) и называется процессорной архитектурой.

Для каждого процессора эти соединения различны - хоть схемы и кажутся абсолютно плоскими, в некоторых случаях может использоваться до 30 уровней таких «проводов».

Отдаленно (при очень большом увеличении) все это похоже на футуристическую дорожную развязку - и ведь кто-то же эти клубки проектирует!

Когда обработка пластин завершена, пластины передаются из производства в монтажно-испытательный цех. Там кристаллы проходят первые испытания, и те, которые проходят тест (а это подавляющее большинство), вырезаются из подложки специальным устройством.

На следующем этапе процессор упаковывается в подложку (на рисунке - процессор Intel Core i5, состоящий из CPU и чипа HD-графики).

Подложка, кристалл и теплораспределительная крышка соединяются вместе - именно этот продукт мы будем иметь ввиду, говоря слово «процессор».

Зеленая подложка создает электрический и механический интерфейс (для электрического соединения кремниевой микросхемы с корпусом используется золото), благодаря которому станет возможным установка процессора в сокет материнской платы - по сути, это просто площадка, на которой разведены контакты от маленького чипа.

Теплораспределительная крышка является термоинтерфейсом, охлаждающим процессор во время работы - именно к этой крышке будут примыкать система охлаждения, будь то радиатор кулера или здоровый водоблок.

Сокет (разъём центрального процессора) — гнездовой или щелевой разъём, предназначенный для установки центрального процессора.

Использование разъёма вместо прямого распаивания процессора на материнской плате упрощает замену процессора для модернизации или ремонта компьютера.

Разъём может быть предназначен для установки собственно процессора или CPU-карты (например, в Pegasos). Каждый разъём допускает установку только определённого типа процессора или CPU-карты.

На завершающем этапе производства готовые процессоры проходят финальные испытания на предмет соответствия основным характеристикам - если все в порядке, то процессоры сортируются в нужном порядке в специальные лотки - в таком виде процессоры уйдут производителям или поступят в OEM-продажу.

Еще какая-то партия пойдет на продажу в виде BOX-версий - в красивой коробке вместе со стоковой системой охлаждения.

Теперь представьте себе, что компания анонсирует, например, 20 новых процессоров. Все они различны между собой - количество ядер, объемы кэша, поддерживаемые технологии…

В каждой модели процессора используется определенное количество транзисторов (исчисляемое миллионами и даже миллиардами), свой принцип соединения элементов… И все это надо спроектировать и создать/автоматизировать - шаблоны, линзы, литографии, сотни параметров для каждого процесса, тестирование…

И все это должно работать круглосуточно, сразу на нескольких фабриках…

В результате чего должны появляться устройства, не имеющие права на ошибку в работе, а стоимость этих технологических шедевров должна быть в рамках приличия.

ГДЕ производят процессоры Intel

Как я уже писал в предыдущем посту, на данный момент у компании Intel есть 4 завода, способных массово производить процессоры по технологии 32нм: D1D и D1C в штате Орегон, Fab 32 в штате Аризона и Fab 11X в Нью-Мексико.
Посмотрим как они устроены

Высота каждой фабрики Intel по производству процес-
соров на 300-мм кремниевых пластинах составляет 21
метр, а площадь достигает 100 тысяч квадратных мет-
ров. В здании завода можно выделить 4 основных уро
вня:

Уровень системы вентиляции

Микропроцессор состоит из миллионов транзисторов
- самая маленькая пылинка, оказавшаяся на кремние-
вой пластине, способна уничтожить тысячи транзисто-
ров. Поэтому важнейшим условием производства мик-
ропроцессоров является стерильная чистота помеще-
ний. Уровень системы вентиляции расположен на вер-
хнем этаже — здесь находятся специальные системы,
которые осуществляют 100% очистку воздуха, контро-
лируют температуру и влажность в производственных
помещениях. Так называемые «Чистые комнаты» де-
лятся на классы (в зависимости от количества пылинок
на единицу объема) и самая-самая (класс 1) примерно
в 1000 раз чище хирургической операционной. Для
устранения вибраций чистые комнаты располагаются
на собственном виброзащитном фундаменте.

Уровень «чистых комнат»

Этаж занимает площадь нескольких футбольных полей
- именно здесь изготавливают микропроцессоры. Спе-
циальная автоматизированная система осуществляет
перемещение пластин от одной производственной
станции к другой. Очищенный воздух подается через
систему вентиляции, расположенную в потолке, и уда-
ляется через специальные отверстия, расположенные
в полу.

Помимо повышенных требований к стерильности поме-
щений, «чистым» должен быть и работающий там пер-
сонал — только на этом уровне специалисты работают
в стерильных костюмах, которые защищают (благодаря
встроенной системе фильтрации, работающей от ба-
тареи) кремниевые пластины от микрочастиц текстиль-
ной пыли, волос и частиц кожи.

Нижний уровень

Предназначен для систем поддерживающих работу фа-
брики (насосы, трансформаторы, силовые шкафы и т.п.)
Большие трубы (каналы) передают различные техни-
ческие газы, жидкости и отработанный воздух. Спец-
одежда сотрудников данного уровня включает каску, за-
щитные очки, перчатки и специальную обувь.

Инженерный уровень

Для постройки фабрики такого уровня требуется около 3 лет и порядка 5 миллиардов - именно эту сумму должен будет «отбить» завод в последующие 4 года (к тому времени как появятся новые технологический процесс и архитектура, необходимая для этого производительность - порядка 100 рабочих кремниевых пластин в час). Для постройки завода потребуется:
— более 19 000 тонн стали
— более 112 000 кубических метров бетона
— более 900 километров кабеля

КАК производят микропроцессоры

Технически современный микропроцессор выполнен в виде одной сверхбольшой интегральной схемы, состоящей из нескольких миллиардов элементов — это одна из самых сложных конструкций, созданных человеком. Ключевыми элементами любого микропроцессора являются дискретные переключатели - транзисторы. Блокируя и пропуская электрический ток (включение-выключение), они дают возможность логическим схемам компьютера работать в двух состояниях, то есть в двоичной системе. Размеры транзисторов измеряются в нанометрах. Один нанометр (нм) - это одна миллиардная часть метра.

Вкратце процесс изготовления процессора выглядит так: из расплавленного кремния на специальном оборудовании выращивают монокристалл цилиндрической формы. Получившийся слиток охлаждают и режут на «блины», поверхность которых тщательно выравнивают и полируют до зеркального блеска. Затем в «чистых комнатах» полупроводниковых заводов на кремниевых пластинах методами фотолитографии и травления создаются интегральные схемы. После повторной очистки пластин, специалисты лаборатории под микроскопом производят выборочное тестирование процессоров - если все «ОК», то готовые пластины разрезают на отдельные процессоры, которые позже заключают в корпуса.

Давайте рассмотрим весь процесс более подробно.

Первоначально берется SiO2 в виде песка, который в дуговых печах (при температуре около 1800°C) восстанавливают коксом:
SiO2 + 2C = Si + 2CO

Такой кремний носит название «технический» и имеет чистоту 98-99.9%. Для производства процессоров требуется гораздо более чистое сырье, называемое «электронным кремнием» — в таком должно быть не более одного чужеродного атома на миллиард атомов кремния. Для очистки до такого уровня, кремний буквально «рождается заново». Путем хлорирования технического кремния получают тетрахлорид кремния (SiCl4), который в дальнейшем преобразуется в трихлорсилан (SiHCl3):
3SiCl4 + 2H2 + Si ↔ 4SiHCl3

Данные реакции с использованием рецикла образующихся побочных кремнийсодержащих веществ снижают себестоимость и устраняют экологические проблемы:
2SiHCl3 ↔ SiH2Cl2 + SiCl4
2SiH2Cl2 ↔ SiH3Cl + SiHCl3
2SiH3Cl ↔ SiH4 + SiH2Cl2
SiH4 ↔ Si + 2H2

Получившийся в результате водород можно много где использовать, но самое главное то, что был получен «электронный» кремний, чистый-пречистый (99,9999999%). Чуть позже в расплав такого кремния опускается затравка («точка роста»), которая постепенно вытягивается из тигля. В результате образуется так называемая «буля» — монокристалл высотой со взрослого человека. Вес соответствующий — на производстве такая буля весит порядка 100 кг.

Теперь самое интересное -- в отшлифованные кремниевые пластины необходимо перенести структуру будущего процессора, то есть внедрить в определенные участки кремниевой пластины примеси, которые в итоге и образуют транзисторы. Как это сделать?

Проблема решается с помощью технологии фотолитографии — процесса избирательного травления поверхностного слоя с использованием защитного фотошаблона. Технология построена по принципу «свет-шаблон-фоторезист» и проходит следующим образом:
— На кремниевую подложку наносят слой материала, из которого нужно сформировать рисунок. На него наносится фоторезист — слой полимерного светочувствительного материала, меняющего свои физико-химические свойства при облучении светом.
— Производится экспонирование (освещение фотослоя в течение точно установленного промежутка времени) через фотошаблон
— Удаление отработанного фоторезиста.
Нужная структура рисуется на фотошаблоне — как правило, это пластинка из оптического стекла, на которую фотографическим способом нанесены непрозрачные области. Каждый такой шаблон содержит один из слоев будущего процессора, поэтому он должен быть очень точным и практичным.

В фотографии свет проходил через негативную пленку, падал на поверхность фотобумаги и менял ее химические свойства. В фотолитографии принцип схожий: свет пропускается через фотошаблон на фоторезист, и в тех местах, где он прошел через маску, отдельные участки фоторезиста меняют свойства. Через маски пропускается световое излучение, которое фокусируется на подложке. Для точной фокусировки необходима специальная система линз или зеркал, способная не просто уменьшить, изображение, вырезанное на маске, до размеров чипа, но и точно спроецировать его на заготовке. Напечатанные пластины, как правило, в четыре раза меньше, чем сами маски.

Весь отработанный фоторезист (изменивший свою растворимость под действием облучения) удаляется специальным химическим раствором - вместе с ним растворяется и часть подложки под засвеченным фоторезистом. Часть подложки, которая была закрыта от света маской, не растворится. Она образует проводник или будущий активный элемент - результатом такого подхода становятся различные картины замыканий на каждом слое микропроцессора.

Собственно говоря, все предыдущие шаги были нужны для того, чтобы создать в необходимых местах полупроводниковые структуры путем внедрения донорной (n-типа) или акцепторной (p-типа) примеси. Допустим, нам нужно сделать в кремнии область концентрации носителей p-типа, то есть зону дырочной проводимости. Для этого пластину обрабатывают с помощью устройства, которое называется имплантер — ионы бора с огромной энергией выстреливаются из высоковольтного ускорителя и равномерно распределяются в незащищенных зонах, образованных при фотолитографии.

Там, где диэлектрик был убран, ионы проникают в слой незащищенного кремния - в противном случае они «застревают» в диэлектрике. После очередного процесса травления убираются остатки диэлектрика, а на пластине остаются зоны, в которых локально есть бор. Понятно, что у современных процессоров может быть несколько таких слоев — в таком случае на получившемся рисунке снова выращивается слой диэлектрика и далее все идет по протоптанной дорожке — еще один слой фоторезиста, процесс фотолитографии (уже по новой маске), травление, имплантация…

Ура - самое сложное позади. Осталось хитрым способом соединить «остатки» транзисторов — принцип и последовательность всех этих соединений (шин) и называется процессорной архитектурой. Для каждого процессора эти соединения различны - хоть схемы и кажутся абсолютно плоскими, в некоторых случаях может использоваться до 30 уровней таких «проводов».

Подложка, кристалл и теплораспределительная крышка соединяются вместе - именно этот продукт мы будем иметь ввиду, говоря слово «процессор». Зеленая подложка создает электрический и механический интерфейс (для электрического соединения кремниевой микросхемы с корпусом используется золото), благодаря которому станет возможным установка процессора в сокет материнской платы - по сути, это просто площадка, на которой разведены контакты от маленького чипа. Теплораспределительная крышка является термоинтерфейсом, охлаждающим процессор во время работы - именно к этой крышке будут примыкать система охлаждения, будь то радиатор кулера или здоровый водоблок.

Теперь представьте себе, что компания анонсирует, например, 20 новых процессоров. Все они различны между собой - количество ядер, объемы кэша, поддерживаемые технологии… В каждой модели процессора используется определенное количество транзисторов (исчисляемое миллионами и даже миллиардами), свой принцип соединения элементов… И все это надо спроектировать и создать/автоматизировать - шаблоны, линзы, литографии, сотни параметров для каждого процесса, тестирование… И все это должно работать круглосуточно, сразу на нескольких фабриках… В результате чего должны появляться устройства, не имеющие права на ошибку в работе… А стоимость этих технологических шедевров должна быть в рамках приличия…

Сейчас полно информации в интернете по теме процессоров, можно найти кучу статей о том как он работает, где в основном упоминаются регистры, такты, прерывания и прочее...Но, человеку не знакомому со всеми этими терминами и понятиями достаточно трудно вот так "с лету" вникнуть в понимание процесса, а начинать надо с малого - а именно с элементарного понимания как устроен процессор и из каких основных частей он состоит .

Итак, что же окажется внутри микропроцессора, если его разобрать:

цифрой 1 обозначается металлическая поверхность (крышка) микропроцессора, служащая для отвода тепла и защиты от механических повреждений того, что находится за этой крышкой (тоесть внутри самого процессора).

Под номером 2 - находится сам кристалл, по факту являющийся самой важной и дорогой в изготовлении частью микропроцессора. Именно благодаря этому кристаллу происходят все вычисления (а это и есть самая главная функция процессора) и чем он сложнее, чем совершенней - тем мощнее получается процессор и тем дороже соответственно. Кристалл изготавливается из кремния. На самом деле процесс изготовления очень сложный и содержит в себе десятки шагов, подробнее в этом видео:

Цифра 3 - специальная текстолитовая подложка, к которой крепятся все остальные части процессора, кроме того она играет роль контактной площадки - на ее обратной стороне есть большое количество золотистых "точек" - это контакты (на рисунке их немного видно). Благодаря контактной площадке (подложке) обеспечивается тесное взаимодействие с кристаллом, ибо напрямую хоть как нибудь воздействовать на кристалл не представляется возможным.

Крышка (1) крепится к подложке (3) с помощью клея-герметика, устойчивого к высоким температурам. Между кристаллом (2) и крышкой нет воздушного зазора, его место занимает термопаста, при застывании из нее получается "мостик" между кристаллом процессора и крышкой, благодаря чему обеспечивается очень хороший отток тепла.

Кристалл соединяется с подложкой с помощью пайки и герметика, контакты подложки соединяются с контактами кристалла. На этом рисунке наглядно показано как соединяются контакты кристалла с контактами подложки при помощи очень тонких проводков (на фото 170-кратное увеличение):

Вообще устройство процессоров разных производителей и даже моделей одного производителя может сильно разниться. Однако принципиальная схема работы остается прежней - у всех есть контактная подложка, кристалл (или несколько, расположенных в одном корпусе) и металлическая крышка для отвода тепла.

Так например выглядит контактная подложка процессора Intel Pentium 4 (процессор перевернут):

Форма контактов и структура их расположения зависит от процессора и материнской платы компьютера (сокеты должны совпадать). Например на рисунке чуть выше контакты у процессора без "штырьков", поскольку штырьки находятся прямо в сокете материнской платы.

А бывает другая ситуация, где "штырьки" контактов торчат прямо из контактной подложки. Эта особенность характерна в основном для процессоров AMD:

Как уже упоминалось выше, устройство разных моделей процессоров одного производителя может различаться, перед нами яркий тому пример - четырехъядерный процессор Intel Core 2 Quad, который по сути представляет собой 2 двухъядерных процессора линейки core 2 duo, совмещенных в одном корпусе:

Важно! Количество кристаллов внутри процессора и количество ядер процессора - не одно и то же.

В современных моделях процессоров Intel умещается сразу 2 кристалла (чипа). Второй чип - графическое ядро процессора, по-сути играет роль встроенной в процессор видеокарты, тоесть даже если в системе отсутствует , графическое ядро возьмет на себя роль видеокарты, причем довольно мощной (в некоторых моделях процессоров вычислительная мощь графических ядер позволяет играть в современные игры на средних настройках графики).

Вот и все устройство центрального микропроцессора , вкратце конечно же.

Большие дела начинаются с малого. Это высказывание справедливо для многих вещей, но в этой статье пойдет речь об изготовлении микропроцессоров, которыми нашпигованы самые разные бытовые приборы, что вас окружают, от смартфонов и до холодильников.

Подготовка сырья

Компьютерные чипы сложнейшей структуры, способные производить мгновенные вычисления, рождаются огромных тиглях из кварцевого стекла, наполненных до краев песком, прошедшим многоступенчатую очистку.

Прежде всего из песка, набранного в каком-нибудь карьере, получают «технический» кремний путем добавления в минерал углерода при высокой температуре. Получившийся в результате кремний при чистоте достигает 98%, но все еще совершенно не подходит для целей электронной промышленности и, чтобы стать «электронным кремнием», ему требуется дополнительная обработка хлором. В процессе каскада химических реакций с хлором, кремний буквально синтезируется заново, избавляясь от последних признаков примесей.

Только после этого тигель с чистейшим электронным кремнием помещают в герметичную печь, которая наполнена аргоном. Конечно, можно было бы откачать из нее воздух, но создать идеальный вакуум на земле очень сложно, если не невозможно, а с химической точки зрения аргон дает практически тот же эффект. Этот инертный газ замещает кислород, защищая состав от окисления, а сам никак не реагирует с кремнием в тигле.

Только после этого бывший песок разогревается до 1420 градусов Цельсия, что всего на 6 градусов выше его точки плавления. Для этого используется графитовый нагреватель. Выбор материала, как и в случае с кварцем тигля, обусловлен тем, что графит не реагирует с кремнием и, следовательно, не может загрязнить материал будущего процессора.

В нагретый тигель опускается тонкий затравочный кристалл кремния, размером и формой напоминающий карандаш. Он должен запустить процесс кристаллизации. Дальнейшее можно воспроизвести в домашних условиях с раствором соли, сахара, лимонной кислоты или, например, медного купороса. Остывающий раствор начинает кристаллизироваться вокруг затравочной точки, образуя идеальную молекулярную решетку. Так выращивают кристаллы соли, так растет и кремний.

Затравочный кристалл кремния постепенно поднимают из тигля, со скоростью примерно полтора миллиметра в минуту, и с ним из раствора поднимается растущий монокристалл. Рост кристалла происходит медленно и на один тигель уходит в среднем 26 часов, так что производство работает круглосуточно.

За это время образуется «буля» - цельный цилиндрический кристалл диаметром 300 миллиметров, длиной до 1-2 метров и весом около 100 килограммов. Если взглянуть на него под сильным увеличением, взгляду откроется строгая структура - идеальная кристаллическая решетка из атомов кремния, совершенно однородная по всему объему.

Кристалл настолько прочен, что его вес может выдержать нить диаметром всего 3 миллиметра. Так что, готовую заготовку для процессоров вытягивают из тигля за тот самый затравочный кристалл.

Однако с «буля» обращаются аккуратнее, чем с антикварной вазой, кристалл выдерживает огромные нагрузки на разрыв, но чрезвычайно хрупок.

После химического и рентгеноскопического исследования для проверки чистоты кристалла и правильности молекулярной решетки, заготовку помещают в установку для резки кремния. Она разделяет кристалл на пластины толщиной около 1 миллиметра при помощи проволочной пилы с алмазным напылением.

Конечно, не обходится без повреждений. Какой бы острой ни была пила, после нарезки, на поверхности пластин остаются микроскопические дефекты. Так что за нарезкой следует этап полировки.

Но даже после обработки в мощной шлифовальной машине пластины кремния ещё недостаточно гладкие, чтобы пустить их на производство микрочипов. Поэтому полировку повторяют снова и снова уже с использованием химических реагентов.

В результате получается поверхность, по сравнению с которой, зеркало напоминает крупную наждачную бумагу. Такая пластина без разрывов и микродефектов становится основой для миллионов микроэлектронных устройств, образующих микросхему. Очищенные от пыли, кремниевые диски, которые принято называть «вэйфер» или «вафля» в герметичных контейнерах отправляются в чистую комнату.

В чистой комнате

В 1958 году изобретателю интегральной микросхемы Джеку Кирби удалось совершить прорыв, разместить на своей схеме один транзистор. В наши дни число логических элементов микропроцессора перевалило за миллиард и продолжает удваиваться каждые два года в соответствие с законом Мура.

Работа с такими микроскопическими деталями ставит перед изготовителями чипов серьезный вызов, поскольку даже единственная пылинка может погубить будущее изделие. Поэтому цеха площадью в пару тысяч квадратных метров, полностью изолируют от внешнего мира, оснащают сложнейшими системами очистки и кондиционирования воздуха, делающими его 10000 раз чище, чем в хирургической палате.

Все специалисты, работающие в такой чистой комнате, не просто соблюдают стерильность, но и носят защитные костюмы из антистатических материалов, маски, перчатки. И все же, несмотря на все предосторожности, чтобы уменьшить риск брака, компании-производители процессоров стараются автоматизировать максимум операций, производимых в чистой комнате, возложив их на промышленных роботов.

Процесс изготовления процессоров поставлен на конвейер. Доставленная в герметичном боксе идеально ровная «вэйфер» проходит через 400-500 технологических операций и выходит из цеха только спустя несколько месяцев уже в виде готового микрочипа.

Создание из «вафли» микрочипа подразумевает построение сложнейшей технологической цепочки, описать которую в деталях нет никакой возможности из-за ограничений на объемы статьи. Даже если бы их не было, компании вроде Intel и AMD вовсе не спешат делиться секретами производства. В конструкторских отделах компаний проектируются сложнейшие трехмерные схемы взаимного расположения элементов процессора - топологии микросхем. Они представляют собой многоуровневое нагромождение элементов, которое разделяется на слои и послойно наносится на кремниевую подложку. Делать это вручную, конечно же невозможно, слишком тонкий процесс, слишком мелкие элементы, буквально нанометрового размера.

Процессоры Intel восьмого поколения, известные под обозначением Coffee Lake, усеяны 14 нанометровыми транзисторами, AMD анонсировала второе поколение процессоров AMD Ryzen, известное под кодовым названием Pinnacle Ridge построенных на 12 нанометровых элементах. Новейшие видеокарты NVIDIA с архитектурой ядер Volta также построены по 12 нанометровой технологии. Система на чипе Qualcomm Snapdragon 835 еще миниатюрнее - всего 10 нанометров. Постоянно уменьшать размеры функциональных элементов процессора и, следовательно, увеличивать его производительность, удается благодаря совершенствованию технологии под названием фотолитография.

В общих чертах этот процесс можно описать следующим образом:

Сначала пластина кремния покрывается основой - материалом, которой должен будет стать частью будущей схемы, затем поверх равномерным слоем наносится химический реагент, чувствительный к свету. Этот состав выполнит всю работу, но суть позже.

Прежде из корпоративных архивов извлекается хранимая в строжайшем секрете подробная схема процессора. Ее нижний слой представляют в виде негатива и переносят на фотошаблон -защитную пластину, действующую подобно трафарету. Она значительно больше чипа, так что проходящий сквозь нее свет фокусируют при помощи сложной системы линз, уменьшая проецируемое изображение до нужного размера.

В тех местах, где свет не достигает кремния, пластина остается нетронутой, в освещенных он инициирует реакцию в химическом реагенте, меняющую его свойства. Затем будущий процессор обработают еще одним составом, и эти участки растворятся, оставив только те области, что не подвергались воздействию. Они-то и образуют токопроводящие логические элементы процессора.

После на пластину нанесут слой диэлектрика и поверх добавят новые компоненты процессора, опять же, при помощи фотолитографии.

Некоторые слои нагреваются, на некоторые воздействуют ионизированные плазмы, а другие покрываются металлом. Каждый тип обработки изменяет свойства слоя и медленно создает часть головоломки, формирующей конкретную модель чипа. В результате получается своеобразный слоёный пирог, где у каждого слоя своя функциональность и они связаны между собой сложным образом по средствам «дорожек» из атомов меди, которую осаживают на кремниевую подложку из раствора сульфата меди, пропуская через него электрический ток.

Это завершающий этап обработки, после которого микрочипы проверяют на работоспособность. Несмотря на все меры предосторожности и многодневные усилия процент брака остается высок. Роботы выберут и вырежут из кремниевой пластины только 100% работоспособные чипы.
Они будут рассортированы по показателям энергоэффективности, токам, и максимальным рабочим частотам, получат различные обозначения и, в конечном счете, будут проданы по различной цене.

Последние штрихи

На пути к покупателям процессоры покидают чистую комнату и отправляются на сборочную линию, где готовую микросхему приклеивают на квадрат, называемый подложкой. Кристалл спаивается с ней в специальной печи при температуре 360 градусов Цельсия.

Затем чип накрывается крышкой. Она служит и для защиты все еще хрупкого кремния от повреждений и для отвода от него тепла. Вы наверняка хорошо ее себе представляете, именно к крышке будет прижиматься основание системы охлаждения, будь то кулер или теплообменник СВО (системы водяного охлаждения). Это не менее ответственный этап, чем предыдущий. Ведь от того, насколько хорошо крышка процессора отводит тепло от кристалла во многом зависит стабильность и скорость его работы, его будущая максимальная производительность.

Старые процессоры Intel буквально припаивались к теплораспределительным крышкам. Однако последние поколения фирменных чипов получают прокладку-термоинтерфейс между кристаллом и крышкой и охлаждаются хуже, что очень огорчает энтузиастов компьютерного железа, желающих выжать максимум из своих приобретений. Дошло до того, что они «скальпируют» процессоры - самостоятельно снимают с них теплораспределитель и заменяют термоинтерфейс на более эффективный. Но не будем отвлекаться на хитрости оверклокинга, поскольку процессор еще не готов.

Завершающий этап - создание электрических контактов, которые свяжут микропроцессор с материнской платой компьютера. Обычно для этого изготавливают оловянные цилиндрики, так называемые «ножки» процессора, которые сначала приклеиваются, а затем припаиваются к подложке, где для них заранее предусмотрены места. Для микрочипов с большим количеством связей вместо ножек иногда используют мелкие оловянные шарики, так как они крепче и надежнее, однако в последнее время от них стали отказываться в пользу простых контактных площадок.

Законченный микрочип промывают в растворе воды с растворителем, чтобы удалить лишний флюс и грязь, а затем проводят финальную проверку качества проделанной работы. Это могут быть как стресс-тесты производительности, как в чистой комнате, так и более суровые испытания. Так, чипы, предназначающиеся для работы в экстремальных условиях, например, в космической и военной отраслях, помещаются герметичные в корпуса из керамики и многократно тестируются при экстремальных температурах в вакуумных камерах.

Затем, в зависимости от назначения микропроцессора, он отправляется прямо в руки покупателей, а затем в сокеты материнских плат, или на другие заводы, где маленький кремниевый кристалл займет свое место на компьютерной плате видеокарты, космического спутника, умного холодильника, а может быть попадет в корпус смартфона.