2017/5/22

創業 – 學Lucy看世界


我很喜歡這部電影所傳達的一些觀點: 如同量子纏結一般, 不只是人的思維, 整個宇宙萬物彼此之間都充斥著無數條人類思維不可視的纏結. 所有萬物的信息都是連通的, Lucy隨著意識與知覺的開發, 到最後可完全存取這「全球心智. 想看什麼? 想聽什麼? 都能隨心所欲並預知一切.



每個人觀點與解讀多有所不同, 但筆者傾向將想法聚焦在這「萬物都有人類思維不可視的纏結」上. 為何不可視呢? 因為「纏結」隱身於你我所存在的四維時空之外(科學家普遍相信有更高維度存在於維觀的小尺度).

老實說, 筆者真不愛科學家總是拿「玻色子(光子)」來解釋電磁相互作用與傳遞的現象, 姑且不論真相如何, 好沒創意呢!

科學家習慣以降維(Principal Component Analysis)來思考四維時空之外的線索, 即把四維時空內的所有事物都抽象化成類似一張二維的膜. 倘若更高維度也存在於巨觀的大尺度(這張膜就會像漂浮於其中), 那真的可以拿它來解釋許多我始終想不通的怪異現象喔, 比如說暗能量、重力或空間中兩顆彼此吸引而移動中的磁球. 不難想像當這條隱身的「物與物之間的纏結」在更高維「流形(manifolds)」中遭到鉤子般的東西轟擊, 則物與物之間就會在你我所處的時空之中有所互動.



以上純屬虛構, 只是筆者個人(unqualified)的宇宙觀, 請不要當真哪! 我們還是回來研究「萬物都有人類思維不可視的纏結」這個趣味上, 因為筆者正在學著用Lucy的觀點來檢視當今的許多金流(信用或數字流)運轉與商業模式呢! 關於人與萬物本身都存在著數條看不見的虛線, 我把它簡單的用如下圖表示.



而人與人或萬物之間若因為「注意力」而動態產生鏈結(如下圖藍色箭頭的實線), 則有機會以「等價的錢、信用或數字」動態產生鏈結(如下圖橙色箭頭的實線)來進行「交換」. 沒錯, 這是傳統所謂的「供需cycle.




若將人或物稱之為一個節點, 當節點匯集夠多的人或物時自然演變為一個「平台的營運模式」. 節點與節點之間的交換將衍生出「交換的服務模式」, 它們鼓勵你擴大注意力與信用並預支未來的財富去擴大交換並從中收取服務費與利息, 而節點之間的交換從原始的「金錢」演變成「信用」.



而在更巨觀的框架外, 大節點好比建構大系統的平台/媒合商(可搓合人/物資源). 而大節點之間, 有人掌握到了「注意力匯集」的力量(Google)! 匯集起來的「注意力」並重新分發的過程也衍生出新的「支付與服務模式」, 使得交換的內涵從「信用」再擴大為「流量(注意力)」與一堆「數字」. 它們逐漸擴大成有自己的「現金流」能從事其它產業的投資(有人說郭台銘先生事實上是「銀行家」您覺得呢?)而成為「養」的產業(不知道除了電信業, Costco、阿里巴巴Amazon算不算?).

走火入魔的「注意力經濟」也引入巨量資料分析, 它們記錄每個人過往的GPS、推文、影音、生物訊號、社群活動等許多各種資料來macine-learn/預測我們的行為、癖好、政黨傾向、消費能力(與潛在消費可能)等等, 希望從中萃取更宏觀的模型與洞見並有機會以此衍生出各種商業模式.

我們若將視角持續往外移出, 上圖的許多節點組成的流動將縮成一條線. 我們把它拆分成從事生產的藍色骨幹與非從事生產的橙色骨幹, 整個產業間的淨資產流動不遵守熱力學定律(它被訓練且擴張了), 它們彼此之間又交互影響、匯集與分流, 如下圖.




在這裡面, 有人注意到了在各領域都有一些閒置人力、廠訪、設備/工具或軟體等的資源, 它們事實上都還有產能只是缺乏媒合(讓彼此搓合), 因此「共享經濟」又被廣泛的拿來討論. 未來有沒有可能出現一種一條龍式的新服務, 巨觀來看像群眾外包的reassembly. 舉例:

1 構想的prototype實做(搓合有能力的閒置工匠)
2 產品可能性諮詢(搓合有能力的閒置專家顧問)
3 成員磋合到產品的實現(搓合各領域有能力的閒置技術員, 閒置廠房, 閒置設備等)
4 友善簡單的支付與交易平台(從現金, 信用, 流量到數字的交換)
  (若按個讚就完成交易, 應該會衍生許多發明)

這些暫時閒置的各領域資源可以動態重組/動態調配, 也不用真的成立有自己廠房的實體公司,讓一般人只要能貢獻好的點子, 就有機會共享/共創價值, 也解決不少失業者(但仍有能力)或閒置軟/硬設備的問題吧? (不曉得台灣製造服務業切入亞馬遜網銷硬體創新生產供應鏈的首宗案例: HWTrek未來發展如何?)

若小孩一出生就沉浸在一個萬物聯網與支付系統完善的環境, 他們的腦神經的成長方式自然是跟著這樣的環境做鍊結而成長的, 他們自然會有創新的洞見(Insight)與創新(Innovation). 在一個聯網與信用支付發達的國家, 任何人應該都能在這樣的系統架構下產生許多「交換數字」的發明(Invention), 例如「PayPal」、「Uber」、「AirDonkey」等這樣的商業模式. 相信這也是目前台灣教育與生活環境比較欠缺的, 我們培養出來的菁英比較沒參與到類似的系統性架設與心智歷程, 而我們通常只能從中分杯羹. (最近有個WeMo正在孵現, 期待這群年輕人可以成功)

如果支付跟「讚」一樣容易, 年輕人就會自己想出很多驚人的創意, 無須政府操心, 政府只要把基礎建設做好, 閒置(但仍有產能)的資源媒合平台做好即可. 而在完善的環境下, 我們的每一筆「數字交換」都可以被記錄/追蹤, 也就是該繳的稅是一毛都跑不掉的, 國家的稅賦會更完善, 不是嗎?




2017/5/20

(­六)淺談晶片實體設計-回歸(Regression)


有時候事情往往不是我們有「guts」就能在我們一聲令下讓許多人一起跟隨, 因為這些原本在不同領域分工的人都各自有彼此不對齊的「錨」. 倘若你是公司的高階主管, 那你比較有機會可以拋出較遠的「錨」讓大家來校準, 也可能夠比較快收到效果. 否則我們只能先當個傳教師, 通盤地研究各種方法(比如該領域新型專利、論文以及tier-one的作法), 並例舉數個可能的階段性範例來跟大家溝通. 無論範例可行與否, 主要目的為激發各領域的人集體思考, 此時會有討論與辯論, 而這正是我們(低階人員)比較可以期待的「內化作用. 它的心智過程較為緩慢, 但是當「Solution」是由各領域的人自己想/提出來, 往前跨的步伐將會是自己主動的, 而匯整各領域一起向前的動能就會變的有趣而巨大. (不要陷入爭寵或誰follow誰的窄框思維而壞了大事)

因為「Business Impact, 這一章節內容有涉及到較多的專利與論文研究, 讀者需要花一些心思與力氣去搜尋以跨過專利高牆並避免踩中專利地雷. 至於筆者呢, 則天馬行空多想/寫一些, 以免哪天被人專利走了又不分紅! 好比「擴增行車指示-Augmented Driving Directions (ADD)」這個點子, 嚴董不call meBMW竟然把它商品化了! 不過真的有國外廠商寫信跟筆者要報價呢, 把玩笑認真了(). 因此, 筆者申(claim): 在本篇文章之後的概念所衍生之專利通通無效, ! (開玩笑的)




畫大餅(目的)
相信許多晶片設計公司除了Foundry所提供WAT之外都有收集自己獨門的後矽資料以利後續製程調控與導出更適當的實體設計配方, 例如用速度-功耗的散佈圖(以下稱之為process control window, PCW)等來追蹤製程調配/演進. 有時候當晶片於前期生產與晶圓級測試(CP)階段, 我們看到PCW的散佈像是飛到了外太空(它可能是市場策略性故意或是Foundry的製程控制偏差), 如下圖橙色橢圓. 但這通常不致命, 只要「設計餘量(design margin)」能將PCW凝聚力控制在一定程度/範圍, Foundry可以往如下圖右中的AB路徑調整. 先撇開公司//系統整合與branding等發展策略, 於此tier-one跟我們的差別在於: SPICE model與後矽靶心的校準程度、實體設計階段的時序驗證配方(包括library re-Ktiming sign-off recipe)與後矽製程配方/調控的能力.



我們先倒過來看後矽製程配方/調控能力的綜效來理解我們跟tier-one的差距, 如上圖右藍色框為透過某種手段(Calibration)PCW更進一步的窄化, 而這是傳統Foundry製程配方/調控所做不到的! Calibration」早期普遍使用在類比電路上, 比如要跟外界通信前先跟對方彼此問候並互探虛實以把自己調整到能跟對方溝通的工作環境/狀態. 把它套用在晶片生產流程上, 即所謂晶片評等的自動化(binning automation)實現. 它的「business impact」是非常巨大的! 從上圖看, 既使將晶片投到製程控制力不算優秀的Foundry生產, 晶片自身都能夠校準到當初實體設計規劃的目標範圍(可以不這麼依賴Foundry能力). 若再搭配Foundry製程的調整, 從戰略/市場上可以衍生出遠超出業界水平的工藝/產品而且是「Foundry Independent!

(請注意! 如我們上次在「風險決策」中談論到的, 我們要計較/比較的是橢圓形內被可以被model出來的probability density function, 而不是橢圓形shape大小)


在此, 我們談論的是將原本靜態晶片評等手法的自動化過程, 目的是製程偏移的補償與效能校準, 而動態的電壓調控(adaptive voltage scaling)手法須搭建在此基礎下, 否則系統可能得包含容錯機制或抓很大的電壓-頻率餘量(margin)在各檔次之間以避免過度補償, 因為系統從偵測電路、決策判斷、發指令給電源管理到補償監控等整個close-loop的反饋時間可能遠超過數微秒(us)等級, 系統若跟不上將可能掛點而造成除錯的困難

Calibration」也可以解決部份令人苦惱的「可靠性」問題, 透過比較晶片出廠前的一些特徵(features)以修正原本machine-learning的加權算法. 「老化問題」在前數百小時burn-in測試時是最不好預測的, 因為在DC時間NBTI效應(電洞被閘極材料補捉)可能提高PMOS閘通道臨界電壓(Vt)使得PMOS變慢卻也反過來加速NMOS, AC時間的測試程式能否充分模擬未來HCI效應(電子被閘極材料補捉使得NMOS變慢)也是難題. 不過, 近代的手機晶片為了延長待機時間一般都有實做「MTCMOS Power-Gating」機制, 這也使得未來長時間「老化」與NBTI有很強的關聯性, 比較容易掌握趨勢. 因為power switch dominates, 晶片中switchable區塊與always-on的區塊可能要注意彼此之間的差異或預埋介面間的餘量(interface margin).



預測(Prediction)
在前面文章中我們先倒過來看/畫大餅(直接「錨」定懸崖邊), 然而要實做對PCW自動調控的機制(攜安全配備而非徒手), 需要先對晶片採樣並選取適當的特徵(features)才有機會作資料挖礦、套用機器學習(machine-learning)採到模式並做趨勢預測(prediction)與補償(compensation). 如圖所示, 大家在比賽的是: 如何用一群特徵(features)經加權過後形成一個新的維度(dimension)來預測我們目標特徵/維度(具代表性的functional speed)? 而其中相關性(correlation)的散佈愈窄越好, 因為任何肥胖的相關性都將增加一些設計餘量(design margin)或折損一些競爭力(competitiveness).



慢慢的我們倒過來會去計較SPICE model距離後矽靶心的偏差(這不要命), 更關心維持彈道散佈的凝聚力(這比較要命也是Foundry功力的差異, 但我們現在可以用系統方式補償)以調整適當的「設計餘量(design margin). 我們在前面文章中至少舉三個例子: 期待千分之三的教條來含蓋所有可能彈道散佈的想法是錯的! 例如, 於「半導體透鏡」中視覺化過的資料顯示timing window的趨勢不是我們原本想像的那樣單調尤其在28nm. 此外hold-time是相對論, 我們於「風險決策」中也提到「微笑」使得傳統的3-sigma design欠缺周詳, 它不但過修也不安全(若我們打算做voltage binning的話).

我們可以例舉更多(但避免長篇大論), 例如: 靜態的on-chip variation (processPDN quality綜效)是可量測與反算得到的, 但絕對不是Foundry所說的10mVslow-SSGNP33mVfast-FFGNP(design dependent), 它跟process無關也不會有cancellation效應! 根本不應該把dynamic IR效應跟timing隨便用線性關係纏結在一起, voltage fluctuation看的是落入信號轉態區間內的積分而不是看絕對值大小(這部份放入cancellation筆者比較沒意見). 但也不要浪費時間真去用dynamic IR分析結果反算effective voltageSTA, 因為它是pattern dependent, 就算toolqualify我們也需要以小於皮秒(ps)等級的極高解析度做曠日廢時的分析, 若當我們需面對物理實踐上難以找到具代表性的pattern而且只能跑不過短短幾微秒(us)框的現實. (path-based SPICEwaiver倒是比較可行, 代價較小對實體設計工程人員也較友善) 


相關性(Correlation)
取得好相關的過程往往無法一步登天, 除非我們的晶片非常單調且沒甚麼複雜性, 然而我們卻又期待在極早期(越早越好)能夠得到與目標特徵(functional speed)有良好相關性之標的物(ROSIDD)以節省測試與封裝成本並提高產能.


在初期的晶圓級封裝前(Chip Probe, CP)階段, 受限於測試成本我們只能拿到幾組基本物理電性、RO與簡單的測試樣本(在幾組不同的電壓條件), 於封裝後測試(Final Test, FT)的工程階段我們可能再追加更細微的電壓/溫度對RO敏度/刻度校驗(calibration). 然而此時的後矽資料也已經豐富至足以追蹤製程演進、摻雜(N/P recipe)、晶片間變異性(WTWWIWDTD)、光罩、平坦化等問題乃至於晶片內部的變異性(WID).

幸運的是, 運用機器學習(machine-learning)於實體設計的過程我們不太需要高階的核心函數(kernel function), 因為這些我們可以不花費太多額外力氣得到的基本特徵(ROSIDDfunctional speed等等)彼此之間在巨量樣本的機率密度分佈中呈現簡單的線性回歸. 我們最終的目標之一是在(可行的)量產測試階段用最精簡的成本去預測最終封裝並整合至手機平台的functional speed, 因此我們可能需要在工程樣本各階段盡快取得廣泛的各種特徵, 並在最後剔除/收斂至少數幾個主控特徵(dominate features).



等效電壓敏度與刻度(Voltage Sensitivity & Calibration)
在初期工程樣本測試階段(通常是封裝後FT), 我們必須對RO與電壓做刻度化, 基本上在相同製程下任一相同的原件在操作電壓範圍內的敏度(RO vs. voltage)趨勢/斜率是線性且固定的, 如下圖. 製程相對偏快的晶片其電壓敏度的截距較高, 而製程相對偏慢的晶片其電壓敏度的截距較低, 但它們的敏度(斜率)是固定的.



敏度(斜率)固定的特性非常適合拿來做晶片工作電壓差的量尺, 我們可能不知道晶片運作時的「絕對」電壓值, 但是由晶片內部各個RO點反推算而得的「相對」電壓值是相當準確的. 這種長時間/靜態的等效電壓降量測手法相當普遍, 但缺點是動態的反饋時間過慢(好幾us等級), 我們無法透過這個方式得到奈秒(ns)等級解析度的電壓降. 若想了解GHz等級的dynamic voltage fluctuation, 目前較流行的做法也是類似用machine-learning方式(這有交大的專利), 我們稍後提到.



最壞的打算
每當我們提議一個新的做法(當然先往好的方向想), 我們也都應思考到最壞的案例(worse case). 若連RO或什麼「特徵電路」都沒有, 當然也沒甚麼好回歸的. 有些人會對於ROfunction patterncorrelation感到失望, 它可能很肥胖, 而前面我們提到: 任何肥胖都將增加我們的guard-band. 我們暫且不要因為氣餒而將其放棄, 這不過是我們最壞的情況, 不是嗎? 我們有很多手段都可以讓現在更好.

提高維度(增加新的features), 是機器學習(machine-learning)領域中關於分群演算法(support vector machine, SVM)常用的的手法. 如下圖, 我們在二維的面只有x/y座標資料時, 我們找不到一條直線(cut)來分割兩群物理性不同的晶片樣本. 而當我們再增加SIDD特徵這個維度時, 我們就很容易找到一個平面(cut)來分割這兩群晶片樣本. 我們可以持續增加新的維度進來(但我們很難圖釋超過三維的案例), 而次高維的流形(cut)SVM領域稱之為「超平面(hyper-plane).



當我們在許多單一RO對其它特徵(SIDDFmax)之相關性(correlation)中選擇一個最佳的方案時, 這就成了我們最壞的情況(worse case). 同樣的, 增加另一個RO維度將使得原本各自對Fmaxcorrelation從二維的橢圓變成三維的橄欖球. 我們有機會找到比worse case更好的分割.




精進
RO在構造上、選擇上與物理實踐上有許多限制, 因此若直接拿它來跟functional speedcorrelation會有一定的物理極限, 因為它畢竟不是/不代表functional path. 因此「特徵電路」的實務上有許多論文/文獻探討與專利可供參考, 比如混雜不同邏輯單元的RO、希望能萃取等效製程WAT P/N recipeRO以及可以監測老化或Vt變化的電路(例如Apple的專利是使用客製化的PMOS主要在NBTI, GUC的專利則是透過RO監測NBTI同時考量HCI效應)等等.

其它關於時序相關的特徵萃取, 有複製數條真實時序關鍵路徑(timing critical path)的電路(這是很早期的專利不建議採用, 因為STA階段無法得知誰是critical)、可以監測setup time windowRazor(2003年被提出運用在ultra low power電路的容錯機制)、修改Razor用來監測hold time window的電路(Intel不知如何拿到的專利, 但應該是無效的)、用來監測clock jitterSticky電路(IBM的專利)以及修改Sticky用來監測dynamic voltage fluctuation的電路(Intel的專利)等等

不過以類比設計或RO為基礎的電路基本上反饋時間太慢(us response time), 此外為了消除第一階的NAND閘本身的變異性干擾, RO級數不能太短. 實做上, RO在量測時至少需讓它振盪個200次以上以消除glitch本身所造成的計數器誤差能小於1%. 因此近代較熱門的動態偵測電路設計(ns response time)都屬於混雜RazorSticky的改良, 稱之為digital code, 而將重點移至後矽電壓/溫度的敏度/刻度校驗(calibration)與訓練(digital code training), 其實骨子裡就是做機器學習(machine-learning)同樣的事! (這部份則有GUC的專利)



特徵點的配置(Signature Allocation)
基於上述, 底下我們以「特徵點」來函蓋所使用的硬體監測器(hard-ware monitor)RO. 許多人會問: 一個晶片要放多少個「特徵點」才夠? 「特徵點」要放甚麼電路? 而答案跟我們的期待的意圖(intention)有關, 即我們最終想看到甚麼? 想改善甚麼?

通常我們的意圖是多面向的: 「檢視SPICE model準確性」、「製程的彈道散佈/追蹤與配方調控」、「製程變異性(WIW/WIW/DTD)與系統性缺陷問題(systematic defeat)」、「on-chip variation到底怎麼一回事?」與「後矽調控(post-silicon tuning)能力」等等. 而最終的「解」將是綜合上述各目的與可付出的實體設計成本(包括面積、時序收斂、軟體測試、工程時間與資料分析等)妥協的結果.

關於「檢視SPICE model準確性」: 我們可能希望RO能涵蓋盡可能多種類別, 例如不同邏輯閘、不同推力(driving strength)、不同摻雜(Vt)與不同通道長度(channel-length), 這部份的成本有機會移至前期的測試晶圓(test chip)而最小化.

關於「製程的彈道散佈/追蹤與配方調控」與「製程變異性(WIW/WIW/DTD)與系統性缺陷問題(systematic defeat): 我們希望能避免只憑少數WAT(974)特徵點的樣本或機台probing而產生製程模型/配方偏差(bias), 我們寧可相信成千上萬個特徵點散佈在整個晶圓上所採樣到的巨量資料. 例如, 一片晶圓若可切割出1000顆晶片, 假設每顆晶片包含50個特徵點, 我們看到的是50,000個非常平滑且高解析度的模型. 這足以看出傳統edge-effect, 光罩或曝光過程產生的光繞射/干涉圖騰與晶圓級的缺陷(systematic defeat). 基於DTD(die-to-die)特徵點的差異, 只需做一些資料統計/分析我們很容易就能擴張框架(scope)WIW(within-wafer)或是WTW(wafer-to-wafer)製程差異等追蹤與評估.





關於「on-chip variation」與「後矽調控(post-silicon tuning)能力」: 前面幾個意圖可能只需少數特徵點即可改善/追蹤製程與彌補WAT之不足, 然而若要能得到WID(within-die)變異性就需要盡可能的多且均勻了. 哪些地方才是特徵點的絕佳位置又不會影響實體設計周期? 這需要工程人員先假設有非常多的網格(例如, 20x20或更多)並設法隨機(但須遵守觀察到的機率模型)產生大量的虛擬晶片使之依循所假設的機率密度函數產生變異性(比如說我們改變SDF再看看其對STA的影響), 再進行剔除. 若想省事或偷懶, 事實上均勻地配置(偵測點彼此之間不能太近), 各個block/voltage domain都有至少一至兩個都可收到不錯的效果.

最後我們對這些離散的特徵值做回歸分析(regression)即可先得到各個晶片的WID on-chip variation分佈(它表面看起來隨機), 而解析度跟我們配置的數量與雜散度相關, 最後再對「大量」的晶片做加權平均我們將可得到包含PDN quality與製程變異等綜效造成的DTD on-chip variation分佈, 而它並非隨機, 它呈結構性且跟製程偏移無關(SS/TT/FF結果接近), 我們必須以此修正timing sign-off recipe, 而傳統3-sigma design救不了它!




動態特徵分析(Dynamic Signature Analysis)



如上圖所示, 在實做上為了避免增加實體工程與設計周期的成本, 我們傾向在次要關鍵(sub-critical)的路徑上選擇安插特徵點(例如使用類似Razor Flop的結構). 一般專利在2003年以前的偵測器電路要小心避免, 2009年之後有較多low power與電路老化偵測相關的研究(這些專利的核准筆者認為有很多是有爭議的?), 直到2013年才開始出現用machine-learningbinning自動化的專利.

次關鍵路徑特徵的選擇需要軟體與前端系統架構工程師的幫忙, 它們比較清楚哪些匯流排、記憶體或狀態機是軟體運做時必經之地(例如TLBcache memory or control state). 搭配經由functional pattern採樣的toggle rate分析、良率模型的建立與yield impact的計算, 我們可以選擇function會踩中且對yield impact較高的路徑來產生數個digital code (或有人稱做signature), 而不再只是使了用數十年的RO. (這部份勢必未來會有許多專利混戰!)



與等效電壓特徵萃取方式不同的是, 動態(GHz response)且能直接與function path相關的特徵萃取是先經過後矽電壓/溫度的敏度/刻度校驗(calibration)程序. 這些散佈在晶片上的特徵點對各種不同的軟體測試程式與其反映於外的電壓/溫度等環境表現將會形成各自獨特的「模式/樣本(pattern), 其過程稱之為「digital code training. 我們可能需要建立一個雜湊表(hash map), 透過機器學習的手法, 我們同樣可以對這些模式進行動態(GHz response)預測.


人類應該在遠古時代就懂得對不同機率事件(雖然「機率」一詞可能尚未被發明)做「加權(weighting), 在心智中計算並啟動「戰或逃反應」以避過種種危機. 在早期半導體製程領域有一群資料分析與統計學家(薪水待遇極為優渥), 他們的工作內容為「試驗設計(design on experiment), 但我們現在利用各種偵測器所收集得的資訊量與特徵(一開始通常會有數千個features)已經無法在人類有限的工程生命週期去試驗設計並取得合適的加權. 然而這是機器學習(machine-learning)的強項, 多虧一些天才數學家們將許多原本複雜的問題formulate成「quadratic可微分」的命題, 而使同時解「多維(特徵)加權」的過程變成在做「矩陣運算」般簡單(如以高斯消去法解行列式問題), 再加上許多無名英雄無私地奉獻各種核心函式庫, 也使得平庸如筆者不用寫太多code也能簡單操作以前只有天才能做的工作!