編譯器知識拾零
編譯器,是將便于人編寫,閱讀,維護的高級計算機語言翻譯為計算機能識別,運行的低級機器語言的程序。編譯器將源程序(Source program)作為輸入,翻譯產(chǎn)生使用目標(biāo)語言(Target language)的等價程序。源程序一般為高級語言(High-level language),如Pascal,C++等,而目標(biāo)語言則是匯編語言或目標(biāo)機器的目標(biāo)代碼(Object code),有時也稱作機器代碼(Machine code)。
一個現(xiàn)代編譯器的主要工作流程如下:
源程序(source code)→預(yù)處理器(preprocessor)→編譯器(compiler)→匯編程序(assembler)→目標(biāo)程序(object code)→連接器(鏈接器,Linker)→可執(zhí)行程序(executables)
目錄
1 工作原理
2 編譯器種類
3 預(yù)處理器(preprocessor)
4 編譯器前端(frontend)
5 編譯器后端(backend)
6 編譯語言與解釋語言對比
7 歷史
8 參見
工作原理
翻譯是從源代碼(通常為高級語言)到能直接被計算機或虛擬機執(zhí)行的目標(biāo)代碼(通常為低級語言或機器言)。然而,也存在從低級語言到高級語言的編譯器,這類編譯器中用來從由高級語言生成的低級語言代碼重新生成高級語言代碼的又被叫做反編譯器。也有從一種高級語言生成另一種高級語言的編譯器,或者生成一種需要進一步處理的的中間代碼的編譯器(又叫級聯(lián))。
典型的編譯器輸出是由包含入口點的名字和地址以及外部調(diào)用(到不在這個目標(biāo)文件中的函數(shù)調(diào)用)的機器代碼所組成的目標(biāo)文件。一組目標(biāo)文件,不必是同一編譯器產(chǎn)生,但使用的編譯器必需采用同樣的輸出格式,可以鏈接在一起并生成可以由用戶直接執(zhí)行的可執(zhí)行程序。
編譯器種類
編譯器可以生成用來在與編譯器本身所在的計算機和操作系統(tǒng)(平臺)相同的環(huán)境下運行的目標(biāo)代碼,這種編譯器又叫做“本地”編譯器。另外,編譯器也可以生成用來在其它平臺上運行的目標(biāo)代碼,這種編譯器又叫做交叉編譯器。交叉編譯器在生成新的硬件平臺時非常有用。“源碼到源碼編譯器”是指用一種高級語言作為輸入,輸出也是高級語言的編譯器。例如: 自動并行化編譯器經(jīng)常采用一種高級語言作為輸入,轉(zhuǎn)換其中的代碼,并用并行代碼注釋對它進行注釋(如OpenMP)或者用語言構(gòu)造進行注釋(如FORTRAN的DOALL指令)。
預(yù)處理器(preprocessor)
作用是通過代入預(yù)定義等程序段將源程序補充完整。
編譯器前端(frontend)
前端主要負(fù)責(zé)解析(parse)輸入的源程序,由詞法分析器和語法分析器協(xié)同工作。詞法分析器負(fù)責(zé)把源程序中的‘單詞’(Token)找出來,語法分析器把這些分散的單詞按預(yù)先定義好的語法組裝成有意義的表達式,語句 ,函數(shù)等等。 例如“a = b + c;”前端詞法分析器看到的是“a, =, b , +, c;”,語法分析器按定義的語法,先把他們組裝成表達式“b + c”,再組裝成“a = b + c”的語句。 前端還負(fù)責(zé)語義(semantic checking)的檢查,例如檢測參與運算的變量是否是同一類型的,簡單的錯誤處理。最終的結(jié)果常常是一個抽象的語法樹(abstract syntax tree,或 AST),這樣后端可以在此基礎(chǔ)上進一步優(yōu)化,處理。
編譯器后端(backend)
編譯器后端主要負(fù)責(zé)分析,優(yōu)化中間代碼(Intermediate representation)以及生成機器代碼(Code Generation)。
一般說來所有的編譯器分析,優(yōu)化,變型都可以分成兩大類: 函數(shù)內(nèi)(intraprocedural)還是函數(shù)之間(interprocedural)進行。很明顯,函數(shù)間的分析,優(yōu)化更準(zhǔn)確,但需要更長的時間來完成。
編譯器分析(compiler analysis)的對象是前端生成并傳遞過來的中間代碼,現(xiàn)代的優(yōu)化型編譯器(optimizing compiler)常常用好幾種層次的中間代碼來表示程序,高層的中間代碼(high level IR)接近輸入的源程序的格式,與輸入語言相關(guān)(language dependent),包含更多的全局性的信息,和源程序的結(jié)構(gòu);中層的中間代碼(middle level IR)與輸入語言無關(guān),低層的中間代碼(Low level IR)與機器語言類似。 不同的分析,優(yōu)化發(fā)生在最適合的那一層中間代碼上。
常見的編譯分析有函數(shù)調(diào)用樹(call tree),控制流程圖(Control flow graph),以及在此基礎(chǔ)上的 變量定義-使用,使用-定義鏈(define-use/use-define or u-d/d-u chain),變量別名分析(alias analysis),指針分析(pointer analysis),數(shù)據(jù)依賴分析(data dependence analysis)等等。
上述的程序分析結(jié)果是編譯器優(yōu)化(compiler optimization)和程序變形(compiler transformation)的前提條件。常見的優(yōu)化和變新有:函數(shù)內(nèi)嵌(inlining),無用代碼刪除(Dead code elimination),標(biāo)準(zhǔn)化循環(huán)結(jié)構(gòu)(loop normalization),循環(huán)體展開(loop unrolling),循環(huán)體合并,分裂(loop fusion,loop fission),數(shù)組填充(array padding),等等。 優(yōu)化和變形的目的是減少代碼的長度,提高內(nèi)存(memory),緩存(cache)的使用率,減少讀寫磁盤,訪問網(wǎng)絡(luò)數(shù)據(jù)的頻率。更高級的優(yōu)化甚至可以把序列化的代碼(serial code)變成并行運算,多線程的代碼(parallelized,multi-threaded code)。
機器代碼的生成是優(yōu)化變型后的中間代碼轉(zhuǎn)換成機器指令的過程。現(xiàn)代編譯器主要采用生成匯編代碼(assembly code)的策略,而不直接生成二進制的目標(biāo)代碼(binary object code)。即使在代碼生成階段,高級編譯器仍然要做很多分析,優(yōu)化,變形的工作。例如如何分配寄存器(register allocatioin),如何選擇合適的機器指令(instruction selection),如何合并幾句代碼成一句等等。
編譯語言與解釋語言對比
許多人將高級程序語言分為兩類: 編譯型語言 和 解釋型語言 。然而,實際上,這些語言中的大多數(shù)既可用編譯型實現(xiàn)也可用解釋型實現(xiàn),分類實際上反映的是那種語言常見的實現(xiàn)方式。(但是,某些解釋型語言,很難用編譯型實現(xiàn)。比如那些允許 在線代碼更改 的解釋型語言。)
歷史
上世紀(jì)50年代,IBM的John Backus帶領(lǐng)一個研究小組對FORTRAN語言及其編譯器進行開發(fā)。但由于當(dāng)時人們對編譯理論了解不多,開發(fā)工作變得既復(fù)雜又艱苦。與此同時,Noam Chomsky開始了他對自然語言結(jié)構(gòu)的研究。他的發(fā)現(xiàn)最終使得編譯器的結(jié)構(gòu)異常簡單,甚至還帶有了一些自動化。Chomsky的研究導(dǎo)致了根據(jù)語言文法的難易程度以及識別它們所需要的算法來對語言分類。正如現(xiàn)在所稱的Chomsky架構(gòu)(Chomsky Hierarchy),它包括了文法的四個層次:0型文法、1型文法、2型文法和3型文法,且其中的每一個都是其前者的特殊情況。2型文法(或上下文無關(guān)文法)被證明是程序設(shè)計語言中最有用的,而且今天它已代表著程序設(shè)計語言結(jié)構(gòu)的標(biāo)準(zhǔn)方式。分析問題(parsing problem,用于上下文無關(guān)文法識別的有效算法)的研究是在60年代和70年代,它相當(dāng)完善的解決了這個問題?,F(xiàn)在它已是編譯原理中的一個標(biāo)準(zhǔn)部分。
有限狀態(tài)自動機(Finite Automaton)和正則表達式(Regular Expression)同上下文無關(guān)文法緊密相關(guān),它們與Chomsky的3型文法相對應(yīng)。對它們的研究與Chomsky的研究幾乎同時開始,并且引出了表示程序設(shè)計語言的單詞的符號方式。
人們接著又深化了生成有效目標(biāo)代碼的方法,這就是最初的編譯器,它們被一直使用至今。人們通常將其稱為優(yōu)化技術(shù)(Optimization Technique),但因其從未真正地得到過被優(yōu)化了的目標(biāo)代碼而僅僅改進了它的有效性,因此實際上應(yīng)稱作代碼改進技術(shù)(Code Improvement Technique)。
當(dāng)分析問題變得好懂起來時,人們就在開發(fā)程序上花費了很大的功夫來研究這一部分的編譯器自動構(gòu)造。這些程序最初被稱為編譯器的編譯器(Compiler-compiler),但更確切地應(yīng)稱為分析程序生成器(Parser Generator),這是因為它們僅僅能夠自動處理編譯的一部分。這些程序中最著名的是Yacc(Yet Another Compiler-compiler),它是由Steve Johnson在1975年為Unix系統(tǒng)編寫的。類似的,有限狀態(tài)自動機的研究也發(fā)展了一種稱為掃描程序生成器(Scanner Generator)的工具,Lex(與Yacc同時,由Mike Lesk為Unix系統(tǒng)開發(fā))是這其中的佼佼者。
在70年代后期和80年代早期,大量的項目都貫注于編譯器其它部分的生成自動化,這其中就包括了代碼生成。這些嘗試并未取得多少成功,這大概是因為操作太復(fù)雜而人們又對其不甚了解。
編譯器設(shè)計最近的發(fā)展包括:首先,編譯器包括了更加復(fù)雜算法的應(yīng)用程序它用于推斷或簡化程序中的信息;這又與更為復(fù)雜的程序設(shè)計語言的發(fā)展結(jié)合在一起。其中典型的有用于函數(shù)語言編譯的Hindley-Milner類型檢查的統(tǒng)一算法。其次,編譯器已越來越成為基于窗口的交互開發(fā)環(huán)境(Interactive Development Environment,IDE)的一部分,它包括了編輯器、連接程序、調(diào)試程序以及項目管理程序。這樣的IDE標(biāo)準(zhǔn)并沒有多少,但是對標(biāo)準(zhǔn)的窗口環(huán)境進行開發(fā)已成為方向。另一方面,盡管近年來在編譯原理領(lǐng)域進行了大量的研究,但是基本的編譯器設(shè)計原理在近20年中都沒有多大的改變,它現(xiàn)在正迅速地成為計算機科學(xué)課程中的中心環(huán)節(jié)。
在九十年代,作為GNU項目或其它開放源代碼項目的一部分,許多免費編譯器和編譯器開發(fā)工具被開發(fā)出來。這些工具可用來編譯所有的計算機程序語言。它們中的一些項目被認(rèn)為是高質(zhì)量的,而且對現(xiàn)代編譯理論感性趣的人可以很容易的得到它們的免費源代碼。
大約在1999年,SGI公布了他們的一個工業(yè)化的并行化優(yōu)化編譯器Pro64的源代碼,后被全世界多個編譯器研究小組用來做研究平臺,并命名為Open64。Open64的設(shè)計結(jié)構(gòu)好,分析優(yōu)化全面,是編譯器高級研究的理想平臺。
編譯器是一種特殊的程序,它可以把以特定編程語言寫成的程序變?yōu)闄C器可以運行的機器碼。我們把一個程序?qū)懞茫@時我們利用的環(huán)境是文本編輯器。這時我程序把程序稱為源程序。在此以后程序員可以運行相應(yīng)的編譯器,通過指定需要編譯的文件的名稱就可以把相應(yīng)的源文件(通過一個復(fù)雜的過程)轉(zhuǎn)化為機器碼了。
編譯器工作方法
首先編譯器進行語法分析,也就是要把那些字符串分離出來。然后進行語義分析,就是把各個由語法分析分析出的語法單元的意義搞清楚。最后生成的是目標(biāo)文件,我們也稱為obj文件。再經(jīng)過鏈接器的鏈接就可以生成最后的可執(zhí)行代碼了。有些時候我們需要把多個文件產(chǎn)生的目標(biāo)文件進行鏈接,產(chǎn)生最后的代碼。我們把一過程稱為交叉鏈接。
c++相關(guān)文章:c++教程
評論