知乎容器化構建系統：從0到1支撐日近萬次構建部署

知乎 MySQL 數據庫技術 YAML 設計 dbaplus社群 2019-04-24

知乎應用平臺團隊基於Jenkins Pipeline和Docker打造了一套持續集成系統。Jenkins Master和Slave基於Docker部署，每次構建也是在容器中進行。目前有三千個Jenkins Job，支撐著整個團隊每日近萬次的構建和部署量。

整個系統的設計目標是具備以下的能力：

較低的應用接入成本，較高的定製能力：寫一個構建系統配置文件成本要儘可能簡單方便，或者可以通過模板一鍵創建，但又要能滿足應用的各種定製化的需求。
具備語言開放性和部署多樣性：平臺需要能支撐業務技術選型上的多語言，同時，要能滿足應用不同的部署類型，如單純的打包發佈，或者進一步部署到物理機、容器、離線任務平臺等。
構建快和穩定，復現問題成本低：每次構建都在乾淨的容器中，減少非應用本身問題帶來的構建異常。同時，如果構建出現問題，在權限控制的前提下，要能方便開發者自己調試和排查。
推動業界標準以及最佳實踐，同時在代碼合併之前就能更好把控住質量。
整個集群高可用，可擴展，以及具備較低的運維成本。

一、背景

知乎選用Jenkins作為構建方案，因其強大和靈活，且有非常豐富的插件可供使用和擴展。

早期，應用數量較少時，每個開發者都手動創建並維護著幾個Job，各自編寫Jenkins Job的配置，以及手動觸發構建。隨著服務化以及業務類型，開發者以及Jenkins Job數量的增加，我們面臨了以下的問題：

每個開發者都需要去理解Jenkins的基本配置和觸發邏輯，使得配置創建和維護成本高。
構建在物理機上進行，每個應用可能有著不同的版本依賴，構建時會遇到版本衝突，甚至上線之後發現行為不一致導致故障等。
構建一旦失敗，需要開發者能登錄Jenkins Slave所在的物理機進行調試，權限控制成為了一個問題。

於是，一個能方便應用接入構建部署的系統，成為了必須。

二、完整的生命週期

知乎的構建工作流主要是以下兩種場景：

只有Master分支的代碼可以用於線上部署，但支持指定任意的分支進行構建。
所有對Master分支的修改必須通過Merge Request來進行。為了避免潛在代碼衝突導致測試結果不準的情況，對Merge Request上的代碼進行構建前，會模擬跟Master分支的代碼做一次合併。

一個Commit從提交到最後部署，會經歷以下的環節：

開發者提交代碼到GitLab。
GitLab通過Webhook通知到ZAE（Zhihu App Engine，知乎的私有云平臺）。
ZAE將構建的上下文信息，如GitLab倉庫ID，ZAE應用信息給到構建系統Lavie。目前只處理用戶提交MR以及合併到Master分支的事件。
構建系統Lavie讀取應用倉庫中的配置文件後生成配置，觸發一個構建。在構建過程中獲取動態生成的Jenkinsfile，生成Dockerfile構建出應用的鏡像，並跑起容器，在容器中執行構建，測試等應用指定的步驟。
測試成功之後，分別往物理機部署平臺，容器部署平臺，離線任務平臺上傳Artifact，註冊待發布版本的信息，並Slack通知用戶結果。
構建結束，用戶在ZAE上可以進行後續操作，如選擇一個候選版本進行部署。

每個應用的拉取代碼，準備數據庫，處理測試覆蓋率，發送消息，候選版本的註冊等通用的部分，都會由構建系統統一處理，而接入構建系統的應用，只需要在代碼倉庫中包含一個約定格式的配置文件。

三、達到的目標以及中間遇到的問題

1、低接入成本，高定製能力

構建系統去理解應用要做的事情靠的是約定格式的yaml配置文件，而我們希望這個配置文件能足夠簡單，聲明上必要的部分，如環境、構建、測試步驟就能開始構建。

同時，也要有能力提供更多的定製功能讓應用可以使用，如選擇系統依賴和版本，緩存的路徑，是否需要構建系統提供MySQL以及需要的MySQL版本等，以及可以根據應用的類別自動生成配置文件。

一個最簡單的應用場景：

base_image: python2/jessie

build:

- buildout

test:

unittest:

- bin/test --cover-package=pin --with-xunit --with-coverage --cover-xml

一個更多定製化的場景：

base_image: py_node/jessie

deps:

- libffi-dev

build:

- buildout

- cd admin && npm install && gulp

test:

deps:

- mysql:5.7

unittest:

- bin/test --cover-package=lived,liveweb --with-xunit --with-coverage

coverage_test:

report_fpath: coverage.xml

post_build:

scripts:

- /bin/bash scripts/release_sentry.sh

artifacts:

targets:

- docker

- tarball

cache:

directories:

- admin/static/components

- admin/node_modules

為了儘可能滿足多樣化的業務場景，我們主要將配置文件分為三部分：聲明環境和依賴、構建相關核心環節、聲明Artifact類型。

聲明環境和依賴：

image，基礎鏡像，需要指明已提前準備好的語言鏡像。
deps，dependencies的簡寫，聲明使用的系統依賴以及對應的版本。

構建相關核心環節：

build，構建的步驟，如buildout、npm install、或者執行一個腳本。
test，測試環節，應用需要聲明構建的步驟，也可以在這裡定製使用的MySQL以及對應的版本。構建系統會每次為其創建新的數據庫，將關鍵信息export為環境變量。
post build，最後一個環節，如發包、發Slack、郵件通知、或發佈一個Sentry release等。

聲明Artifact類型：

artifact，用於選擇部署的類型，目前支持的有：