'三張圖告訴你Linux TCP/IP協議棧原理'

Linux 操作系統 硬件 技術 設計 底層軟件架構 2019-08-13
"

可以毫不誇張的說現如今的互聯網是基於TCP/IP構建起來的網絡。弄懂協議棧的原理,無論對調試網絡IO性能還是解決網絡問題都是有很大幫助的。本片文章就帶領大家來看看內核是如何控制網絡數據流的。

TCP特點

我們都非常清楚TCP協議設計的初衷,就是保證數據傳輸的快速,有序,無誤。所以特點總結如下:

  1. 面向連接,可以用五元組來表示一條連接(遠程ip,遠程端口,本地ip,本地端口,傳輸層協議)。
  2. 數據是全雙工的
  3. 數據是有序的,也就是接受的數據一定是按照發送時的順序的。
  4. 流量控制,發送方可以通過接收方滑動窗口大小來動態調整發送數據的大小。
  5. 擁塞控制,發送方通過ACK的狀態結合擁塞算法綜合計算給出窗口大小。

瞭解完TCP特點字後,我們就來真正的看看數據發送到底是怎樣的過程?

數據發送

我們首先來看張圖:


"

可以毫不誇張的說現如今的互聯網是基於TCP/IP構建起來的網絡。弄懂協議棧的原理,無論對調試網絡IO性能還是解決網絡問題都是有很大幫助的。本片文章就帶領大家來看看內核是如何控制網絡數據流的。

TCP特點

我們都非常清楚TCP協議設計的初衷,就是保證數據傳輸的快速,有序,無誤。所以特點總結如下:

  1. 面向連接,可以用五元組來表示一條連接(遠程ip,遠程端口,本地ip,本地端口,傳輸層協議)。
  2. 數據是全雙工的
  3. 數據是有序的,也就是接受的數據一定是按照發送時的順序的。
  4. 流量控制,發送方可以通過接收方滑動窗口大小來動態調整發送數據的大小。
  5. 擁塞控制,發送方通過ACK的狀態結合擁塞算法綜合計算給出窗口大小。

瞭解完TCP特點字後,我們就來真正的看看數據發送到底是怎樣的過程?

數據發送

我們首先來看張圖:


三張圖告訴你Linux TCP/IP協議棧原理


上圖展示的是數據流動的在硬件中的過程,下圖展示的是數據在協議棧的過程:


"

可以毫不誇張的說現如今的互聯網是基於TCP/IP構建起來的網絡。弄懂協議棧的原理,無論對調試網絡IO性能還是解決網絡問題都是有很大幫助的。本片文章就帶領大家來看看內核是如何控制網絡數據流的。

TCP特點

我們都非常清楚TCP協議設計的初衷,就是保證數據傳輸的快速,有序,無誤。所以特點總結如下:

  1. 面向連接,可以用五元組來表示一條連接(遠程ip,遠程端口,本地ip,本地端口,傳輸層協議)。
  2. 數據是全雙工的
  3. 數據是有序的,也就是接受的數據一定是按照發送時的順序的。
  4. 流量控制,發送方可以通過接收方滑動窗口大小來動態調整發送數據的大小。
  5. 擁塞控制,發送方通過ACK的狀態結合擁塞算法綜合計算給出窗口大小。

瞭解完TCP特點字後,我們就來真正的看看數據發送到底是怎樣的過程?

數據發送

我們首先來看張圖:


三張圖告訴你Linux TCP/IP協議棧原理


上圖展示的是數據流動的在硬件中的過程,下圖展示的是數據在協議棧的過程:


三張圖告訴你Linux TCP/IP協議棧原理


整個過程分為三個大區域:用戶區,內核區,設備。這裡所說的設備就是網卡。流程如下:

  1. 用戶應用程序調用write系統調用
  2. 確認文件描述符
  3. 拷貝數據到socket buffer中
  4. 創建tcp片段,計算checksum
  5. 添加IP頭,執行ip路由,計算checksum
  6. 添加以太網協議頭部,執行ARP
  7. 告訴網卡芯片要發送數據了
  8. 網卡從內存中獲取數據發送,發送完成中斷告訴CPU


數據接收

直接看硬件數據流圖:


"

可以毫不誇張的說現如今的互聯網是基於TCP/IP構建起來的網絡。弄懂協議棧的原理,無論對調試網絡IO性能還是解決網絡問題都是有很大幫助的。本片文章就帶領大家來看看內核是如何控制網絡數據流的。

TCP特點

我們都非常清楚TCP協議設計的初衷,就是保證數據傳輸的快速,有序,無誤。所以特點總結如下:

  1. 面向連接,可以用五元組來表示一條連接(遠程ip,遠程端口,本地ip,本地端口,傳輸層協議)。
  2. 數據是全雙工的
  3. 數據是有序的,也就是接受的數據一定是按照發送時的順序的。
  4. 流量控制,發送方可以通過接收方滑動窗口大小來動態調整發送數據的大小。
  5. 擁塞控制,發送方通過ACK的狀態結合擁塞算法綜合計算給出窗口大小。

瞭解完TCP特點字後,我們就來真正的看看數據發送到底是怎樣的過程?

數據發送

我們首先來看張圖:


三張圖告訴你Linux TCP/IP協議棧原理


上圖展示的是數據流動的在硬件中的過程,下圖展示的是數據在協議棧的過程:


三張圖告訴你Linux TCP/IP協議棧原理


整個過程分為三個大區域:用戶區,內核區,設備。這裡所說的設備就是網卡。流程如下:

  1. 用戶應用程序調用write系統調用
  2. 確認文件描述符
  3. 拷貝數據到socket buffer中
  4. 創建tcp片段,計算checksum
  5. 添加IP頭,執行ip路由,計算checksum
  6. 添加以太網協議頭部,執行ARP
  7. 告訴網卡芯片要發送數據了
  8. 網卡從內存中獲取數據發送,發送完成中斷告訴CPU


數據接收

直接看硬件數據流圖:


三張圖告訴你Linux TCP/IP協議棧原理



首先網卡把接收到的數據包寫入到它的內存之中。然後對其進行校驗,通過後發送到主機的主存之中。主存中的buffer是驅動分配好的,驅動會把分配好的buffer描述告訴網卡,如果沒有足夠的buffer接受網卡的數據包,網卡會將數據包丟棄。一旦數據包拷貝到主存完成,網卡會通過中斷告知主機OS。

之後驅動會檢查它是否能處理這個新的包。如果能處理,驅動會把數據包包裝成OS認識的結構(linux sk_buffer)並推送到上層。 鏈路層接收到幀後檢查通過的話會按照協議解幀並推送至IP層。

IP層會在解包之後根據包中包含的IP信息決定推送至上層還是轉發到其他IP。如果判斷需要推送至上層,則會解掉IP包頭並推送至TCP層。

TCP在解報之後會根據其四元組找到對應的TCB,之後通過TCP協議處理這個報文。在接收到報文後,會把報文加到接受報文,之後根據TCP的狀態發送一個ACK給對端。

當然上述過程會受到NAT等等Netfilter的作用,這裡不談了,也沒深研究過。當然為了性能,大牛們方方面面也做了很多努力,比如大到RDMA、DPDK等大的軟硬件技術,小到zero-copy、checksum offload等;

總結

現代的軟硬件TCP/IP協議棧單鏈接發送速率到1~2GiB/s完全沒有任何問題(經過實測)。如果你想探索更優秀的性能,你可以嘗試RMDA等技術,他們通過繞過內核以減少拷貝等方式優化了性能,當然可能依賴硬件。

"

相關推薦

推薦中...