在瀏覽器輸入一個網址回車後,發生了什麼?

DNS CSS 軟件 Windows 互聯快談 2017-05-27

阿里實習面試的最後一個開放性問題:在瀏覽器輸入一個網址回車後,發生了什麼?

答得並不是很好。所以也基本與阿里無緣了。一直以來,都沒能系統的學習一下Web相關知識。所以對這個問題的回答也是稍顯勉強。現借這個機會,將這個問題好好理一下吧。

大致流程

當用戶在瀏覽器輸入www.taobao.com這個url時,將會發生很多操作:

  1. 首先,它會請求DNS把這個域名解析成對應的IP地址
  2. 然後,根據這個IP在互聯網上找到對應的服務器,向服務器發起一個get請求,由這個服務器決定返回默認的數據資源給訪問的用戶
  3. 在服務器端可能還有很複雜的業務邏輯:服務器可能有很多臺,到底指定哪臺服務器來處理請求,這需要一個負載均衡設備來平均分配所有用戶的請求;
  4. 還有請求的數據是存儲在分佈式緩存裡還是一個靜態文件中,或是數據庫裡;
  5. 當數據返回瀏覽器時,瀏覽器解析數據發現還有一些靜態資源(如CSS、JS或者圖片)時,又會發起另外的HTTP請求,而這些請求很可能會在CDN上,那麼CDN服務器又會處理這個用戶的請求
  6. 大體上一個用戶請求會涉及這麼多的操作,每一個細節都會影響這個請求最終是否會成功。
在瀏覽器輸入一個網址回車後,發生了什麼?

HTTP 協議解析

B/S網絡架構的核心是HTTP協議,掌握HTTP協議對一個從事互聯網工作的程序員來說非常重要。

要理解HTTP協議,最重要的就是熟悉HTTP協議中的HTTP Header, HTTP Header控制著互聯網成千上萬的用戶的數據的傳輸。最關鍵的是,它控制著用戶瀏覽器的渲染行為和服務器的執行邏輯。例如,當服務器沒有用戶請求的數據時會返回一個404狀態碼,告訴瀏覽器沒有要請求的數據,通常瀏覽器就會展示一個非常不願意看到的該頁面不存在的錯誤信息。

在瀏覽器輸入一個網址回車後,發生了什麼?

DNS域名解析

如圖所示,當一個用戶在瀏覽器中輸入www.abc.com時,DNS解析將會有將近10個步驟,大致描述如下:

  1. 瀏覽器會檢查緩存中有沒有這個域名對應的解析過的IP地址,如果緩存中有,這個解析過程就結束。瀏覽器緩存域名也是有限制的,不僅瀏覽器緩存大小有限制,而且緩存的時間也是有限制的,通常情況下為幾分鐘到幾個小時不等,域名被緩存的時間限制可以通過TTL屬性來設置。這個緩存時間太長或太短都不好,如果緩存時間夠長,一旦域名被解析到的IP有變化,會導致被客戶端緩存的域名無法解析到變化後的IP地址,以致該域名不能正常解析,這段時間內有可能會有一部分客戶無法訪問網站。如果設置時間太短,會導致用戶每次訪問網站都要重新解析一次域名。

  2. 如果用戶的瀏覽器緩存中沒有,瀏覽器會查找操作系統緩存中是否有域名對應的DNS解析結果。其實,操作系統也會有一個域名解析的過程,在Windows中可以通過C:\Windows\System32\drivers\etc\hosts文件來設置,你可以將任何域名解析到任何能夠訪問的IP地址。如果你在這裡指定了一個域名對應的IP地址,那麼瀏覽器會首先使用這個IP地址。正是因為有這種本地DNS解析的規程,所以黑客就有可能通過修改你的域名解析來把特定的域名解析到它指定的IP地址上,導致這些域名被劫持。

前兩步在本機完成。如果本機中仍無法完成域名的解析,就會真正請求域名服務器來解析這個域名了。

在瀏覽器輸入一個網址回車後,發生了什麼?
  1. 如何、怎麼知道域名服務器呢?在網絡配置中都會有“DNS服務器地址”這一項,這個地址就用於解決前面所說的如果兩個過程無法解析時要怎麼辦,操作系統會把這個域名發送給這類設置的LDNS,也就是本地區的域名服務器。這個DNS通常都提供給你互聯網接入的一個DNS解析服務,例如你是在學習接入互聯網,那麼你的DNS服務器肯定在你的學校。如果你是在一個小區接入互聯網的,那麼這個DNS就是提供給你接入互聯網的應用提供商,即電信或聯通,也就是通常所說的SPA,那麼這個DNS通常也會在你所在城市的某個角落,通常不會很遠。LDNS主要承擔了域名的解析工作。

  2. 如果LDNS仍然沒有命中,就直接到Root Server域名服務器請求解析

  3. 根域名服務器返回給本地域名服務器一個所查詢域的主域名服務器(gTLD Server)地址。gTLD是國際頂級域名服務器,如.com、.cn、.org等,全球只有13臺左右

  4. 本地域名服務器(Local DNS Server)再向上一步返回的gTLD服務器發送請求

  5. 接受請求的gTLD服務器查找並返回此域名對應的Name Server域名服務器的地址,這個Name Server通常就是你註冊的域名服務器,例如你在某個域名服務提供商申請的域名,那麼這個域名解析任務就是由這個域名提供商的服務器來完成的

  6. Name Server域名服務器會查詢存儲的域名和IP的映射關係表,正常情況下都會根據域名得到目標IP記錄,連同一個TTL值返回給DNS Server域名服務器

  7. 返回該域名對應的IP和TTL值,Local DNS Server會緩存這個域名和IP的對應關係,緩存時間由TTL值控制

  8. 把解析的結果返回給用戶,用戶根據TTL值緩存在本地系統緩存中,域名解析過程結束

在實際的DNS解析過程中,可能還不止這10個步驟,如Name Server也可能有多級,或者有一個GTM來負載均衡控制,這都有可能會影響域名解析的過程。

CDN工作機制

CDN也就是內容分發網絡(Content Delivery Network),它是構築在現有Internet上的一種先進的流量分配網絡。其目的是通過在現有的Internet中增加一層新的網絡架構,將網站的內容發佈到最接近用戶的網絡“邊緣”,使用戶可以就近取得所需的內容,提高用戶訪問網站的響應速度。有別於鏡像,它比鏡像更智能,可以這樣一個比喻:CDN = 鏡像(Mirror) + 緩存(Cache) + 整體負載均衡(GSLB)。因而,CDN可以明顯提高Internet中信息流動的效率。

目前CDN都以緩存網站中的靜態數據為主,如CSS、JS、圖片和靜態頁面等數據。用戶從主站服務器請求到動態內容後再從CDN上下載這些靜態數據,從而加速網頁數據內容的下載速度,如淘寶有90%以上的數據都是由CDN來提供的。

CDN 架構

通常的CDN架構如下圖所示:

在瀏覽器輸入一個網址回車後,發生了什麼?

如圖,一個用戶訪問某個靜態文件(如CSS文件),這個靜態文件的域名假定是 cdn.taobao.com,那麼首先要向Local DNS服務器發起請求,一般經過迭代器解析後回到這個域名的註冊服務器去解析,一般每個公司都會有一個DNS解析服務器。這時這個DNS解析服務器通常會把它重新CNAME解析到另一個域名,而這個域名最終會執行CDN全局中的DNS負載均衡服務器,再由這個GTM來最終分配時哪個地方的訪問用戶,返回給離這個訪問用戶最近的CDN節點。

拿到DNS解析結果後,用戶就直接去這個CDN節點訪問這個靜態文件了,如果這個節點中所請求的文件不存在,就會回到源站與獲取這個文件,然後再返給用戶。

負載均衡

負載均衡(Load Balance)就是對工作任務進行平衡、分攤到多個操作單元上執行,如圖片服務器、應用服務器等,共同完成工作任務。它可以提高服務器響應速度及利用效率,避免軟件或硬件模塊出現單點失效,解決網絡擁塞問題,實現地理位置無關性,為用戶提供較一致的訪問質量。

通常由三種負載均衡架構,分別是鏈路負載均衡、集群負載均衡和操作系統負載均衡

鏈路負載均衡

所謂鏈路負載均衡也就是通過DNS解析成不同的IP,然後用戶根據這個IP來訪問不同的目標服務器。負載均衡是由DNS的解析來完成的,用戶最終訪問哪個Web Server是由DNS Server來控制的,在這裡就是由Global DNS Server來動態解析域名服務。這種DNS解析的優點是用戶會直接訪問目標服務器,而不需要經過其他的代理服務器,通常訪問速度會更快。但是也有缺點,由於DNS在用戶本地和Local DNS Server都有緩存,一旦某臺Web Server掛掉,那麼很難及時更新用戶的域名解析結構。如果用戶的域名沒有及時更新,那麼用戶將無法訪問這個域名,帶來的後果非常嚴重。

在瀏覽器輸入一個網址回車後,發生了什麼?

集群負載均衡

集群負載均衡是另外一種常見的負載均衡方式,它一般分為硬件負載均衡和軟件負載均衡。

硬件負載均衡一般使用一臺專門硬件設備來轉發請求,如圖所示,硬件負載均衡的關鍵就是這臺價格非常昂貴的設備,如F5,通常為了安全需要一主一備。它的優點很顯然就是性能非常好,缺點就是非常貴,一般公司是用不起的,還有就是當訪問量陡然增大超出服務極限時,不能進行動態擴容。

在瀏覽器輸入一個網址回車後,發生了什麼?

軟件負載均衡是使用最普遍的一種負載方式,它的特點是使用成本非常低,直接使用廉價的PC就可以搭建。缺點就是一般一次訪問請求要經過多次代理服務器,會增加網絡延時。

在瀏覽器輸入一個網址回車後,發生了什麼?

操作系統負載均衡

利用操作系統級別的軟中斷或者硬件中斷來達到負載均衡,如可以設置多隊列網卡等來實現。

這幾種負載均衡方式不僅在CDN的集群中能使用,而且在Web服務或者分佈式數據集群中同樣也能使用,但是在這些地方後兩種使用得要多一點。

相關推薦

推薦中...