大數據面試題（涉及Python、R、MySQL），速度收藏！

Python SQL MySQL 編程語言 ITStar ITStar 2017-09-27

數據科學世界在2015年經歷了翻天覆地的變化。數據科學家開始威脅到CIO作為公司最重要的技術影響者的角色。數據質量直接影響到未來，數據科學家受到追捧。加上物聯網（IoT）的普及，數據科學即將成為主流。圍繞數據科學的工作正在蓬勃發展，帶來更新的職業機會和開放增長的渠道。在未來幾天，您不可能不提供數據科學麵試。如果您最近參加過數據科學麵試，或有疑問您需要解答，請在評論部分，我們將盡快回答。想了解更多大數據面試細節，或有更多不懂的問題，請加大數據學習交流8群640193172討論學習，共同成長！

1.什麼是數據科學？您如何說與業務分析和商業智能相似或不同？

數據科學是處理數據分析的領域。它通過對後來用於創建策略的數據的洞察來研究信息的來源，信息的含義以及將其變成有價值的資源。它是商業觀點，計算機程序設計和統計技術的結合。

業務分析或簡單分析是商業智能和數據科學的核心。數據科學是用於分析大數據和提供洞察力的相對較新的術語。

數據分析通常比具有更多編程重量的數據科學具有更高的業務視野。然而這些術語可互換使用。

2.如何在Python或R中構建自定義函數？

In R: function command

The structure of a function is given below:

myfunction <- function(arg1, arg2, … ){

statements

return(object)

}

Example:

# function example – get measures of central tendency

# and spread for a numeric vector x. The user has a

# choice of measures and whether the results are printed.

mysummary <- function(x,npar=TRUE,print=TRUE) {

if (!npar) {

center <- mean(x); spread <- sd(x)

} else {

center <- median(x); spread <- mad(x)

}

if (print & !npar) {

cat(“Mean=”, center, “\n”, “SD=”, spread, “\n”)

} else if (print & npar) {

cat(“Median=”, center, “\n”, “MAD=”, spread, “\n”)

}

result <- list(center=center,spread=spread)

return(result)

}

# invoking the function

set.seed(1234)

x <- rpois(500, 4)

y <- mysummary(x)

Median= 4

MAD= 1.4826

# y$center is the median (4)

# y$spread is the median absolute deviation (1.4826)

y <- mysummary(x, npar=FALSE, print=FALSE)

# no output

# y$center is the mean (4.052)

# y$spread is the standard deviation (2.01927)

In Python:

def method-

Structure of the function:

def func(arg1,arg2 …):

statement 1

statement 2

return value

Example- To determine mean of a list of values.

def find_mean(given_list):

sum_values= sum(given_list)

num_values= len(given_list)

return sum_values/num_values

print find_mean([i for i in range(1,9)])

# 4

3.哪個包用於在R和Python中進行數據導入？如何在SAS中進行數據導入？

我們可以使用多種方法進行數據導入：

在R中，我們使用RODBC進行RDBMS數據和data.table快速導入。

我們使用jsonlite的JSON數據，其他語言如SPSS的外包

我們對SAS數據使用數據和sas7bdat包。

在Python中，我們使用Pandas包和read_csv命令，read_sql來讀取數據。另外，我們可以在Python中使用SQLAlchemy來連接到數據庫。

4.什麼是RDBMS？列舉RDBMS的一些例子？什麼是CRUD？

關係數據庫管理系統（RDBMS）是一種基於關係模型的數據庫管理系統。關係模型使用關係或表的基本概念。RDBMS是SQL，以及數據庫系統（如MS SQL Server，IBM DB2，Oracle，MySQL和Microsoft Access）的基礎。

在計算機編程中，創建，讀取，更新和刪除[1]（作為首字母縮略詞CRUD或可能是一個副詞）（有時稱為SCRUD，帶有用於搜索）是永久存儲的四個基本功能。

5.定義SQL查詢？SELECT和UPDATE Query有什麼區別？如何在SAS，Python，R語言中使用SQL？

結構化查詢語言（SQL）是一種用於從數據庫獲取信息和更新數據庫的編程語言。它們用於管理關係數據庫管理系統（RDBMS）中的數據。查詢採用命令語言的形式，允許您選擇，插入，更新，查找數據的位置等。還有一個編程接口。
UPDATE查詢用於更新表中的現有記錄。SELECT查詢用於從數據庫中選擇數據。結果存儲在結果表中，稱為結果集。
我們使用SAS內的PROC SQL，在R中使用sqldf，在Python中使用pandasql以使用SQL sytax。

SQLAlchemy庫：這允許您從python在MySQL服務器中存在的數據庫中的表上執行原始SQL查詢。這些還存在SQLAlchemy表達式語言，它表示使用Python構造的關係數據庫結構和表達式。表達式語言通過隱藏SQL語言來提高代碼的可維護性，從而不允許混合使用Python代碼和SQL代碼。

相關推薦

'Python批量刪除mysql中千萬級大量數據'

"場景描述線上 mysql 數據庫裡面有張表保存有每天的統計結果，每天有1千多萬條，這是我們意想不到的，統計結果咋有這麼多。運維找過來，磁盤佔了 200G ，最後問了運營，可以只保留最近3天的，前面的數據，只能刪了。刪，怎麼刪？關注，轉發，私信小編“01”即可免費領取Pyt...

Python MySQL 數據庫腳本語言 2019-09-15

'2019下半年Python高頻面試題，第六彈'

"2019下半年Python高頻面試題，第六彈出爐！一. Given an array of integers給定一個整數數組和一個目標值，找出數組中和為目標值的兩個數。你可以假設每個輸入只對應一種答案，且同樣的元素不能被重複利用。示例:給定nums = [2,7,11,1...

Python 面試 Line 2019-09-15

'面試官：在使用mysql數據庫時，遇到重複數據怎麼處理？'

"前言前段時間，很多人問我能不能寫一些數據庫的文章，正好自己在測試mysql數據庫性能的時候，出現了一個問題，也就是出現了很多重複的數據，想起來自己long long ago寫過一篇類似的，僅此就拿來總結了一下。如果你在使用mysql的時候也遇到了這個問題，希望能對你有所幫...

數據庫 MySQL SQL 文章 Redis 設計 2019-09-14

'金九銀十，你準備好了嗎？沒點Python面試題乾貨怎麼行？（一）'

"職場人沒有不知道：金三銀四，金九銀十的說法兒吧，今天干貨奉上，100個Python面試高頻題目。一. 遇到過得反爬蟲策略以及解決方法?1.通過headers反爬蟲2.基於用戶行為的發爬蟲：(同一IP短時間內訪問的頻率)3.動態網頁反爬蟲(通過ajax請求數據，或者通過J...

Python Scrapy 人生第一份工作 Redis HTML 數據庫網絡爬蟲 JavaScript 瀏覽器 jQuery 跳槽那些事兒 2019-09-13

'python面試題之@classmethod, @staticmethod, @property？'

"回答背景知識這些都是裝飾器（decorator）。裝飾器是一種特殊的函數，要麼接受函數作為輸入參數，並返回一個函數，要麼接受一個類作為輸入參數，並返回一個類。@標記是語法糖（syntactic sugar），可以讓你以簡單易讀得方式裝飾目標對象。@my_decorator...

Python 人生第一份工作 2019-09-07

'尚學堂｜人生苦短，我用Python，這些Python面試題你知道答案嗎？'

"隨著Python在企業中的應用越來越多，崗位需求越來越大，面試成為了搞定優質職位的快速方式，下面是一些的面試題，希望對Python從業者有幫助。1、Python這麼好說說它的特性吧答：關鍵特性Python是一種解釋型語言,這意味著，與C,C++不同，Python不需要在運...

Python 人生第一份工作面向對象程序編程 2019-09-07

'良心Python資源總結，110道python面試題+答案，還附贈教程（上）'

"python很特殊，特殊到什麼程度，比如C，JAVA等實現一個功能可以能要幾十幾百行，但python有可能幾行就搞定，python的程序不以代碼量來衡量一個程序的好壞，並不是代碼必須達到多少才可以實現什麼功能，反而在能解決問題的前提下，python強調的是優雅而精簡。所以...

Python Java 操作系統人生第一份工作吉成俊數學文章 2019-09-04

'值得收藏！13個大數據學習網站很少人知道！附大數據自學資料分享'

"數據分析重要性越來越多的管理者意識到數據分析對經濟發展、企業運營的重要意義在古代，得琅琊閣者得天下現在，得大數據者得天下我總結的數據分析五步走：1、鎖定分析目標，梳理思路，叫紙上談兵；2、把雜亂的數據整理出圖表報表，用數據探業務，叫自問數答；3、鎖定核心抓重點，設定最終...

大數據 Python 可視化技術算法機器學習自然語言處理數據挖掘編程語言收藏網絡爬蟲 SQL R語言經濟 2019-08-31

'進軍數據人，這些你都掌握了嗎？SQL，Excel、python、大數據等'

"最近經常遇到有朋友問下面這類問題，結合最近的一些思考，本篇聊一下，數據人該具備哪些通用的技能。“數據開發到底用不用學算法？”“Excel 有必要學嗎？”“數據產品經理需要了解技術嗎？”技能分為兩部分：工具和知識。工具包括Excel、Sql 和 Python，知識包括大數據...

Excel Python SQL 大數據技術人工智能人生第一份工作設計數據挖掘 2019-08-30

'大數據Python工作必備高效數據分析的43種Excel函數'

"純純的乾貨，對大家有幫助，收藏後記得轉發一下，幫助更多愁掉頭髮的朋友！！！文末是關鍵！！1、VLOOKUP功能：用於查找首列滿足條件的元素。2、HLOOKUP功能：搜索表的頂行或值的數組中的值，並在表格或數組中指定的行的同一列中返回一個值。3、INDEX功能：返回表格或區...

Python Excel 大數據編程語言 Java 網絡爬蟲技術 2019-08-28

'分享Oracle的四道經典面試題，值得收藏'

"概述今天主要整理了4道Oracle 經典面試題，與大家分享學習。下面一起看看詳細的介紹吧第一題1、測試數據create table test( id number(10) primary key, type number(10) , t_id number(10), va...

人生第一份工作收藏 SQL 2019-08-27

'怎麼還在糾結學Java還是python，未來大數據才是王道，附學習教程'

"如今的大數據不再是一個流行術語，在大數據行業火熱的發展下，大數據幾乎涉及到所有行業的發展。國家相繼出臺的一系列政策更是加快了大數據產業的落地，預計未來幾年大數據產業將會蓬勃發展。未來大數據產業發展的趨勢之一：與雲計算、人工智能等前沿創新技術深度融合。大數據、雲計算、人工智...

大數據 Java 技術數據庫 Storm Python 工程師 Hadoop Spark 人生第一份工作電腦算法 HBase 雲計算 HDFS 人工智能 Hive Scala 設計王道 SQL MapReduce 2019-08-27

'100道MySQL常見面試題總結'

"前言本文主要受眾為開發人員,所以不涉及到MySQL的服務部署等操作,且內容較多,大家準備好耐心和瓜子礦泉水.前一陣系統的學習了一下MySQL,也有一些實際操作經驗,偶然看到一篇和MySQL相關的面試文章,發現其中的一些問題自己也回答不好,雖然知識點大部分都知道,但是無法將...

MySQL 數據結構跳槽那些事兒 2019-08-26

'網易大佬精心整理 Python 及大數據全套教學資料+源碼限時大放送'

"從今天來講，大環境就非常重要了，近三年的政府報告: 改造傳統制造業，壯大新興產業，成為關鍵詞促進新興產業加快壯大數字經濟發展已經不可逆轉。深化大數據、人工智能等研發應用、培育新一代信息技術、高端裝備、生物醫藥、新能源汽車、新材料等新興產業集群等等這些知識都會跟各行各業形成...

大數據 Python Java 技術 Scala 人工智能編程語言程序員人生第一份工作 Go語言 Hadoop Storm Spark 網易物聯網新能源汽車 2019-08-25

'《MySQL重要知識點及面試總結》：推薦收藏'

"作者：Snailclimb鏈接：https://segmentfault.com/a/1190000019619667?utm_source=tuicool&utm_medium=referral前言：這篇花文章是我花了幾天時間對之前總結的MySQL知識點做了完善...

MySQL SQL 數據庫收藏 Java 人生第一份工作銀行 2019-08-23

'一次 MySQL 千萬級大表的優化過程（記得收藏）'

"方案概述方案一：優化現有MySQL數據庫。優點：不影響現有業務，源程序不需要修改代碼，成本最低。缺點：有優化瓶頸，數據量過億就玩完了。方案二：升級數據庫類型，換一種100%兼容MySQL的數據庫。優點：不影響現有業務，源程序不需要修改代碼，你幾乎不需要做任何操作就能提升數...

MySQL SQL 數據庫收藏設計 NoSQL NewSql 大數據 2019-08-22

'螞蟻花唄4面技術題：分佈式+大數據+MySQL+linux+紅黑樹+併發容器'

"螞蟻花唄一面（一個小時）：Java容器有哪些？哪些是同步容器,哪些是併發容器？ArrayList和LinkedList的插入和訪問的時間複雜度？java反射原理，註解原理？說說一致性 Hash 原理新生代分為幾個區？使用什麼算法進行垃圾回收？為什麼使用這個算法？Hash...

MySQL Linux 數據庫技術 Redis Java 大數據人生第一份工作 MongoDB Memcached 算法設計數據結構螞蟻 Solr 數據庫索引 NoSQL 2019-08-22

'2019最新Python爬蟲高頻率面試題總結（一）'

"今天給大家出一個關於Python爬蟲面試題的總結，相對於來說出現頻率比較高的一些！1. 為什麼 requests 請求需要帶上 header？原因是：模擬瀏覽器，欺騙服務器，獲取和瀏覽器一致的內容header 的形式：字典headers = {"User-Agent": ...

Python 網絡爬蟲 Chrome 瀏覽器 MySQL Scrapy Redis 數據庫人生第一份工作 JavaScript WebKit Windows Windows NT Safari Gecko Firefox MongoDB 2019-08-18

'Java面試題：Spring事務面試考點的集合整理。建議收藏閱讀'

"Spring和事務的關係關係型數據庫、某些消息隊列等產品或中間件稱為事務性資源，因為它們本身支持事務，也能夠處理事務。Spring很顯然不是事務性資源，但是它可以管理事務性資源，所以Spring和事務之間是管理關係。就像Jack Ma雖然不會寫代碼，但是他卻管理者一大...

Java 數據庫跳槽那些事兒收藏 MySQL 讀書程序員 2019-08-15

'完虐面試官，百道Python經典面試題，BAT必備，附答案'

"大家好，小編為大家準備了100多道Python經典面試題，需要pdf版請私信小編（面試）即可獲取！記得轉發+關注哦！1.python字符串格式化中，%s和.format的主要區別是什麼python用一個tuple將多個值傳遞給模板，每個值對應一個格式符print（“ my...

Python 人生第一份工作百度 MYNAME 2019-08-13

推薦中...