R語言數據導入——二部

編程語言 R語言 Excel Windows R語言愛好者 R語言愛好者 2017-08-30

R語言數據導入——二部

上期我們瞭解了R語言數據讀入的核心函數read.table，現在我們瞭解一下其他可以用的函數有哪些，以及使用的場景和基本技巧。

非關係結構文件讀入scan()

除了read.table()這類讀取文本文檔的函數，還可以用scan()函數讀入。不同的是它的返回值為列表或者向量。

假設我們有下述文本文檔

24	1991
21	1993
53	1962

下列命令可以讀入該數據

data<-scan("e:/birth.txt")data

## [1] 24 1991 21 1993 53 1962

此外，你代碼稍加改造可以將數據變矩陣。

matrix(data,nrow=2,byrow=FALSE)

## [,1] [,2] [,3]

scan()也同樣支持訪問url數據上的數據，現在我們訪問網上的一個age數據

data <- scan("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/age.csv", what = list(Age = 0,

## $Age

注意上述代碼中的what參數，如果what為list類通過上述代碼可以讀入類似於spreadsheet類型的文本文檔。只需要定義每行中各個項目（列）的類型。scan()其他眾多參數的用法和read.table比較類似。

固定列寬數據讀入read.fwf()

有的時候我們可以知道每一列的寬度是多少，下列代碼可以讓我們讀入這類數據

data <- read.fwf("https://s3.amazonaws.com/assets.datacamp.com/blog_assets/scores.txt", widths= c(7,-14,1,-2,1,1,1,1,1,1),

## subject sex s1 s2 s3 s4 s5 s6

上述代碼中width參數給出了字段的寬度。本例中，前7個字符為課程名字；然後的14個字符我們認為不需要，用-14跳過；接著，性別這一列需要一個寬度的字符；後面的2個空格不需要，用-2跳過；後續的成績每列需要一個寬度1,1,1,1,1,1傳入參數中。這些參數在不同的數據結構下，會有所不同。

另外，還可以使用read.fortran()函數讀取數據，詳細方法可以參見help文檔理解。

導入excel數據

剪切板導入excel表格

如果你已經有了個打開的表格，你可以複製其中的內容，然後用readClipboard()或者read.table()函數導入數據。

readClipboard() #Only on Windows

RODBC包讀入excel數據

通過RODBC包同樣可以導入excel數據表。代碼樣例如下

library(RODBC)

其中，dsn的寫法可以參考odbcConnect()函數的幫助文檔。此外，odbcConnectExcel()同樣可以讀入excel數據。

當你讀入了Excel數據表後,相當於建立了一個連接，你可以使用sql語句來操作數據
```
query <- "<SQL Query>"
```
用RODBC包的建立了連接後，在操作完數據要使用odbcCloseAll()

其他方法讀入excel數據

其他可以參考的方法有： * openxlsx包中的read.xlsx函數。 * readxl包中的read_excel函數。

其他類型的數據讀入

其他主流數據類型R可支持的包括有JSON格式，SPSS文件，Stata文件，SAS文件，s-plus文件，EpiInfo文件，matlab文件，Octave文件，FitbitScraper 數據，Quantmod 數據，ARFF 文件。支持導入的數據庫有，MogoDB，MySQL，Oracle，PostgreSQL,SQLite,RJDBC，dBase等。

二進制數據讀入

二進制數據由二進制浮點組成，8個浮點為一個字節。可以使用readBin函數讀入此類數據。

connection <- file("<path to your file>", "rb") #You open the connection as "reading binary"(rb)

GIS數據讀入

地理信息數據在R中也比較常用，常見的rgdal和raster包都有對應的函數處理此類數據。

大型數據集的讀入

如何導入較大的數據一直是R用戶的經常討論的問題，除了將數據導入數據庫中處理外，也有一些比較不錯的處理大型數據的方法。

data.table包中的fread函數是比較容易實現快速讀入大數據的方法，讀入大型數據速度相當理想。
```
library(data.table)
```
ff包：該程序包磁盤緩存的技術可以讀入超過內存限值大小的數據，常用的函數有read.table.ffdf(),read.csv.ffdf()等。
```
library(ff)
```
bigmemory包，此包也常用於處理大型數據。樣例代碼如下，但是此包不能用於windows系統：
```
library(bigmemory)
```
sqldf包，此包也可以考慮用於處理大型數據，它還可以使用sql語句處理數據。用read.csv.sql()函數讀入數據。
```
library(sqldf)
```
隨後我們別忘了R中的read.table函數，但是，用此函數讀入大型數據，需要對參數有較好的控制。簡單說，你能設置的參數越多，讀入數據的速度越快。

總結

最後，我們將上述常見的方法做個了總結表格，讀者可在用時參考，該表格涵蓋了大部分常用數據格式的讀入方法。

函數	來源	描述
scan	r-base	順序讀取文件中的數據值
read.fwf	r-base	按行和指定列寬度讀取數據
read.fortran	r-base	採用fortran格式設置讀取固定格式數據
readClipboard	r-base	讀取剪切板中的數據
odbcConnect	RODBC包	讀取excel數據，採用odbc
gs_read	googlesheet包	讀取google sheet
read.DIF	r-base	讀取DIF文件
read_excel	readxl包	讀取excel文件
read.xlsx	openxlsx包	讀取excel的xlsx文件
read.ods	readODS包	讀取open document表格文檔
fromJSON	jsonlite包	讀取JavaScript的json文件
read_spss	haven包	讀取spss文件
read_dta	haven包	讀取stata文件
read.xport	forgein包，sasXPORT包	讀取sas文件
read.S	foreign包	讀取s-splus文件
read.epiinfo	foreign包	讀取epi Info文件
readMat	R.matlab包	讀取MATLAB文件
read.octave	foreign包	讀取Octave文件
read.arff	foreign包	讀取Weka屬性關係文件（ARFF）
…	mongolite包，Rmongo包，RODBC包，Roracle包，RPostgreSQL包，RSQLite包，RJDBC包	各類常見數據庫導入數據到R
readBin	r-base	讀入二進制文件
…	hdf5包，h5r包，rhdf5包，RNetCDF包，ncdf包	讀入hdf文件，NASA和UCAR常用氣象數據讀取
read.dbf	foreign包	讀入DBF文件
read.ftable	r-base	讀入無格式列聯表Flat contingency table
fread	data.table包	大型文本文檔讀入
read.table.ffdf read.csv.ffdf …	ff包	大型文本文檔讀入
read.big.matrix	bigmemory包	大型文本文檔讀入，無法在windows下使用
read.csv.sql	sqldf包	大型文本文檔讀入
read.table	r-base	大型文本文檔讀入,但是需要合理設計參數，否則速度不理想

來源：DataCamp 編譯：亮亮

相關推薦

'java語言的大體概述'

"一、什麼是java語言 Java是一種簡單的，跨平臺的，面向對象的，分佈式的，解釋的，健壯的安全的，結構的中立的，可移植的，性能很優異的多線程的，動態的語言。java是一個編程語言,例如：C語言，C++ ，C#，VB ，彙編語言等等很多編程語言，java是在社會中的主流...

Java Java虛擬機編程語言瀏覽器 C語言程序員數據庫操作系統技術 GNU 彙編語言編譯器 Sun公司人生第一份工作設計程序設計 2019-09-18

'批量將制定文件夾下的全部Excel文件導入微軟SQL數據庫'

"以下代碼將c:\\cs\\文件夾下的全部Excle中數據導入到SQL數據庫declare @query vARCHAR(1000)declare @max1 intdeclare @count1 intdeclare @filename varchar(100)set @...

數據庫 SQL Excel 微軟上海 2019-09-17

'數據粘貼只會Ctrl+C就out了，五種選擇性粘貼方法，讓操作更高效'

"Excel數據複製粘貼，相信許多人首先會想到兩個快捷鍵，它們就是Ctrl+C和Ctrl+V。表格實際操作過程中我們會發現，單純的複製粘貼總是會出現諸多問題。所以這裡我們就需要學會另外一種複製粘貼操作，它就是選擇性粘貼。通過選擇性粘貼操作，我們可以實現一下特殊的表格操作。下...

Excel 鼠標 2019-09-16

'要看最真實數據來這裡！潔白如玉的戴爾新G3遊戲本優缺點揭祕'

"在主流價位遊戲本市場，除了最主流的聯想拯救者Y7000/Y7000P系列、惠普暗影精靈5/光影精靈5系列，還有一個頗為吸引消費者眼球的系列，那就是戴爾G3，其價格相對於前面兩位稍微便宜點，但重要的是，它的設計很獨特，尤其是白色款，絕對能一瞬間抓住你的眼球。不過這些年，戴爾...

戴爾固態硬盤音箱惠普618一戰到底東芝設計聯想集團金士頓科技 Windows 藍牙 Windows 10 高通 2019-09-15

'兩臺電腦如何直接用一根網線傳數據？'

"工作生活中，難免要碰到要在兩臺電腦中傳輸十幾個G的大文件的情況，或者換電腦時要把文件移動到新電腦中，其他方式很慢，移動硬盤又沒有隨時帶身上，怎麼辦呢？我們身邊的網線可以幫到你，跟著小澤來看看怎麼操作！這種方法適用於任何電腦之間，臺式機—臺式機，臺式機—筆記本，筆記本—筆記...

防火牆電腦 Windows 臺式電腦筆記本電腦移動硬盤 2019-09-15

'「數據分析」怎麼自學數據分析？數據分析師需要掌握的基礎體系'

"這是一份數據分析師的入門指南，一位數據分析師需要掌握的基礎體系，也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。第一週：Excel每一位數據分析師都脫離不開Excel。它是日常工作中最常用的工具，...

Excel 數據庫可視化技術 Dashboard Python 跳槽那些事兒分析師微軟 SQL 機器學習 2019-09-14

'為什麼SQL正在擊敗NoSQL，這對未來的數據意味著什麼'

"導讀：經過多年的沉寂之後，今天的SQL正在復出。緣由如何？這對數據社區有什麼影響？看看本文的分析。以下為譯文。自從可以利用計算機做事以來，我們一直在收集的數據以指數級的速度在增長，因此對於數據存儲、處理和分析技術的要求也越來越高。在過去的十年裡，由於SQL無法滿足這些要求...

SQL NoSQL Microsoft SQL Server 數據庫軟件技術 Azure 電腦 PostgreSQL MySQL BigTable MongoDB Hadoop Google MapReduce 亞馬遜公司 Cassandra Spark 工程師 IBM 編程語言 Aurora 程序設計人生第一份工作讀書可視化技術歷史數學 2019-09-14

'Windows 7禁止可移動存儲設備寫入數據，只有想不到，沒有做不到'

"哈嘍，今日頭條的小夥伴們大家好，我是你們的好朋友IT諮詢顧問。組策略是微軟Windows NT家族操作系統的一個特性，它可以控制用戶帳戶和計算機帳戶的工作環境。組策略提供了操作系統、應用程序和活動目錄中用戶設置的集中化管理和配置，而本地組策略可以在獨立且非域的計算機上管理...

Windows Windows 7 Windows NT 操作系統電腦微軟腳本語言 Windows XP 軟件今日頭條 2019-09-13

'收集四個月數據，《一起來捉妖》帶給我的思考'

"筆者進行了為期四個月的《一起來捉妖》的數據收集，在此分享了從選擇對象到收集數據，再到分析數據的經歷，對於進行數據分析的同學來說，是個不錯的參考。數據分析：始於數據，終於信息。截止2019-9-7，自己收集《一起來捉妖》的相關數據已有四個月啦！且也完成了數據的收集、分析以及...

技術區塊鏈百度精靈寶可夢騰訊 Mac App Store Excel Cosplay 2019-09-12

'用Python處理了數據還要導入Excel做圖表？直接Python做漂亮圖表'

"請關注本號，後續會有更多相關教程。轉發本文並私信我"python"，即可獲得按水平領域分類好的Python資料系列文章"替代Excel Vba"系列（一）：用Python的pandas快速彙總"Python替代Excel Vba"系列（二）：pandas分組統計與操作Ex...

Python Excel 腳本語言可視化技術 2019-09-10

'C語言到底有多重要呢？我們大學都要學C語言基礎，這是為什麼？'

"於大部分程序員，C語言是學習編程的第一門語言，很少有不瞭解C的程序員。C語言除了能讓你瞭解編程的相關概念，帶你走進編程的大門，還能讓你明白程序的運行原理，比如，計算機的各個部件是如何交互的，程序在內存中是一種怎樣的狀態，操作系統和用戶程序之間有著怎樣的“愛恨情仇”，這些底...

C語言程序員電腦編程語言軟件 Java 操作系統硬件 Python 面向對象程序編程算法 PHP 彙編語言設計大學 Objective-C 跳槽那些事兒黑客 2019-09-08

'現在這麼多編程語言可學，為什麼還要學那麼舊的C語言？有用嗎？'

"編寫操作系統最常用的編程語言就是C語言了。用C語言編寫的第一個操作系統是 Unix，之後的 GNU/Linux 等操作系統也都是使用C語言編寫的。編寫操作系統最常用的編程語言就是C語言了C語言不僅僅是操作系統語言，也是當今幾乎所有流行的高級編程語言的先驅，這些編程語言多多...

C語言編程語言操作系統程序員 Ruby Perl ARM 電腦 iMac 設計彙編語言 Atmel AVR 智能手機 Intel Core UNIX Linux Atmel Python 英特爾 GNU Java GTK+ 德州儀器 Palm OS PHP 編譯器硬件中央處理器 OpenGL 2019-09-08

'「Excel技巧」將文本數據導入到Excel文件裡，就是這麼簡單'

"工作中，總會使用各種各樣的系統。有時為方便統計分析，我們就會從系統裡把數據導出來。但是並不是所有的系統都那麼人性化，所以，導出來的數據格式，並不一定就令你滿意。這不，現在就遇到系統裡導出來的這麼一份文本格式的數據，如下：是不是看得有點揪心啊？文字緊湊一起，貌似很不方便閱讀...

Excel 人生第一份工作 2019-09-08

'許多高級編程語言都借鑑了C語言的架構，或者乾脆就是C語言編寫的'

C語言編程語言操作系統程序員 ARM 電腦 Atmel AVR iMac 設計 Perl Ruby Intel Core 智能手機 Linux 英特爾彙編語言 GTK+ Atmel 硬件 Python GNU UNIX PHP Palm OS 中央處理器 OpenGL 九陽神功 Java 2019-09-07

'怎麼用最簡單的方法，做出最炫酷的數據可視化圖表？'

"如果要問數據怎樣做才能顯得最裝逼，那麼答案一定只有一個：“數據可視化”！看上去也很炫酷對不對，其實上面的可視化圖表其實並不複雜，很多人推薦的Python、R語言、Tableau等專業數據分析工具幾乎都能很輕鬆的實現。但是！這只是對於專業的數據人或者精通這些專業工具的人來說...

可視化技術 Excel Python 玫瑰瀏覽器 R語言雷達地理 2019-09-07

'數據可視化，Excel是否是唯一的選擇？'

"數據如人，來來往往。雖說Excel在職場中得到了廣泛的應用，並且能夠將數據進行較好的歸納以及整理，但是Excel卻在一些方面不是那麼的得心應手，比如有數據不獨立，數據締屬於各單元格。使得，一批數據制多表時，各表有同樣的數據。即數據冗餘。產生了冗餘，則要注意同步。第二點有“...

Excel 可視化技術數據結構人生第一份工作 2019-09-07

'Excel展示兩組同期數據，這種左右對比圖真好看，只需六步搞定'

"Excel數據展示過程中，一幅好的圖表不僅僅代表的是美觀，而且也能更加顯而易見的看清楚數據的情況。對兩組同期數據做對比圖，這種情況相信大家都見到過。相信許多同學在進行這樣的兩組數據對比的時候，一般都是用的常規的柱狀圖、折線圖圖表來展示。今天我們就來學習一下，如何製作不一樣...

Excel 鼠標 2019-09-07

'聽說人工智能被這幾種語言給“征服”了'

"人工智能技術的提升不僅為企業的運營帶來了效率，而且為人民的生活帶來了便利。迄今為止，人工智能已經實現了生物識別智能、自動駕駛汽車和人臉識別等等項目。就像大多數軟件應用程序的開發一樣，開發人員也在使用多種語言來編寫人工智能項目，但是現在還沒有任何一種完美的編程語言是可以完全...

人工智能 Java Python JavaScript 編程語言 Java虛擬機機器學習深度學習 Apache 瀏覽器 C語言 Rust GPU R語言無人駕駛 Hadoop Clojure 設計技術 Scala Kotlin 虛擬機 Spark NLTK CSS WebGL 程序員 Google 大數據 2019-09-07

'一個切片器，控制多個Excel數據透視表的技巧'

"如下所示是公司的銷售明細數據我們在插入選項卡下，選擇了一個數據透視表將商品放在行標籤，將數量和金額放在值標籤，這樣就得到了各種商品的銷售彙總數據這個時候如果我們想分月快速查看數據的時候，如果只是把月份字段放在篩選器裡面的話，每次都要去篩選器裡面進行選擇一次，很麻煩我們現在...

Excel 在行 2019-09-07

'3個Excel數據透視表基本規範，很簡單，很多新手卻一直不注意'

"我推薦《48天，Excel技能脫胎換骨》課程，近2000名學員通過課程掌握了Excel技能，實現了職場逆襲。最近有同事問我關於數據透視表的問題，他這個問題非常簡單，但是比較典型，屬於數據透視表基本規範的範疇，很多用過Excel數據透視表的同學可能都沒意識到：那就是原始數據...

Excel 2019-09-06

推薦中...