Import
在这一部分中,你将学习如何将更广泛的数据导入R,以及如何将其转换为适合分析的格式。 有时只需调用相应数据导入包中的函数即可完成。 但在更复杂的情况下,可能需要同时进行数据清洗和转换,才能得到你更希望使用的规整矩形数据。
在本部分中,你将学习如何访问通过以下几种方式存储的数据:
在 20 Spreadsheets 中, 你将学习如何从 Excel spreadsheets 和 Google Sheets 中导入数据。
在 21 Databases 中, 你将学习如何从数据库中提取数据到 R 中(同时你也会了解一些如何将数据从 R 存入数据库的方法)。
在 22 Arrow 中, 你将学习 Arrow,这是一个处理内存外数据的强大工具,特别是当数据以 parquet 格式存储时。
在 23 Hierarchical data 中, 你将学习如何处理分层数据,包括 JSON 格式存储所产生的深度嵌套列表。
在 24 Web scraping 中, 你将学习网络”爬取”,即从网页中提取数据的艺术与科学。
有两个重要的 tidyverse 包我们在此不做讨论:haven 和 xml2。 如果你正在处理来自 SPSS、Stata 和 SAS 文件的数据,请查阅 haven 包,https://haven.tidyverse.org。 如果你正在处理 XML 数据,请查阅 xml2 包,https://xml2.r-lib.org。 除此之外,你可能需要自行研究来确定需要使用的包;谷歌会是你的好帮手😃。