将 .txt 数据导入 R
Importing .txt data into R
我正在尝试将一个文本文件导入到 R 中,该文件有多个由 |
分隔的列。这是第一行:
C00088591|N|M3|P|15970306895|15|IND|BURCH, MARY K.|FALLS CHURCH|VA|220424511|NORTHROP GRUMMAN|副总裁项目管理|02132015|500||2A8EE0688413416FA735|998834| 4032020151240885624
我用read.table
读取了数据:
pc <- read.table(file = source(file.choose()), header = FALSE, sep = "|")
然而,当我执行上面的代码时,我得到了这个错误信息:
Error in source(file.choose()) : /Users/na/Desktop/Thesis/04_Data/Campaign contributions/indiv16/by_date/itcont_2016_10151005_20150726.txt:1:42: unexpected ',' 1: C00088591|N|M3|P|15970306895|15|IND|BURCH, ^
我继续删除数据集中的逗号,但它也不起作用:
Error in source(file.choose()) : /Users/na/Desktop/itcont_2016_10151005_20150726 copy.txt:1:43: unexpected symbol 1: C00088591|N|M3|P|15970306895|15|IND|BURCH MARY ^
是不是因为一栏有多个词?我该如何解决这个问题?
删除 source
函数调用,它不适合放在这里(该函数做了完全不同的事情)。
第二个错误我不知道是什么原因,即使你解决了,还是有问题。假设您希望每个管道分隔的行只包含管道或字母数字字符,您可以使用以下正则表达式来标记有问题的行:
^.*[^A-Za-z0-9|].*$
您可以使用任何支持基本正则表达式的文本编辑器或工具。
我正在尝试将一个文本文件导入到 R 中,该文件有多个由 |
分隔的列。这是第一行:
C00088591|N|M3|P|15970306895|15|IND|BURCH, MARY K.|FALLS CHURCH|VA|220424511|NORTHROP GRUMMAN|副总裁项目管理|02132015|500||2A8EE0688413416FA735|998834| 4032020151240885624
我用read.table
读取了数据:
pc <- read.table(file = source(file.choose()), header = FALSE, sep = "|")
然而,当我执行上面的代码时,我得到了这个错误信息:
Error in source(file.choose()) : /Users/na/Desktop/Thesis/04_Data/Campaign contributions/indiv16/by_date/itcont_2016_10151005_20150726.txt:1:42: unexpected ',' 1: C00088591|N|M3|P|15970306895|15|IND|BURCH, ^
我继续删除数据集中的逗号,但它也不起作用:
Error in source(file.choose()) : /Users/na/Desktop/itcont_2016_10151005_20150726 copy.txt:1:43: unexpected symbol 1: C00088591|N|M3|P|15970306895|15|IND|BURCH MARY ^
是不是因为一栏有多个词?我该如何解决这个问题?
删除 source
函数调用,它不适合放在这里(该函数做了完全不同的事情)。
第二个错误我不知道是什么原因,即使你解决了,还是有问题。假设您希望每个管道分隔的行只包含管道或字母数字字符,您可以使用以下正则表达式来标记有问题的行:
^.*[^A-Za-z0-9|].*$
您可以使用任何支持基本正则表达式的文本编辑器或工具。