1.1数据清洗常见方法
1.1.1在中去除重复数据
1. Python程序去重
在中,你可以使用以下方法去除重复的数据:
(1)使用集合(Set)
my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(set(my_list))
(2)使用列表推导式
my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(dict.fromkeys(my_list))
2.在 SQL 中去除重复数据
在 SQL 数据库中,你可以使用 DISTINCT 关键字或者 GROUP BY 语句来去除重复的数据:
(1)使用 DISTINCT 关键字
SELECT DISTINCT column1, column2 FROM table_name;
(2)使用 GROUP BY 语句
SELECT column1, column2 FROM table_name GROUP BY column1, column2;
3.在 Excel 中去除重复数据
在中,你可以使用“删除重复值”功能来去除重复的数据:
(1)选择要去重的数据范围;
(2)在菜单栏中选择“数据” -> “删除重复值”;
(3)按照指定列选择去重的依据,点击“确定”。
4.在中去除重复数据
在的 Pandas 库中,你可以使用 drop_duplicates() 方法来去除重复的数据:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 4, 5]})
df_unique = df.drop_duplicates()
5.使用工具软件EmEditor直接去重
EmEditor 是一款功能强大的文本编辑器,它提供了去重功能来处理重复数据。以下是如何在 EmEditor 中使用去重功能:
(1)打开,并打开你想要去重的大文件。
(2)选择菜单中的(编辑 -> 高级 -> 删除重复行)。
(3)点击完成去重操作。
通过的去重功能,你可以方便地处理大文件中的重复数据,而无需编写额外的代码或命令。
6.通过Linux下的sort命令去重
sort input.txt | uniq > output.txt
1.1合并同类型数据
1.1.1下利用PentestBox进行处理合并
命令:cat *.csv >all.txt或者cat *.txt >all.csv
用途:将同类型的csv/txt文件合并成一个文件。
例如下面将所有的csv文件合并成txt文件,如图1所示。
图1 合并文件
1.1.2对合并的文件进行去重
1.通过EmEditor直接去重
通过EmEditor打开合并的文件all.txt,然后单击
,如图2所示,程序会自动删除重复的行数据。保存即可获取去重后的数据。
2.使用sort命令去重
对一个大型文本文件进行去重操作,而不需要改变数据格式或内容,那么可以考虑使用中的 sort 和 uniq 命令来实现。首先,使用命令对文件进行排序,然后使用 uniq 命令去除重复行。下面是具体操作步骤:
sort input.txt | uniq > output.txt
在这个命令中:
sort input.txt 将输入文件进行排序。uniq 命令默认会去除相邻的重复行,因此结合 sort 命令可以确保整个文件中的重复行都被去除。最后,使用重定向将去重后的结果输出到 output.txt 文件中。这种方法能够高效地处理大型文本文件,并且不会改变数据格式或内容,只是去除了重复的记录。