当前位置: 首页>前端>正文

数据去重处理及分析​

1.1数据清洗常见方法

1.1.1中去除重复数据

1. Python程序去重

中,你可以使用以下方法去除重复的数据:

(1)使用集合Set)

my_list = [1, 2, 2, 3, 4, 4, 5]

unique_list = list(set(my_list))

(2)使用列表推导式

my_list = [1, 2, 2, 3, 4, 4, 5]

unique_list = list(dict.fromkeys(my_list))

2. SQL 中去除重复数据

SQL 数据库中你可以使用 DISTINCT 关键字或者 GROUP BY 语句来去除重复的数据

(1)使用 DISTINCT 关键字

SELECT DISTINCT column1, column2 FROM table_name;

(2)使用 GROUP BY 语句

SELECT column1, column2 FROM table_name GROUP BY column1, column2;

3. Excel 中去除重复数据

中,你可以使用“删除重复值”功能来去除重复的数据:

(1)选择要去重的数据范围;

(2)在菜单栏中选择“数据” -> “删除重复值”;

(3)按照指定列选择去重的依据,点击“确定”。

4.中去除重复数据

的 Pandas 库中,你可以使用 drop_duplicates() 方法来去除重复的数据:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 4, 5]})

df_unique = df.drop_duplicates()

5.使用工具软件EmEditor直接去重

EmEditor 是一款功能强大的文本编辑器,它提供了去重功能来处理重复数据。以下是如何在 EmEditor 中使用去重功能:

(1)打开,并打开你想要去重的大文件。

(2)选择菜单中的(编辑 -> 高级 -> 删除重复行)。

(3)点击完成去重操作。

通过的去重功能,你可以方便地处理大文件中的重复数据,而无需编写额外的代码或命令。

6.通过Linux下的sort命令去重

sort input.txt | uniq > output.txt

1.1合并同类型数据

1.1.1下利用PentestBox进行处理合并

命令:cat *.csv >all.txt或者cat *.txt >all.csv

用途:将同类型的csv/txt文件合并成一个文件。

例如下面将所有的csv文件合并成txt文件,如图1所示。

数据去重处理及分析​,数据去重处理及分析​_数据,第1张

图1 合并文件

1.1.2对合并的文件进行去重

1.通过EmEditor直接去重

通过EmEditor打开合并的文件all.txt,然后单击

数据去重处理及分析​,数据去重处理及分析​_数据_02,第2张

,如图2所示,程序会自动删除重复的行数据。保存即可获取去重后的数据。

数据去重处理及分析​,数据去重处理及分析​_重复数据_03,第3张

2.使用sort命令去重

对一个大型文本文件进行去重操作,而不需要改变数据格式或内容,那么可以考虑使用中的 sort 和 uniq 命令来实现。首先,使用命令对文件进行排序,然后使用 uniq 命令去除重复行。下面是具体操作步骤:

sort input.txt | uniq > output.txt

在这个命令中:

sort input.txt 将输入文件进行排序。uniq 命令默认会去除相邻的重复行,因此结合 sort 命令可以确保整个文件中的重复行都被去除。最后,使用重定向将去重后的结果输出到 output.txt 文件中。这种方法能够高效地处理大型文本文件,并且不会改变数据格式或内容,只是去除了重复的记录。


https://www.xamrdz.com/web/2nk1942485.html

相关文章: