当前位置：首页>大数据>正文

学习笔记37 数据分析常见面试题（四） 4-03

大数据2024-04-04 21:31:51

数理基础

1、条件概率的概念（滴滴）

参考答案

假设我们已知A事件发生，想要在此基础上求出B事件发生的概率时，需要考虑构建条件概率P(A|B)，即A事件发生条件下B事件发生的概率。条件概率的计算公式为：P(A|B)=P(AB)/P(B)。

==就是一件事在另一件事发生的基础上再发生的概率，这里主要考察公式。就是两者同时发生的概率除以已发生事件的概率。

2、概率和似然是什么（字节跳动）

参考答案

概率（probability)和似然（likelihood)，都是指可能性，都可以被称为概率，但在统计应?中有所区别。

1.概率是给定某?参数值，求某?结果的可能性的函数。

例如，抛?枚匀质硬币，抛10次，6次正?向上的可能性多?？

解读：“匀质硬币”，表明参数值是0.5，“抛10次，六次正?向上”这是?个结果，概

率（probability)是求这?结果的可能性。

2.似然是给定某?结果，求某?参数值的可能性的函数。

例如，抛?枚硬币，抛10次，结果是6次正?向上，其是匀质的可能性多?？

解读：“抛10次，结果是6次正?向上”，这是?个给定的结果，问“匀质”的可能性，

即求参数值=0.5的可能性。

==这个已经解释过很多次了，这里不再赘述

3、两个孩子，已知一孩子是男孩，另一孩子是男孩的概率。（字节跳动）

参考答案

1/2或者1/3

答案解析

1/2：两者为独立事件，互不影响，故为1/2；

1/3：如果区分顺序两个孩子可能为：男男，男女，女男，女女；已知其一为男孩，则可能为：男男，男女，女男；男男的概率为1/3

==在这里答案并不重要，主要考察你考虑的是否全面，首先得指出这个问题中的事件是否独立。

4、说一下显著性水平（滴滴）

参考答案

显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，一般用α表示。即原假设为真，但是却拒绝原假设的概率。

==就是哪个0.05，就是a，犯一类错误的概率。

5、简单讲一下三门问题（拼多多）

参考答案

A=你选中了?，B=打开了?扇有?的?

在条件B下A的概率，有?叶斯公式：

B事件已经发?了，所以B事件其实是和A?关的

以上代?得

所以主持?根本就是个幌?，这?的关键是P(A)到底等于多少。

P(A)的计算在这个问题?依据古典概型：

得出1/2的结论其实是把事件的顺序弄反了，你先选然后主持?再选，跟主持?先选

你再选是不?样的：

如果你先选，那么你选中?的概率就是1/3 ，所以?在除这个?之外的??

的概率2/3 ，然后只剩?个?了，换之后有?的概率就是2/3。

如果主持?先选，那么你选中?的概率就是1/2，所以换之后选中?的概率也是

1/2，换不换都?样。所以主持?的?为只是改变了古典概型的基本事件总数罢了。

可以看?下4个?的情况，你先选，选中?的概率 1/4，?在除这个?之外的??的概率

3/4，主持?开了?个?，还剩两个?，所以随便换?个?有?的概率是 3/8。

如果主持??个?都不开，那么随便换?个?有?的概率是1/4，符合直觉。

如果主持?开了两个?，还剩?个?，那么跟前?3个??样就是3/4。

所以换?有?的概率其实是

Python

1.python讲自己用过的包的具体用法（滴滴）

参考答案

1.numpy，用来做多维数组的运算的，之前在xx项目中用numpy做一些数据运算的工作。

2.pandas，用来处理表格和复杂数据的，我主要用它在数据清洗这一步。

3.matplotlib，用来数据可视化，在对处理好的数据我想简单看一下频数分布或者相关性之类的很轻松的可以画出图片。

4.sklearn，用户机器学习建模，在数据建模这部分用到，我经常用的模型有随机森林和xgb（引导面试官问这两者的区别）。

==专门有一个章节讲这两个的区别

==numpy用来做数据运算，pandas用来进行数据的清洗，matplotlib用来可视化，看下分布。sklearn用来进行数据建模

答案解析

用过的包+用途+用这个做了什么

2.python斐波那契数列（猿辅导）

参考答案

3.python去重（京东）

参考答案

1.set对list去重

2.groupby去重

3.distinct去重

==去重的方法，有set对list，group by，和distinct去重。

4.介绍自己常用的语言，是否会用python（中银金科）

参考答案

在实习的过程中，主要使用的语言是sql和python，sql主要用于将数据从数据库中提取出来，如果数据量较小的话我就直接用excel处理，但是如果数据量较大的话我就要用python处理。平时除了用python做数据处理外，还会用python做一些可视化的图表和机器学习建模。

答案解析

==SQL更多的作用是将数据从数据库中提取出来，数据量小用excel，数据量大用python

数据分析常用的语言是sql和python

5.Python的list和numpy的array有什么区别（工商银行）

参考答案

1.list可以存放不同类型的数据，比如int、float和str，甚至布尔型；而一个numpy数组中存放的数据类型必须全部相同，例如int或float。

2.在索引方式上，numpy.array支持比list更多的索引方式。

==两者很像但是不同，list内部可以存在不同类型的数据，例如int，float等。但numpy中的数据类型必须是单一且相同的。

7.52 Python-2

6.学Python多久（招联金融）

参考答案

python在我的实习中和项目中都是经常用的，在其中用python做数据处理、特征筛选、数据可视化和数据建模。能够熟练使用numpy、pandas、matliplot和sklearn包中的函数。

答案解析

考察python熟练程度

7.Python处理脚本都做过哪些东西呀（经纬恒润）

参考答案

我们要完成网上的实验安全考试。系统快关闭的时候辅导员通知我们必须完成并且必须在90分以上才通过。那时刚好学了点爬虫，然后就先把题库抓下来，保存到本地。然后模拟登录，进入考试，从本地题库里匹配答案，提交表单。然后用py2exe编译成exe可执行文件，出于学习与交流的目的，把程序发给班上的同学了。

8.会用R语言和python是吗？（快手）

参考答案

会的。在学校的xxx课程上，我们是用的R语言进行编程，并且大作业是需要用R语言完成xxx项目，在这门课中我也从一个R语言小白成长了一点。Python是我自己在课外学习的，并且在xx项目/实习中我用python来做数据处理和数据建模的工作，除此之外还会用python做一些可视化的图表。

答案解析

需要说自己会用的模块和使用的地方。

9.Python数据处理的常用函数（小米）

参考答案

数据处理主要用的就是pandas里面的函数。

去重：drop_duplicates()

填充缺失值:fillna()

处理某列:apply(), lambda函数

替换函数：replace()

==这里考的是真细节，八股文也不敢考成这样。

10.python方面的读取json（美团）

参考答案

? 如果你要处理的是文件而不是字符串，你可以使用json.dump() 和 json.load()来编码和解码 JSON 数据。例如： # 写入一个json数据 with open('data.json', 'w') as f：json.dump(data, f) ；with open('data.json', 'r') as f：data = json.load(f)

7.53 python-3

11.python题map一道（MobTech）

参考答案

map() 会根据提供的函数对指定序列做映射。map(function, iterable, ...)---function：函数；iterable：一个或多个序列

12.Python你常用的包有哪些？（字节跳动）

参考答案

numpy，用来做多维数组的运算的，之前在xx项目中用numpy做一些数据运算的工作。

pandas，用来处理表格和复杂数据的，我主要用它在数据清洗这一步。

3.matplotlib，用来数据可视化，在对处理好的数据我想简单看一下频数分布或者相关性之类的很轻松的可以画出图片。

4.sklearn，用户机器学习建模，在数据建模这部分用到，我经常用的模型有随机森林和xgb（引导面试官问这两者的区别）。

答案解析

用过的包+用途+用这个做了什么

13.工作中python会用到哪些？（作业帮）

参考答案

1.做大数据清洗工作，在xx的实习/项目过程中，我用python中的numpy和pandas完成了xx量级的数据清洗工作，也让我对这些函数的参数有了更全面的认识。

2.做数据建模工作，在xxx的项目中，我用sklearn中的xxx算法，完成了xxx，最后精度达到了xxx。

14.python：数组逆序输出（快手）

参考答案

查看全文

https://www.xamrdz.com/bigdata/7uu1890029.html

相关文章：