关于数据分析师的一个面试题。

2024-05-13 18:25

1. 关于数据分析师的一个面试题。

是选19次,每次一个数字,数字是可以重复的,那么你的答案是对的
可能是对题目本身的理解你和考官不一致

关于数据分析师的一个面试题。

2. 数据分析师面试题目和答案:动手题

【导读】众所周知,随着社会的发展,数据分析师成为了炙手可热的热门执业,一方面是其高薪待遇另一方面就是其未来广阔的发展前景。一般情况下用人单位会给问答题和动手题来检测应聘者的真实实力,可以说面试笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。为此小编就以此为例和大家说说2020年数据分析面试解答技巧:动手题,希望对大家有所帮助。

动手题
1. 我给你一组数据,如果要你做数据清洗,你会怎么做?
实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在 2 个问题:典韦出现了 2 次,张飞的数学成绩缺失。
针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。
2. 豆瓣电影数据集关联规则挖掘
在数据分析领域,有一个很经典的案例,那就是“啤酒 + 尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。
如果让你用 Apriori 算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?
以上就是小编今天给大家整理发送的关于“数据分析师面试题目和答案:动手题”的相关内容,希望对大家有所帮助。想了解更多关于数据分析及人工智能就业岗位分析,关注小编持续更新。

3. 从数据分析师考试之笔试试题看职业要求

从数据分析师考试之笔试试题看职业要求

一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
点评:考察的内容是统计学基础功底。
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:
(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;     
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;   
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<<N,t<<N 。
缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。
点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。
三、根据要求写出SQL
表A结构如下:
Member_ID (用户的ID,字符型)
Log_time (用户访问页面时间,日期型(只有一天的数据))
URL (访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;
点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。
另外,这个答案其实是不对的,实现有很多方法,就不贴出来了,大家自己去发挥吧。
四、销售数据分析
以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?
b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?
表如下:一组每天某网站的销售数据
a) 从这一周的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。
b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。
点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。
五、用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a) 试验需要为决策提供什么样的信息?
c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽样;
需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;
选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。
点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。
综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力。

从数据分析师考试之笔试试题看职业要求

4. 数据分析师面试常见问题有哪些?

1、如何理解过拟合?
过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。
欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。
2、为什么说朴素贝叶斯是“朴素”的?
朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
3、SVM 最重要的思想是什么?
SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。
4、K-Means 和 KNN 算法的区别是什么?
首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

5. 数据分析师常见的面试问题

 关于数据分析师常见的面试问题集锦
                      1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
    
    2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?
    3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?
    4、什么是:协同过滤、n-grams, map reduce、余弦距离?
    5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
    6、如何设计一个解决抄袭的方案?
    7、如何检验一个个人支付账户都多个人使用?
    8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
    9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?
    10、什么是概率合并(aka模糊融合)?使用sql处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?
    11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?
    12、你最喜欢的编程语言是什么?为什么?
    13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
    14、sas, r, python, perl语言的区别是?
    15、什么是大数据的诅咒?
    16、你参与过数据库与数据模型的设计吗?
    17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?
    18、你喜欢td数据库的什么特征?
    19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?
    20、如果有几个客户查询oracle数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?
    21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
    22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
    23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?
    24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?
    25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价?
    26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?
    27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)
    28、什么是星型模型?什么是查询表?
    29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?
    30、在sql, perl, c++, python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?
    31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?
    32、定义:qa(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?
    33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?
    34、你认为叶数小于50的决策树是否比大的好?为什么?
    35、保险精算是否是统计学的一个分支?如果不是,为何如何?
    36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。
    37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?
    38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对a/b测试熟吗?
    39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的.敏感性的想法如何看?
    40、对于一下逻辑回归、决策树、神经网络。在过去XX年中这些技术做了哪些大的改进?
    41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?
    42、你如何建议一个非参数置信区间?
    43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?
    44、什么是归因分析?如何识别归因与相关系数?举例。
    45、如何定义与衡量一个指标的预测能力?
    46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?
    47、如何创建一个关键字分类?
    48、什么是僵尸网络?如何进行检测?
    49、你有使用过api接口的经验吗?什么样的api?是谷歌还是亚马逊还是软件即时服务?
    50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?
    51、可视化使用什么工具?在作图方面,你如何评价tableau?r?sas?在一个图中有效展现五个维度?
    52、什么是概念验证?
    53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/it部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
    54、你熟悉软件生命周期吗?及it项目的生命周期,从收入需求到项目维护?
    55、什么是cron任务?
    56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?
    57、是假阳性好还是假阴性好?
    58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
    59、zillow’s算法是如何工作的?
    60、如何检验为了不好的目的还进行的虚假评论或者虚假的fb帐户?
    61、你如何创建一个新的匿名数字帐户?
    62、你有没有想过自己创业?是什么样的想法?
    63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
    64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?
    65、哪位数据科学有你最佩服?从哪开始?
    66、你是怎么开始对数据科学感兴趣的?
    67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
    68、什么是推荐引擎?它是如何工作的?
    69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?
    70、你认为怎么才能成为一个好的数据科学家?
    71、你认为数据科学家是一个艺术家还是科学家?
    72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?
    73、给出一些在数据科学中“最佳实践的案例”。
    74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?
    75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
    76、你觉得下一个20年最好的5个预测方法是?
    77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?
   ;

数据分析师常见的面试问题

6. 数据分析常见面试题有哪些?

1、如何理解过拟合?
过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。
欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。
2、为什么说朴素贝叶斯是“朴素”的?
朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
3、SVM 最重要的思想是什么?
SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。
4、K-Means 和 KNN 算法的区别是什么?
首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

7. 求解答数据分析考试题目答案

(1)同比增长率:(本期数-同期数)÷同期数×100%
环比增长率:(本期数-上期数)/上期数×100%。
(2)同比增长率:(1354-1056)/1056×100%=28.22%
环比增长率:(1354-1325)/1325×100%=2.12%
(3)2020年第四季度销量:1687+1325+1354=4366
2019年第四季度销量:1865+1987+1056=4908
2020年第三季度销量:2971+2777+830=6578
同比增长率:(4366-4908)/4908×100%=-11.04%
环比增长率:(4366-6587)/6587×100%=-33.72%

求解答数据分析考试题目答案

8. 面试数据分析师的常见问题

面试数据分析师的常见问题。数据分析师指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。那么在应聘数据分析师这一职位的求职者会面临哪些面试问题呢?
  
  1、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?
  2、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?
  3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?
  4、什么是:协同过滤、n-grams, map reduce、余弦距离?
  5、点击流数据应该是实时处理?为什么?哪部分应该实时处理?
  6、如何设计一个解决抄袭的方案?
  7、如何检验一个个人支付账户都多个人使用?
  8、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?
  9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?
  10、你最喜欢的编程语言是什么?为什么?
  11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?
  12、什么是大数据的诅咒?
  13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
  14、SAS, R, Python, Perl语言的区别是?
  15、你喜欢TD数据库的什么特征?
  16、你参与过数据库与数据模型的设计吗?
  17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?
  18、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?
  19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?
  20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?
  21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?
  22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?
  23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?
  24、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)
  25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价?
  26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?
  27、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?
  28、什么是星型模型?什么是查询表?
  29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?
  30、在SQL, Perl, C++, Python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?
  31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?
  32、定义:QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?
  33、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?
  34、你认为叶数小于50的决策树是否比大的好?为什么?
  35、保险精算是否是统计学的一个分支?如果不是,为何如何?
  36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。
  37、你如何建议一个非参数置信区间?
  38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?
  39、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?
  40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?
  41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?
  42、如何创建一个关键字分类?
  43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?
  44、什么是归因分析?如何识别归因与相关系数?举例。
  45、如何定义与衡量一个指标的预测能力?
  46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?
  47、什么是概念验证?
  48、什么是僵尸网络?如何进行检测?
  49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?
  50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?
  51、可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?
  52、是假阳性好还是假阴性好?
  53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。
  54、你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?
  55、什么是cron任务?
  56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?
  57、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?
  58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。
  59、Zillow’s算法是如何工作的?
  60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?
  61、你如何创建一个新的匿名数字帐户?
  62、你有没有想过自己创业?是什么样的想法?
  63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?
  64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?
  65、哪位数据科学有你最佩服?从哪开始?
  66、你是怎么开始对数据科学感兴趣的?
  67、你觉得下一个20年最好的5个预测方法是?
  68、什么是推荐引擎?它是如何工作的?
  69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?
  70、你认为怎么才能成为一个好的数据科学家?
  71、你认为数据科学家是一个艺术家还是科学家?
  72、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?
  73、给出一些在数据科学中“最佳实践的案例”。
  74、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?
  75、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
  76、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?
  77、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。
   上述的这些问题在面试数据分析师的求职者中非常容易遇到的,有些的涉及到专业性的问题,因此在面试之前一定要做好充足的准备!