数理统计-企业题-CFANZ编程社区

数理统计-刷题

文章目录

- 一、单选
- 二、多选

一、单选

1、关于正态分布,下列说法错误的是（C）

A、正态分布具有集中性和对称性
B、正态分布的均值和方差能够决定正态分布的位置和形态
C、正态分布的偏度为0，峰度为1
D、标准正态分布的均值为0，方差为1

2、从sd卡加载一张图片为bitmap并显示到屏幕上的一个view，该view占用的内存主要和什么因素有关（D）

A、图片文件大小及压缩格式
B、图片原始分辨率
C、view的尺寸
D、bitmap分辨率和颜色位数

3、S市A，B共有两个区，人口比例为3：5，据历史统计A的犯罪率为0.01%，B区为0.015%，现有一起新案件发生在S市，那么案件发生在A区的可能性有多大？（C）

A、37.5%
B、32.5%
C、28.6%
D、26.1%

4、一个包里有5个黑球，10个红球和17个白球。每次可以从中取两个球出来，放置在外面。那么至少取________次以后，一定出现过取出一对颜色一样的球。（ A ）

A、16
B、9
C、4
D、1

5、执行以下代码，a的值为（A）

#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;

a的值为

A、16
B、30
C、33
D、39

6、下面关于ID3算法中说法错误的是（ D ）

A、ID3算法要求特征必须离散化
B、信息增益可以用熵，而不是GINI系数来计算
C、选取信息增益最大的特征，作为树的根节点
D、ID3算法是一个二叉树模型

7、每台物理计算机可以虚拟出 20 台虚拟机，假设一台虚拟机发生故障当且仅当它所宿主的物理机发生故障。通过 5 台物理机虚拟出100 台虚拟机，那么关于这 100 台虚拟机的故障的说法正确的是：（ C ）

A、单台虚拟机的故障率高于单台物理机的故障率
B、这 100 台虚拟机发生故障是彼此独立的
C、这100台虚拟机单位时间内出现故障的个数高于100台物理机单位时间内出现故障的个数
D、无法判断这 100 台虚拟机和 100 台物理机哪个更可靠
E、如果随机选出 5 台虚拟机组成集群，那么这个集群的可靠性和 5 台物理机的可靠性相同
F、可能有一段时间只有 1 台虚拟机发生故障

8、如果某系统12*5=61成立，则系统采用的是 ( C )进制

A、7
B、8
C、9
D、10

9、20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为：（ C）
$A、5^4*5!*15!/20!$

$B、4^5*5!*15!/20!$

$C、5^4*4!*16!/20!$

$D、4^5*4!*16!/20!$

10、在黑盒测试方法中，设计测试用例的主要根据是（ B ）

A、程序内部逻辑
B、程序外部功能
C、程序数据结构
D、程序流程图

11、计算一个任意三角形的面积，S=√(p(p-a)(p-b)(p-c)) , p=(a+b+c)/2,以下等价类测试用例中，不属于无效等价类的是（ A ）

A、a=5，b=3，c=6
B、a=2，b=3，c=5
C、a=7，b=3，c=3
D、a=2，b=6，c=3

12、若用φ（ｎ）表示欧拉函数，请问：φ（５６）的欧拉函数之积为 ( A )

A、24
B、10
C、15
D、11

$ψ(x)=x*(1-\frac{1}{P_1})(1-\frac{1}{P_2})··· (1-\frac{1}{P_n})$

13、已知
$\sqrt{({axy^3}-y^2\cos x)dx + (1+by\sin x + 3x^2y^2)dy}$
为某二元函数的全微分，则a和b的值为==（ D ）==

A、-2，2
B、3，-3
C、-3，3
D、2，-2

14、以下表的设计，最合理的是（ A ）

A、学生{id,name,age} ,学科{id,name} 分数{学生 id，学科 id,分数}
B、学生{id,name,age} ,分数{学生 id, 学科id, 学科 name , 分数}
C、分数{学生id, 学生 name，学生age, 学科id，学科名称, 分数, }
D、学科{id,name},分数{学生id，学生姓名，学生age，学科 id,分数}

15、一个栈的入栈序列为ABCDE，则栈的不可能的输出序列为（ D ）

A、DCBEA
B、ACBED
C、DCEBA
D、DEBCA

16、对于以下代码，正确的是（ D ）

char* p=new char[100];

A、p和new出来的内存都在栈上
B、p和new出来的内存都在堆上
C、p在堆上，new出来的在栈上
D、p在栈上，new出来的在堆上

17、编译程序是一种（A ）

A、翻译程序
B、目标程序
C、汇编程序
D、解释程序

18、已知中国人的血型分布约为A型：30%，B型：20%，O型：40%，AB型：10%，则任选一批中国人作为用户调研对象，希望他们中至少有一个是B型血的可能性不低于90%，那么最少需要选多少人? （ C ）

A、7
B、9
C、11
D、13

19、1台机器对200个单词进行排序花了200秒(使用冒泡排序)，那么花费800秒，大概可以对多少个单词进行排序（ A ）

A、400
B、500
C、600
D、800

20、现有4个同时到达的作业J1,J2,J3和J4,它们的执行时间分别是1小时，3小时，5小时，7小时，系统按单道方式运行且采用短作业优先算法，则平均周转时间是（ D ）小时

A、4
B、5
C、6
D、7.5

执行次序	执行时间	开始时间	完成时间	周转时间
J1	1	0	1	1
J2	3	1	4	4
J3	5	4	9	9
J4	7	9	16	16

平均时间为:(1+4+9+16)/4=30/4=7.5

21、卡方分布的方差为2倍的自由度为（ C ）

A、n
B、1
C、2n
D、4n

22、在一次大选中候选人A和B进行竞选。候选人A的抽样支持率为60%，95%的置信区间为（50% - 70%），请问在最终大选中候选人A落选的概率与下列哪个最为接近（ D ）

A、40%
B、60%
C、5%
D、2.5%

23、在给定文件中查找与设定条件相符字符串的命令==（ B ）==

A、gzip
B、grep
C、ls
D、find

24、字符串

"//＾▽＾//\n"

的长度是（ C ）

A、6
B、7
C、8
D、9

25、设 q (n,m)是将正整数 n 划分成最大加数不大于 m 的若干不同正整数之和的划分数，则q(n,m)为（B ）

$q(n,m)=\begin{cases} 1，\quad(n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-2)+q(n-m,m),\quad (n>m>1) \end{cases}$

$q(n,m)=\begin{cases} 1，\quad(n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m),\quad (n>m>1) \end{cases}$

$q(n,m)=\begin{cases} 1，\quad(n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m-1),\quad (n>m>1) \end{cases}$

$q(n,m)=\begin{cases} 0,\quad (n>1 \&\&\ m =1 ) \\ 1，\quad (n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m-1),\quad (n>m>1) \end{cases}$

26、一个有偏的硬币，抛了100次，出现1次人头，99次字。问用最大似然估计（MLE）和最小均方误差（LMSE）估计出现人头的概率哪个大？（ B ）

A、MLE = MSE
B、MLE > MSE
C、MLE < MSE

27、下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是==（ A ）==

A、链表和哈希表
B、数组和链表
C、哈希表和队列
D、堆栈和双向队列

28、以下开源软件中经常被用作消息队列的是哪个（ A ）

A、Kafka
B、MongoDB
C、Hadoop
D、Spark

29、对立的两方争夺一个价值为1的物品，双方可以采取的策略可以分为鸽子策略和鹰策略。如果双方都是鸽子策略，那么双方各有1/2的几率获得该物品；如果双方均为鹰策略，那么双方各有1/2的概率取胜，胜方获得价值为1的物品，付出价值为1的代价，负方付出价值为1的代价；如果一方为鸽子策略，一方为鹰策略，那么鹰策略获得价值为1的物品。在争夺的结果出来之前，没人知道对方是鸽子策略还是鹰策略。当选择鸽子策略的人的比例是某一个值时，选择鸽子策略和选择鹰策略的预期收益是相同的。那么该值是 ( C )

A、0.2
B、0.4
C、0.5
D、0.7
E、0.8

30、N-gram是一种简单有效的统计语言模型，通常n采用1-3之间的值，它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下：
D1： John read Moby Dick
D2： Mary read a different book,
D3： She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是（ B ）

A、1
B、0.06
C、0.09
D、0.0008

31、现在有一个tcp服务端监听了80端口，问最多同时能建立多少连接（ D ）

A、1023
B、65534
C、64511
D、非常多基本和内存大小相关

32、基于统计的分词方法为（ D ）

A、正向最大匹配法
B、逆向最大匹配法
C、最少切分
D、条件随机场

33、通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。显然，摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布，那么能否将它转换成(0,1)区间上的均匀分布__（ A ）

A、忽略测量和计算误差，可以转换为(0,1)区间上的均匀分布
B、无法转换为(0,1)区间上的均匀分布
C、信息不足，无法判断
D、借助伪随机数生成算法可以转换为(0,1)区间上的均匀分布
E、仅仅靠伪随机数生成算法，就可以生成(0,1)区间上的均匀分布
F、以上说法都不对

34、下列时间序列模型中，哪一个模型可以较好地拟合波动性的分析和预测（ D ）

A、AR模型
B、MA模型
C、ARMA模型
D、GARCH模型

35、这是第25道选择题，也是最后一道选择题。请估算一下，包括本题在内，这25道选择题题干及选项总共大约有多少个字符？（ C ）

A、500

B、1000

C、2000

D、4000

36、一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法表达式；现在有 6 对()，它们可以组成的合法表达式的个数为____ （ D ）

A、15

B、30

C、64

D、132

E、256

F、360

37、某公司有这么一个规定：只要有一个员工过生日，当天所有员工全部放假一天。但在其余时候，所有员工都没有假期，必须正常上班。假设一年有365天，每个员工的生日都概率均等地分布在这365天里。那么，这个公司需要雇用多少员工，才能让公司一年内所有员工的总工作时间期望值最大？（ D ）

A、1

B、122

C、183

D、365

二、多选

1、某电商推出一款新的产品，希望这个产品能大卖，让你给这个主题取个名字，如果你是数据分析师，以下哪些指标可以用来判断。（ A B C）

A、成交总量：代表产品销售的收入
B、独立用户数：代表购买产品的用户，说明产品的覆盖面
C、评价数（好评数）：反馈用户对产品口碑
D、购买时间：代表产品的销售与时间的相关性

2、关于相关系数,下列描述中正确的有:（A C E ）

A、相关系数为0.8时,说明两个变量之间呈正相关关系
B、相关系数等于1相较于相关系数等于-1,前者的相关性更强
C、相关性等于1相较于相关系数等于0,前者的相关性更强
D、Pearson相关系数衡量了两个定序变量之间的相关程度
E、Spearman相关系数可以衡量两个定序变量之间的相关程度
F、相关系数为0.2相较于-0.8,前者的相关性更强

3、下列有关k-mean算法说法正确的是 ( AD )

A、不能自动识别类的个数，随机挑选初始点为中心点计算
B、数据数量不多时，输入的数据的顺序不同会导致结果不同
C、不能自动识别类的个数，不是随机挑选初始点为中心点计算
D、初始聚类中心的选择对聚类结果的影响很大

4、下列哪些方法可以用来对高维数据进行降维: （A B C D E F ）

A、LASSO
B、主成分分析法
C、聚类分析
D、小波分析法
E、线性判别法
F、拉普拉斯特征映射

5、excel工作簿a中有两列id、age，工作簿b中有一列id。需要找到工作薄b中id对应的age,可用的函数包括

（ AB）

A、index+match
B、vlookup
C、hlookup
D、find
E、if
F、like

6、某服务请求经负载均衡设备分配到集群A、B、C、D进行处理响应的概率分别是10%、20%、30%和40%。已知测试集群所得的稳定性指标分别是90%、95%、99%和99.9%。现在该服务器请求处理失败，且已排除稳定性以外的问题，那么最有可能在处理该服务请求的集群是________（ A B ）

A、A
B、B
C、C
D、D

7、关于线性回归的描述,以下正确的有: （ B C E ）

A、基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B、基本假设包括随机干扰项是均值为0的同方差正态分布
C、在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D、在违背基本假设时,模型不再可以估计
E、可以用DW检验残差是否存在序列相关性
F、多重共线性会使得参数估计值方差减小

8、现在有M个桶，每桶都有N个乒乓球，乒乓球的颜色有K种，并且假设第i个桶第j种颜色的球个数为C_ij，比例为

R_ij=C_ij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的? （ B C F ）

A、∑(N/K-C_ij) (N/K-C_ij) 越小越纯
B、-∑C_ij * LOG(R_ij) 越小越纯
C、∑(1-R_ij * R_ij) 越小越纯
D、∑(1-R_ij) * (1-R_ij) 越小越纯
E、∑(1-R_ij)² 越小越纯
F、-∑R_ij * LOG(R_ij) 越小越纯