数理统计-刷题
文章目录
一、单选
1、关于正态分布,下列说法错误的是 (C)
A、正态分布具有集中性和对称性
B、正态分布的均值和方差能够决定正态分布的位置和形态
C、正态分布的偏度为0,峰度为1
D、标准正态分布的均值为0,方差为1
2、从sd卡加载一张图片为bitmap并显示到屏幕上的一个view,该view占用的内存主要和什么因素有关 (D)
A、图片文件大小及压缩格式
B、图片原始分辨率
C、view的尺寸
D、bitmap分辨率和颜色位数
3、S市A,B共有两个区,人口比例为3:5,据历史统计A的犯罪率为0.01%,B区为0.015%,现有一起新案件发生在S市,那么案件发生在A区的可能性有多大?(C)
A、37.5%
B、32.5%
C、28.6%
D、26.1%
4、一个包里有5个黑球,10个红球和17个白球。每次可以从中取两个球出来,放置在外面。那么至少取________次以后,一定出现过取出一对颜色一样的球。( A )
A、16
B、9
C、4
D、1
5、执行以下代码,a的值为(A)
#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;
a的值为
A、16
B、30
C、33
D、39
6、下面关于ID3算法中说法错误的是 ( D )
A、ID3算法要求特征必须离散化
B、信息增益可以用熵,而不是GINI系数来计算
C、选取信息增益最大的特征,作为树的根节点
D、ID3算法是一个二叉树模型
7、每台物理计算机可以虚拟出 20 台虚拟机,假设一台虚拟机发生故障当且仅当它所宿主的物理机发生故障。通过 5 台物理机虚拟出100 台虚拟机,那么关于这 100 台虚拟机的故障的说法正确的是:( C )
A、单台虚拟机的故障率高于单台物理机的故障率
B、这 100 台虚拟机发生故障是彼此独立的
C、这100台虚拟机单位时间内出现故障的个数高于100台物理机单位时间内出现故障的个数
D、无法判断这 100 台虚拟机和 100 台物理机哪个更可靠
E、如果随机选出 5 台虚拟机组成集群, 那么这个集群的可靠性和 5 台物理机的可靠性相同
F、可能有一段时间只有 1 台虚拟机发生故障
8、如果某系统12*5=61成立,则系统采用的是 ( C )进制
A、7
B、8
C、9
D、10
9、20个阿里巴巴B2B技术部的员工被安排为4排,每排5个人,我们任意选其中4人送给他们一人一本《effective c++》,那么我们选出的4人都在不同排的概率为:( C)
A
、
5
4
∗
5
!
∗
15
!
/
20
!
A、5^4*5!*15!/20!
A、54∗5!∗15!/20!
B 、 4 5 ∗ 5 ! ∗ 15 ! / 20 ! B、4^5*5!*15!/20! B、45∗5!∗15!/20!
C 、 5 4 ∗ 4 ! ∗ 16 ! / 20 ! C、5^4*4!*16!/20! C、54∗4!∗16!/20!
D 、 4 5 ∗ 4 ! ∗ 16 ! / 20 ! D、4^5*4!*16!/20! D、45∗4!∗16!/20!
10、在黑盒测试方法中,设计测试用例的主要根据是 ( B )
A、程序内部逻辑
B、程序外部功能
C、程序数据结构
D、程序流程图
11、计算一个任意三角形的面积,S=√(p(p-a)(p-b)(p-c)) , p=(a+b+c)/2,以下等价类测试用例中,不属于无效等价类的是 ( A )
A、a=5,b=3,c=6
B、a=2,b=3,c=5
C、a=7,b=3,c=3
D、a=2,b=6,c=3
12、若用φ(n)表示欧拉函数,请问:φ(56)的欧拉函数之积为 ( A )
A、24
B、10
C、15
D、11
ψ ( x ) = x ∗ ( 1 − 1 P 1 ) ( 1 − 1 P 2 ) ⋅ ⋅ ⋅ ( 1 − 1 P n ) ψ(x)=x*(1-\frac{1}{P_1})(1-\frac{1}{P_2})··· (1-\frac{1}{P_n}) ψ(x)=x∗(1−P11)(1−P21)⋅⋅⋅(1−Pn1)
13、已知
(
a
x
y
3
−
y
2
cos
x
)
d
x
+
(
1
+
b
y
sin
x
+
3
x
2
y
2
)
d
y
\sqrt{({axy^3}-y^2\cos x)dx + (1+by\sin x + 3x^2y^2)dy}
(axy3−y2cosx)dx+(1+bysinx+3x2y2)dy
为某二元函数的全微分,则a和b的值为==( D )==
A、-2,2
B、3,-3
C、-3,3
D、2,-2
14、以下表的设计,最合理的是 ( A )
A、学生{id,name,age} ,学科{id,name} 分数{学生 id,学科 id,分数}
B、学生{id,name,age} ,分数{学生 id, 学科id, 学科 name , 分数}
C、分数{学生id, 学生 name,学生age, 学科id,学科名称, 分数, }
D、学科{id,name},分数{学生id,学生姓名,学生age,学科 id,分数}
15、一个栈的入栈序列为ABCDE,则栈的不可能的输出序列为 ( D )
A、DCBEA
B、ACBED
C、DCEBA
D、DEBCA
16、对于以下代码,正确的是 ( D )
char* p=new char[100];
A、p和new出来的内存都在栈上
B、p和new出来的内存都在堆上
C、p在堆上,new出来的在栈上
D、p在栈上,new出来的在堆上
17、编译程序是一种 (A )
A、翻译程序
B、目标程序
C、汇编程序
D、解释程序
18、已知中国人的血型分布约为A型:30%,B型:20%,O型:40%,AB型:10%,则任选一批中国人作为用户调研对象,希望他们中至少有一个是B型血的可能性不低于90%,那么最少需要选多少人? ( C )
A、7
B、9
C、11
D、13
19、1台机器对200个单词进行排序花了200秒(使用冒泡排序),那么花费800秒,大概可以对多少个单词进行排序 ( A )
A、400
B、500
C、600
D、800
20、现有4个同时到达的作业J1,J2,J3和J4,它们的执行时间分别是1小时,3小时,5小时,7小时,系统按单道方式运行且采用短作业优先算法,则平均周转时间是 ( D ) 小时
A、4
B、5
C、6
D、7.5
执行次序 | 提交时间 | 执行时间 | 开始时间 | 完成时间 | 周转时间 |
---|---|---|---|---|---|
J1 | 0 | 1 | 0 | 1 | 1 |
J2 | 0 | 3 | 1 | 4 | 4 |
J3 | 0 | 5 | 4 | 9 | 9 |
J4 | 0 | 7 | 9 | 16 | 16 |
平均时间为:(1+4+9+16)/4=30/4=7.5
21、卡方分布的方差为2倍的自由度为 ( C )
A、n
B、1
C、2n
D、4n
22、在一次大选中候选人A和B进行竞选。候选人A的抽样支持率为60%,95%的置信区间为(50% - 70%),请问在最终大选中候选人A落选的概率与下列哪个最为接近 ( D )
A、40%
B、60%
C、5%
D、2.5%
23、在给定文件中查找与设定条件相符字符串的命令==( B )==
A、gzip
B、grep
C、ls
D、find
24、字符串
"//^▽^//\n"
的长度是 ( C )
A、6
B、7
C、8
D、9
25、设 q (n,m)是将正整数 n 划分成最大加数不大于 m 的若干不同正整数之和的划分数,则q(n,m)为 (B )
q ( n , m ) = { 1 , ( n = 1 ∣ ∣ m = 1 ) q ( n , n ) , ( n < m ) 1 + q ( n , n − 1 ) , ( n = m ) q ( n , m − 2 ) + q ( n − m , m ) , ( n > m > 1 ) q(n,m)=\begin{cases} 1,\quad(n=1||m=1) \\ q(n,n),\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-2)+q(n-m,m),\quad (n>m>1) \end{cases} q(n,m)=⎩⎪⎪⎪⎨⎪⎪⎪⎧1,(n=1∣∣m=1)q(n,n),(n<m)1+q(n,n−1),(n=m)q(n,m−2)+q(n−m,m),(n>m>1)
q ( n , m ) = { 1 , ( n = 1 ∣ ∣ m = 1 ) q ( n , n ) , ( n < m ) 1 + q ( n , n − 1 ) , ( n = m ) q ( n , m − 1 ) + q ( n − m , m ) , ( n > m > 1 ) q(n,m)=\begin{cases} 1,\quad(n=1||m=1) \\ q(n,n),\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m),\quad (n>m>1) \end{cases} q(n,m)=⎩⎪⎪⎪⎨⎪⎪⎪⎧1,(n=1∣∣m=1)q(n,n),(n<m)1+q(n,n−1),(n=m)q(n,m−1)+q(n−m,m),(n>m>1)
q ( n , m ) = { 1 , ( n = 1 ∣ ∣ m = 1 ) q ( n , n ) , ( n < m ) 1 + q ( n , n − 1 ) , ( n = m ) q ( n , m − 1 ) + q ( n − m , m − 1 ) , ( n > m > 1 ) q(n,m)=\begin{cases} 1,\quad(n=1||m=1) \\ q(n,n),\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m-1),\quad (n>m>1) \end{cases} q(n,m)=⎩⎪⎪⎪⎨⎪⎪⎪⎧1,(n=1∣∣m=1)q(n,n),(n<m)1+q(n,n−1),(n=m)q(n,m−1)+q(n−m,m−1),(n>m>1)
q ( n , m ) = { 0 , ( n > 1 & & m = 1 ) 1 , ( n = 1 ∣ ∣ m = 1 ) q ( n , n ) , ( n < m ) 1 + q ( n , n − 1 ) , ( n = m ) q ( n , m − 1 ) + q ( n − m , m − 1 ) , ( n > m > 1 ) q(n,m)=\begin{cases} 0,\quad (n>1 \&\&\ m =1 ) \\ 1,\quad (n=1||m=1) \\ q(n,n),\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m-1),\quad (n>m>1) \end{cases} q(n,m)=⎩⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎧0,(n>1&& m=1)1,(n=1∣∣m=1)q(n,n),(n<m)1+q(n,n−1),(n=m)q(n,m−1)+q(n−m,m−1),(n>m>1)
26、一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(MLE)和最小均方误差(LMSE)估计出现人头的概率哪个大?( B )
A、MLE = MSE
B、MLE > MSE
C、MLE < MSE
27、下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是==( A )==
A、链表和哈希表
B、数组和链表
C、哈希表和队列
D、堆栈和双向队列
28、以下开源软件中经常被用作消息队列的是哪个 ( A )
A、Kafka
B、MongoDB
C、Hadoop
D、Spark
29、对立的两方争夺一个价值为1的物品,双方可以采取的策略可以分为鸽子策略和鹰策略。如果双方都是鸽子策略,那么双方各有1/2的几率获得该物品;如果双方均为鹰策略,那么双方各有1/2的概率取胜,胜方获得价值为1的物品,付出价值为1的代价,负方付出价值为1的代价;如果一方为鸽子策略,一方为鹰策略,那么鹰策略获得价值为1的物品。在争夺的结果出来之前,没人知道对方是鸽子策略还是鹰策略。当选择鸽子策略的人的比例是某一个值时,选择鸽子策略和选择鹰策略的预期收益是相同的。那么该值是 ( C )
A、0.2
B、0.4
C、0.5
D、0.7
E、0.8
30、N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下:
D1: John read Moby Dick
D2: Mary read a different book,
D3: She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是 ( B )
A、1
B、0.06
C、0.09
D、0.0008
31、现在有一个tcp服务端监听了80端口,问最多同时能建立多少连接 ( D )
A、1023
B、65534
C、64511
D、非常多基本和内存大小相关
32、基于统计的分词方法为 ( D )
A、正向最大匹配法
B、逆向最大匹配法
C、最少切分
D、条件随机场
33、通过算法生成的随机数是“伪随机”的,也就是说,在设定好第一个数之后,后面的数字的序列是确定的,并且经过一个非常大的循环会回到第一个数的状态,然后周而复始。显然,摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布,那么能否将它转换成(0,1)区间上的均匀分布__( A )
A、忽略测量和计算误差,可以转换为(0,1)区间上的均匀分布
B、无法转换为(0,1)区间上的均匀分布
C、信息不足,无法判断
D、借助伪随机数生成算法可以转换为(0,1)区间上的均匀分布
E、仅仅靠伪随机数生成算法,就可以生成(0,1)区间上的均匀分布
F、以上说法都不对
34、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测 ( D )
A、AR模型
B、MA模型
C、ARMA模型
D、GARCH模型
35、这是第25道选择题,也是最后一道选择题。请估算一下,包括本题在内,这25道选择题题干及选项总共大约有多少个字符?( C )
A、500
B、1000
C、2000
D、4000
36、一个合法的表达式由()包围,()可以嵌套和连接,如(())()也是合法 表达式;现在有 6 对(),它们可以组成的合法表达式的个数为____ ( D )
A、15
B、30
C、64
D、132
E、256
F、360
37、某公司有这么一个规定:只要有一个员工过生日,当天所有员工全部放假一天。但在其余时候,所有员工都没有假期,必须正常上班。假设一年有365天,每个员工的生日都概率均等地分布在这365天里。那么,这个公司需要雇用多少员工,才能让公司一年内所有员工的总工作时间期望值最大?( D )
A、1
B、122
C、183
D、365
二、多选
1、某电商推出一款新的产品,希望这个产品能大卖,让你给这个主题取个名字,如果你是数据分析师,以下哪些指标可以用来判断。( A B C)
A、成交总量: 代表产品销售的收入
B、独立用户数: 代表购买产品的用户,说明产品的覆盖面
C、评价数(好评数): 反馈用户对产品口碑
D、购买时间:代表产品的销售与时间的相关性
2、关于相关系数,下列描述中正确的有:(A C E )
A、相关系数为0.8时,说明两个变量之间呈正相关关系
B、相关系数等于1相较于相关系数等于-1,前者的相关性更强
C、相关性等于1相较于相关系数等于0,前者的相关性更强
D、Pearson相关系数衡量了两个定序变量之间的相关程度
E、Spearman相关系数可以衡量两个定序变量之间的相关程度
F、相关系数为0.2相较于-0.8,前者的相关性更强
3、下列有关k-mean算法说法正确的是 ( AD )
A、不能自动识别类的个数,随机挑选初始点为中心点计算
B、数据数量不多时,输入的数据的顺序不同会导致结果不同
C、不能自动识别类的个数,不是随机挑选初始点为中心点计算
D、初始聚类中心的选择对聚类结果的影响很大
4、下列哪些方法可以用来对高维数据进行降维: (A B C D E F )
A、LASSO
B、主成分分析法
C、聚类分析
D、小波分析法
E、线性判别法
F、拉普拉斯特征映射
5、excel工作簿a中有两列id、age,工作簿b中有一列id。需要找到工作薄b中id对应的age,可用的函数包括
( AB)
A、index+match
B、vlookup
C、hlookup
D、find
E、if
F、like
6、某服务请求经负载均衡设备分配到集群A、B、C、D进行处理响应的概率分别是10%、20%、30%和40%。已知测试集群所得的稳定性指标分别是90%、95%、99%和99.9%。现在该服务器请求处理失败,且已排除稳定性以外的问题,那么最有可能在处理该服务请求的集群是________( A B )
A、A
B、B
C、C
D、D
7、关于线性回归的描述,以下正确的有: ( B C E )
A、基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B、基本假设包括随机干扰项是均值为0的同方差正态分布
C、在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D、在违背基本假设时,模型不再可以估计
E、可以用DW检验残差是否存在序列相关性
F、多重共线性会使得参数估计值方差减小
8、现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij,比例为
Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的? ( B C F )
A、∑(N/K-Cij) (N/K-Cij) 越小越纯
B、-∑Cij * LOG(Rij) 越小越纯
C、∑(1-Rij * Rij) 越小越纯
D、∑(1-Rij) * (1-Rij) 越小越纯
E、∑(1-Rij)2 越小越纯
F、-∑Rij * LOG(Rij) 越小越纯