Project1

标题: 工作中遇到一个数学问题求助 [打印本页]

作者: 怪蜀黍    时间: 2018-11-9 18:01
标题: 工作中遇到一个数学问题求助
本帖最后由 怪蜀黍 于 2018-11-9 18:10 编辑

从总题库用放回抽样抽取了m题,得到不重复的n题,重复了(m-n)题,试估算题库总量。
其中m = 7500,n = 2256, m - n = 5244
每抽取一题需要花人民币1分钱,至少需要花多少钱才能得到题库95%的题量?

哪位魔法师来帮助蜀黍算一下喵?

作者: 陆言儿    时间: 2018-11-10 01:34
概率学啥的早就忘了,估计不一定对
先估算题库总量X:
每抽一次,一道题抽不到的概率就是(X-1)/X,重复7500次后有X-2256道题没有抽到,通过概率转换有期望方程:
{(X-1)/X}^7500=(X-2256)/X
解X即可
之后就是让抽不到的题目小于5%
即((X-1)/X)^Y<5%
解Y即可

还有一种计算比较简单的方法,可是想不起来了
作者: SixRC    时间: 2018-11-10 11:16
本帖最后由 SixRC 于 2018-11-10 11:20 编辑

假设题库里一共有 n 个问题,那么抽出第 i 个不重复的问题平均需要 n/(n-i+1) 次
解释是 假设需要 x 次
那么 x = (i-1)/n*(1+x) + (n-i+1)*1  前者是抽到重复的 要 1+x 次 后者一次
x = n/(n-i+1)
所以从n个问题中抽取m个不重复的题目平均需要 n(1/n + 1/(n-1) + ... 1/(n-i+1)) 次
然后 抽了 7500 次 取到 2256 个不重复的题目
我没真学过概率学 大概觉得产生这个数据可能性最高的题库总量就是最可能的
然后就画了个图


横轴是题库总量 纵轴是抽的期望次数 两条线分别是抽 2256 和 2257 个问题
7500 落在题库总量是 2353 的区域内
题库总量应该落在附近的区间 具体概率不会算
我们就取 2353 吧
抽 95 % 就是 2235 期望抽取次数是 7032.51 ≈ 7033
花个70块钱吧

话说 正规算起来应该算置信区间什么的 啊 不会 真不会




欢迎光临 Project1 (https://rpg.blue/) Powered by Discuz! X3.1