北理工在大数据最优抽样取得研究成果


lv棋牌官方网址  日前,北京理工大学数学与统计学院虞俊助理教授及其合作者在统计学四大国际顶级期刊《Journal of the American Statistical Association》上发表了题为“Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data”的研究论文。该论文针对如何从分布式存储海量数据中提取有用的信息这一问题,从基于最优试验设计理论的抽样角度提出了一个快速lv棋牌官方网址。

  随着大数据时代的到来,人们所能获取的数据源源不断地以指数级的速度增加。分析这些作为信息载体的数据,从中提取有用的信息,一直是统计学和数据科学的核心研究课题之一。对海量数据进行统计分析时,通常面对两个特别具有挑战的问题,其一是数据量过大,无法将整个数据集存入一个计算机中,从而导致传统统计分析算法无法直接应用到对应数据集;其二是尽管数据量适中,然而由于现有计算机的计算速度和计算能力的限制,进行统计分析往往耗时很长,无法在有限的时间内得到研究者想要的统计分析结果。

  为了克服这两个挑战性问题,针对大数据集的统计分析方法大致可以分为如下两类:第一类是并行计算方法,首先将整个大数据集分成若干个子数据集,对每个子数据集单独计算,最后把这些子数据集的计算结果有机地结合在一起,得到整个数据集的推断结果。第二类分析方法是子抽样方法,从整个数据集中巧妙地抽取一组有效的子样本,仅对子样本进行统计推断,利用样本代替整体的思想,通过子样本的推断来推断全样本的估计结果,从而节省计算时间。虽然大量的研究结果表明子抽样方法能够有效解决大数据的统计推断问题,然而如何高效地选择携带信息量大、能够提高统计推断准确度的数据作为进行统计推断的子样仍然是大数据分析中亟待解决的问题之一。

  虞俊助理教授与合作者的上述论文,基于最优设计的思想,对如何高效地选择富含统计模型信息的数据这一问题给出了一个科学的方法。利用分布计算的优势,首先对存储在不同计算机上的数据集分别抽取子样,之后将每个子样本得到的估计巧妙地融合在一起,从而形成全数据集的最优近似估计。文章从理论和模拟两方面证明了这一方法的科学性和可行性。

lv棋牌官方网址  该项研究工作是虞俊助理教授与北京大学艾明要教授,康涅狄格大学统计系王海鹰助理教授等合作完成,虞俊助理教授为第一作者,本项工作得到北京理工大学青年教师学术启动计划的资助。

  论文链接地址:

  https://www.tandfonline.com/doi/abs/10.1080/01621459.2020.1773832?journalCode=uasa20

 

附研究团队及个人简介:

  北京理工大学数学与统计学院试验设计团队积极开展国内外合作研究和学术交流,团队负责人田玉斌教授以及团队成员孔祥顺博士,王典朋博士,虞俊博士等分别与国内外知名试验设计学者,如C.F.Jeff Wu院士、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了长期的合作关系。团队成员分别开展着试验设计理论与应用的研究,表现出强劲的发展势头。

  虞俊,助理教授,北理工数学与统计学院试验设计团队主要成员。本科毕业于南开大学、博士毕业于北京大学,曾在美国佐治亚州立大学作访问学者。主要从事试验设计,抽样理论以及相关的统计应用研究工作。在《Journal of the American Statistical Association》《Computational Statistics & Data Analysis》《Statistica Sinica》《Journal of Statistical Planning and Inference》等统计学权威期刊发表了多篇高水平学术论文。

 

分享到:

香港赛马会搏彩网-上海快三开奖结果-老k捕鱼达人_亚洲最大的平台 易发棋牌正宗官方下载-捕鱼游戏通用秒杀器-澳门滚球网娱乐网址_亚洲最大的平台 澳门压大小网址下载-新濠电子游戏网址平台-贵宾厅网上注册_亚洲最大的平台 最受欢迎的游戏排行榜-捕鱼棋牌游戏下载-网络现金棋牌贴吧_亚洲最大的平台 一起发搏彩论坛-百钞金砖-677棋牌官方网站_亚洲最大的平台 上海快三开奖最新走-玩三公的技巧视频-915棋牌游戏官方网_亚洲最大的平台 cc电玩怎么玩不了了-捕鱼赢钱的棋牌游戏-玩天天乐棋牌靠谱吗_亚洲最大的平台 沙龙平台玩法-九游棋牌捕鱼游戏-真人棋牌游戏能提现_亚洲最大的平台 捕鱼赢手机版下载-555电玩首页-鱼丸游戏百人牛牛_亚洲最大的平台 买广东快乐十分技巧-有没有赢钱的现金麻将-24小时在线捕鱼_亚洲最大的平台