Q1:坛友airways1:
王教授您好,能不能解释一下到底什么是dimension curse?对于线性回归来说,要注意这个问题吗?
A1:
您好。Curse of Dimensionality指的是数据的维度太高了。传统意义上,如果我们做一个回归模型,样本量可能有200个,解释性变量有10个,那么很好计算。但是,现在的情形是,样本量还是200个,解释性变量可以有10万个,那么OLS就不再存在了。在这种情况下,如何做最小二乘估计,或者泛泛地,如何做回归模型,都是非常有挑战性的问题。似乎是一个诅咒(Curse), 紧紧地限制了传统的统计方法的应用范畴。这就是Curse of Dimensionality
Q2:坛友大师坑:
王老师,您好,读过您写的论文《超级市场零售商品的购物篮分析》,您用高维0-1变量聚类方法对超市的购物篮进行了分析,那这种方法能对CSA(社区支持农业)所销售的农品做聚类分析么?具体要考虑哪些因素啊?
A2:
您好,谢谢您对该文章的兴趣。该方法在模型层面需要的输入是一个高维度的0-1变量。其中每一个变量标识某客户是否购买了该产品。那么,任何应用场景,如果可以被规范成为这样的数据结构,那就可以应用该文中的方法。对您所说的农产品问题,我不是很熟悉。如果您的业务可以被规范成:某某某购买了什么产品,那么就可以应用。
Q3:坛友wanggc023:
王老师,您好!
现在big data 在社会上引起了广泛的关注,包括统计学和机器学习,计算机等领域的很多专家。但是总体感觉是,现在统计研究者对这个问题好像还不是很有兴趣,请问您是怎么看待这个问题的,以及统计学未来在big data 时代所起的作用会是什么,以及统计工作者应该具备什么样的素质才能很好的适应big data 对统计工作者的要求?
A3:
这是一个很好的问题。
(1)首先,我认为“Big Data”是一个被过度爆炒的商业概念,就像是房地产泡沫。所有的企业、科研单位,都在从对自己有利的角度解读什么是Big Data。我认为数据分析,就是数据分析,有不同的情景,不同的问题。That's it。跟数据是否Big or Small,没多大关系。
(2)但是,现在的数据确实和几十年前的不一样的,对传统的统计方法有挑战。主要表现在:维度高了,结构复杂了(网络数据),非结构化了(文本,图形,声音),等等。这些对传统的统计分析是有挑战的。
(3)我认为,现在社会需要的数据分析者需要具备三种能力:第一、大规模数据采集整理的能力(爬虫、SQL,API),第二、数据分析能力(数学、统计),第三、商业理解的能力(营销、管理、经济学)。这三个能力被普通大学割裂在三个不同的学院中,无法发挥集体优势。而统计学专业对这方面的研究是落后的,原因是:我们不具备大规模数据采集和整理的能力。我们输在起跑线上。因此,跨学科的合作,非常必要。我本人的研究团队中,就一定要有计算机专家。
Q4:坛友zhaoyongmin_nju:
王老师:
您好,大数据时代,数据建模和处理的重要性是不言而喻的,想向您请教一下,未来数据智能的发展方向是什么?定性分析和定量分析孰为重要?未来是否有可能只要把不经预处理的数据放进程序了就能自动跑出结果?
谢谢
A4:
这也是一个非常好的问题。我自己学数理统计出身,我曾经天真的认为:一切数据分析都可以全自动,全部由数据驱动,可以把定性知识抛在一边。但是,现在看来这是多么可笑。好的分析一定是定量+定性结合的。举一个例子,我们能否通过对海量网站的文本分析,把他们的行业特征找出来?如果完全靠机器学习,这里涉及到大量的分词,而且分词中,如何通过数据识别:玫瑰 和 百合 都是鲜花就是一个超级难的事情。但是,我们有定性的先验的关键词库啊,为什么不用呢?有了这样的定性知识指导,剩下的机器学习变得更加有效,更加准确。因此,定性分析对定量分析很重要!
Q5:坛友3862161 :
王老师:
您好!我拜读了您的一些文章,您处理的更多的是线性回归中变量选择的问题,请问关于非线性回归中变量选择的问题,有哪些比较可行的方法?另外对于模型的选择是线性模型还是非线性模型这个有没有什么标准? 谢谢,王老师!
A5:
呵呵,这方面的文章很多。有兴趣可以参考一下Jianqing Fan 还有 Runze Li的主页。他们有很多相关文章。
Q6:坛友wanggc023:
王老师,您好!
我再问一个具体的问题,我知道您写过很多好的降维方法的文章,我也拜读过。过去20年,多元数据dimension reduction 是很火的方向,但是总的来说 数据维数都不是很高包括模拟和实际数据分析,然而最近降维的文章好像不是很多了,其实我感觉降维还是有问题做的,第一,高维(超高维)数据的降维方法至今好像还没有,除了协方差的逆带来的问题外,制约高维数据降维的主要问题是什么? 第二,很多降维方法都关心的是 SDR 空间的估计问题,但是在统计中,有时候预测可能显的更重要。但是如果你把SDR 空间估计出来后,再用非参数的方法来估计,其实预测的精度不一定就会比直接的用非参数半参数方法的要好,请问您是否考虑过以预测为目的的降维?其中关键问题又是什么?
A6:
您说的问题都很到点上。
(1)国内外对超高维的数据降维一直都有人关注的。这方面Dennis Cook, Lexin Li还有国内的朱利平老师都有非常好的工作。主要的挑战就是矩阵的逆。
(2)我自己不再做SDR了,原始就是你的第二。我估计出 一个SDR空间,然后呢?请问然后该怎么办?我能interpret吗?不能。我能预测吗?我看也不好说。如果我的目标是预测,我为什么不直接瞄准我的预测目的去,而绕着一个大弯。
所以,我对SDR的整个方向是怀疑的,不确信的。这也解释:为什么理论工作那么多,那么优美,真实世界有多少人用了?
Q7:坛友lssmy:
王老师:
您好,数据的分析最后的目的都是为了预测,以便实现更好的决策,最近美国研究人员,利用对google数据的分析,去进行证券投资,收益率颇高,您能说一下对此的相关看法吗???还有就是如何操作的额问题,谢谢。
A7:
前几天,我在微博上转过一个类似的报道。很多朋友给了有趣的反馈。其中一种意见很重要,那就是:怀疑!有人直接指出,某Twitter分析为基础的基金已经关门了!@#¥!#@
我对这件事情的基本态度是:(1)我不相信任何统计分析可以持续地预测市场走势,这和市场有效性的假说矛盾;(2)但是,我相信社交媒体的分析,也许可以预测volatility,这也许才是努力的方向。
Q8:坛友replysoon:
王老师,您好!
请你谈谈如何才能成为一个出色的数据科学家?需要哪些素质和学习哪些知识?谢谢
A8:
(1)大规模的数据采集整理能力(爬虫+SQL+API)
(2)统计模型能力(统计、数学、优化)
(3)商务理解能力(营销)
Q9:坛友09mjzhang:
王老师:
您好!地震给人们近乎毁灭性的的破坏,数据分析可否在其中扮演重要的作用?数据分析如能提前预报一场大地震,比预测经济收益来得更有意义~~据报道,林龙,一位18岁的在校学生,曾在4月16日发布微博,称“预计未来10天之内中国西北部地区将发生一次5M至6M的地动”。而他们预测地震主要是通过数据分析,尤其是地震前当地电离层的变化情况。林龙自称自己团队预报的准确率约50%。有多少经济学上的数据分析可以运用在地震预测上呢?谢谢!
A9:
(1)我不相信任何人可以预测地震。如果可以做到50%的准确性,那可了不得。全世界都会感激他。
(2)我认为,我们应该预测的是:如果地震来了,会产生什么样的灾难?这可以指导我们:如何设计建筑物的抗震级别,如何设定地震的应急机制等
Q10:坛友quantstat:
王老师,
您好!了解到您对高维数据很有研究。我们知道,统计在金融中有很广泛的应用,比如说高频交易,数量交易等等。其涉及到的数据往往是高维的,所以想借这样的机会向您问一下,目前学术界对这方面的研究是一个什么样的状况。
谢谢
A10:
首先,我对这方面的了解是非常有限的,这不是我的主要研究方向。但是,我的有限了解是:理论研究和时间差距很大很大。做理论研究的人,我相信,绝大多数都没有和业界合作的任何经验。
Q11:坛友hgswz:
定性分析和定量分析,分别采用什么工具平台好,谢谢
A11:
呵呵,可能没有最好的。只有常用的:
定性分析,我觉得只能是你,依赖你的知识。
定量:SAS,SPSS, R等
Q12:坛友zhouguobin:
王老师,您好,我是从事电子商务数据分析的,也一直利用好人大经济论坛这个平台,想问下,搜索引擎方面是怎么分析方法的,怎么去衡量搜索引擎的效果,就是转化率吗,有没有一些好的方法和思路
A12:
(1)首先明确你的目标。如果你是在线销售,当然应该是转化,或者销售额,或者利润。如果你关注的是品牌,也许是点击,展现?有时候,也可能是电话量。
(2)在确定KPI的前提下,沿着消费者搜索的路径,逐一分析。例如:某关键词,搜索量多少?点击量多少?为什么点击率高?为什么第?这和该词是通用词、竞品词、还是品牌词,是否有关系?点击后,去了那个页面?跳出率如何?页面匹配如何?还有创意、描述等。这其中,需要有很好的文本分析的能力。
Q13:坛友450847594:
王老师,
您好,
1)您能否分别谈一下统计学习与计量学习不同阶段的学习方法和注意事项,或者是什么标志性的东西可以让我们明白自己的水平处于什么阶段。
2)机器学习的出现是否意味着未来会更倾向于数据导向的应用而非模型导向的应用。
谢谢老师!
A13:
1)我认为,不管处在那个阶段,搞明白自己分析的意义都很重要。要有一个超出统计计量的视野,看看业界在干什么?看看相关计算机、营销在干什么?然后才知道自己处的定位。
2)我相信数据挖据和基于理论推导的模型都会重要。前者更强于预测,但是后者能够帮助我们理解经济理论,解读背后的故事。
Q14:坛友太平洋中的树:
现在的经济金融领域越来越重视数学模型的应用,那么请问:经济学作为一门社会科学,到底是应当注重她的人文性还是应当看重计量模型的应用?
A14:
注重人文性,但是让统计分析扶上马,送一程。
Q15:坛友jimfang9:
王老师,我想问下主成分回归分析中的变量选择问题,选择多少个合适,是不是把能放进去的变量都放进去?
A15:
这是一个学界也没有完全高明的问题。肯定不能全放,全放就是去主成分回归的意义了。
但是,放几个呢?有人说:方方差大的几个,有人说放相关性高的几个。哪种方法
更好呢?鬼才知道。没准您能给出一个答案?
Q16:坛友megan78:
王教授您好,现在做横向课题时经常会发生数据处理结果与预期大相径庭,我个人觉得数据收集的质量特别重要,而后期的处理现在越来越复杂反而会影响数据对事件的支撑作用,请问您的看法
A16:
您说的太对了,garbage in garbage out,数据质量太差,神仙也救不了。
如果数据质量好,恨不得算个均值就解决了很多问题。
Q17:坛友楚韵荆风:
强烈的支持这种活动。我也想请教一下王教授:
曾经有幸听过您在我们学校做的报告。
最近拜读了您写的几篇超高维的文章,收获很大,尤其是方法的思想上,受益匪浅。
(1)据我个人有限的知识,大多数文章认为超高维指的是变量个数呈指数阶增长,而非多项式阶,即p=O(exp(n^c)),这里c>0,也就是通常的NP问题,而在理论的证明中却限制c满足:0<c<1, 然而,有文献称log(p)/n 趋于0(即0<c<1的情形)只属于高维情形,而非超高维,在理论上如何真正做到c>1或者c>>1的情形?
(2)对于p>>n,通常是对变量先进行筛选(screening) 然后在进行估计,现在是否能够办到对于超高维数据同时进行筛选和估计?
(3) 就目前您所了解的研究现状而言,您能否介绍一下处理超高维数据已经出现了哪些方法(除了SIS, Forward regression)
(4) 有文章提到,通常在模拟中表现得非常好的方法却在预测上并没有表现出优势,请问这主要是哪些原因造成的?这是否可以说明模型的sparsity assumption在实际数据中并不能很好的被满足。
谢谢!
A17:
(1)据我个人有限的知识,大多数文章认为超高维指的是变量个数呈指数阶增长,而非多项式阶,即p=O(exp(n^c)),这里c>0,也就是通常的NP问题,而在理论的证明中却限制c满足:0<c<1, 然而,有文献称log(p)/n 趋于0(即0<c<1的情形)只属于高维情形,而非超高维,在理论上如何真正做到c>1或者c>>1的情形?
c是否大于1,根本不重要。这也就是一个理论上的说法,说:您看啊,我可以让变量个数很高很高哦。在真实的数据中,鬼才知道c=??. 所以,千万别钻牛角尖,dont' take it too serious.
(2)对于p>>n,通常是对变量先进行筛选(screening) 然后在进行估计,现在是否能够办到对于超高维数据同时进行筛选和估计?
理论上总是可以的,值得去努力一把。但是,和先Screening再Selection相比,改进的意义多大?
(3) 就目前您所了解的研究现状而言,您能否介绍一下处理超高维数据已经出现了哪些方法(除了SIS, Forward regression)
这方面除了很多新的工作。可以看看:jianqing fan and runze li 的主页,很多工作。
(4) 有文章提到,通常在模拟中表现得非常好的方法却在预测上并没有表现出优势,请问这主要是哪些原因造成的?这是否可以说明模型的sparsity assumption在实际数据中并不能很好的被满足。
because: every model is wrong:-)
Q18:坛友danjourney:
王教授,你好!我想问问就是如何处理变量比样本多的时候的数据情况,比方说经济社会方面的评价分析一般都会涉及到很多评价指标即变量,但是可用的样本数据又相对比较少,这种情况下怎么对数据进行降维和评价分析处理,谢谢王教授的指点!
A18:
这可能得结合具体情形。我的建议:根据定性分析,把指标分类。在对每一类指标汇总或者降维,然后做分析。
Q19:坛友linzhongta:
老师 您好 ! 现在都在 讲大数据时代,作为一个 学习经济学的学生, 您觉得未来的用什么软件 是未来 在大数据时代 较为 适合的分析工具? 是R语言吗? 请您推荐 学习方法?应对大数据时代
A19:
我认为:大数据分析是专业大数据科学家干的事情,任何单一软件都不擅长。但是,经济学背景的同学,可以从更加宏观的角度思考:大数据对经济带来的冲击?对产业的影响?对人们生活的改变?如果一定要建议一个软件,我会认为:SAS+R
Q20:坛友-7up℃.:
王老师,您好!现在火热的大数据浪潮一波接着一波,同时也对统计工作提出了更高的要求。一方面我们利用计算机、网络实现统计,另一方面,人还是要扮演重要角色。您觉得“大数据”如何收集与利用,才能真正的发挥效用?传统的统计学方法,又该如何应对高数据量的统计要求?谢谢!
A20:
(1)大数据的收集依赖于企业,我等似乎无能为力;我们能做的只能是:给定这些大数据的前提下,如何发现最大价值的信息。
(2)传统的统计方法会受到挑战:第一、如何采样?第二、如何计算(计算复杂度很好);第三、还需要p-value吗?样本量那么大,估计不需要inference了,也许:-)
(这是王汉生教授在人大经济论坛与坛友交流的记录)
没有评论:
发表评论