当前位置：首页 > 资讯 > 技术支持 > 常见问题

数据挖掘面试问题和工作技能要求 [php源码]

时间：2022-10-25 01:48 编辑：来源：阅读：317
扫一扫，手机访问

摘要：数据挖掘面试问题和工作技能要求 [php源码]

一、面试基本问题1、为什么要集中PCA因为要计算协方差纯线性变换只产生多次缩放，不能消除维数对协方差的影响，协方差是投影后方差最大化。 2.PCA的主要成分是什么？在统计学中，主成分分析(PCA)是一种简化数据集的技术。这是一个线性变换。这种转换将数据转换到一个新的坐标系中，因此任何数据投影的第一方差都在第一个坐标上(称为第一主分量)，第二方差在第二个坐标上(第二主分量)，以此类推。主成分分析(PCA)通常用于降低数据集的维度，同时保持对方差贡献最大的数据集的特征。这是通过保留低阶主分量并忽略高阶主分量来实现的。这种低阶分量通常可以保留数据的最重要的方面。但是，这是不确定的，取决于具体的应用。主成分分析的原理是试图将原始变量重新组合成一组新的不相关的综合变量，同时根据实际需要，将一种尽可能反映原始变量信息的统计方法称为主成分分析或主成分分析，这也是一种数学上解决降维的方法。主成分分析(PCA)就是试图将许多原具有正相关性的指标(如P指标)重新组合成一组新的不相关的综合指标来代替原指标。通常的数学解法是将原来的P个指标线性组合成一个新的综合指标。经典的做法是用F1的方差(选取的第一个线性组合，即第一个综合指数)来表示，即Va(rF1)越大，F1包含的信息越多。所以在所有的线性组合中，F1应该是方差最大的，所以叫第一主成分。如果第一个主成分不足以代表原P个指标的信息，那么可以考虑选择F2，即第二个线性组合。为了有效地反映原始信息，F1的已有信息不需要再次出现在F2中。如果用数学语言表示，要求Cov(F1，F2)=0，则F2称为第二主成分，以此类推，第三，第四，...，并且可以构造p主分量。 3.为什么KNN可以避免样本不平衡？KNN只对最近的样本点进行平均。离预测数据较远的训练数据不会影响预测结果，但是svm、Bayes、NN的每一个训练样本都会影响预测结果。因此，如果样本不平衡，KNN的效果最好。举个极端的例子，答案只有A和B，但是训练样本中A的数量是99%，而B的数量只有1%。svm、Bayes和NN的效果最好。 4.kmeans初始点的选择。选择批次距离最远的K个点。首先随机选取一个点作为第一个初始聚类的中心点，然后选取最远的点作为第二个初始聚类的中心点，再选取与前两个点距离最大的点作为第三个初始聚类的中心点，以此类推，直到选取K个初始聚类中心。选择层次聚类或Canopy算法进行初始聚类，然后将这些聚类的中心点作为KMeans算法初始聚类的中心点。 kmeans++k-means++算法选择初始种子的基本思想是初始聚类中心之间的距离要尽可能远。 1.从输入数据点集中随机选择一个点作为第一个聚类中心。2.对于数据集中的每个点X，计算其到最近的聚类中心(指所选的聚类中心)的距离D(x)。3.选择一个新的数据点作为新的聚类中心。选择标准是:d (x)较大的点，被选为聚类中心的概率高。4.重复2和3，直到选择K个聚类中心。5.使用这K个初始聚类中心来运行标准的k-means算法。5.xgboost如何求解缺失值？xgboost解决缺失值的方法与其他树模型不同。xgboost将缺失值视为稀疏矩阵，节点拆分时不考虑缺失值本身的值。缺失的数据会被分成左子树和右子树分别计算损失，选择较好的一个。如果训练中没有数据缺失，预测中有数据缺失，则默认分类到右边的子树中。 6.rf和gbdt的区别1)相似之处:都是由多棵树组成，最后的结果是由多棵树共同决定的。 2)区别:A的随机森林树可以是分类树，也可以是回归树，而GBDT的随机森林树只能由回归树并行生成，而GBDT串行生成C的随机森林的结果是多数票，而GBDT是多棵树之和。d的随机森林对异常值不敏感，而GBDT对异常值敏感。e的随机森林减少了模型的方差，而GBDT减少了模型的偏差。f的随机森林不需要归一化。 Gbdt需要特征规范化。7.lr和svm的区别在于，svm只是通过支持向量来划分平面。lr是所有样本参与决策面的升级。svm对异常值不敏感，鲁棒性更强。8.为什么GBDT需要将自己标准化为一个梯度过程？加速归一化的收敛，以避免在对样本进行加权时过度偏置具有大范围特征的少量样本。9.gbdt和xgb的区别。1.损失函数由泰勒展开二项式逼近，而不是gbdt中的一阶导数。2.调整树的结构，以防止模型过于复杂，并减少过度拟合的可能性。3.节点拆分方式不同，gbdt用的是基尼系数，Xgboost是优化推导出来的增益引自:@Xijun LI10。正负样本不平衡的上下采样法会影响样本的分布。 SMOTE可用于上采样。阳性样本很少，可以把阴性样本分成多个，每个样本用阳性样本训练一个模型，然后在多个模型的ensemble公交卡上发现小偷的案子(https://blog.csdn.net/u013382288/article/details/79301372)。如果正负样本严重不平衡，先聚类，去掉正常类。用可能异常的剩余样本训练模型。11.优化kmeans的计算速度。使用kd树或球树将所有观察示例构建成一棵kd树。之前，每个聚类中心需要依次计算到每个观测点的距离。现在这些聚类中心只需要根据kd树计算出周围的一个局部区域。12.为什么ReLu比tanh和sigmoid函数好？第一，使用sigmoid等函数计算激活函数(指数运算)时，计算量大。用反向传播计算误差梯度时，求导涉及除法，计算量比较大。而使用Relu激活函数，在整个过程中节省了大量的计算量。其次，对于深度网络，当sigmoid函数反向传播时，很容易出现梯度消失(当sigmoid接近饱和区时，变换太慢，导数趋于零，会造成信息丢失，见@Haofeng Li回答的第三点)，从而无法完成深度网络的训练。再次，Relu会使部分神经元的输出为零，造成网络的稀疏性，降低参数的相互依赖性，缓解过拟合的发生。13.梯度提升法梯度提升梯度提升算法乍一看不是很好理解，但是很容易和线性回归比较。回想一下，线性回归就是寻找一组参数，使残差最小。如果只用二次项来解释二次曲线，会留下很多残差。这个时候可以用二次项继续解释残差，所以可以把这个二次项加入到模型中。同样，梯度提升是根据初始模型计算伪残差，然后建立一个基学习器来解释伪残差，使得残差在梯度方向减少。然后用权系数(学习率)乘以基学习器，线性组合原模型，形成新模型。这样，通过反复迭代可以找到使损失函数的期望值最小的模型。在训练基础学习器时可以使用重采样的方法，称为随机梯度提升算法。 14.随机梯度下降目标函数一般使用预测模型计算所有训练数据的预测标签和真实标签之差的和。随机梯度是随机抽取少量训练数据来代替整个训练集，并在其上进行目标函数的梯度下降。因为只用了很少的样本，每次处理鞍点问题都比梯度下降快。15.随机森林如何评价特征的重要性？衡量变量重要性的方法有两种，即下降基尼和下降精度:1)下降基尼:对于回归问题，直接用argmax(VarVarLeftVarRight)作为评价标准，即当前节点训练集的方差var减去左节点的方差VarLeft和右节点的方差VarRight。 2)降低精度:对于一棵树Tb(x)，我们可以用OOB样本得到检验误差1；然后随机改变OOB样本的J列:其余列不变，随机替换J列得到误差为2。到目前为止，我们可以用误差1-误差2来描述变量j的重要性。基本思想是，如果一个变量J足够重要，改变它会大大增加测试误差；相反，如果改变后测试误差没有增加，说明这个变量没有那么重要。2.面试的基本要求。1.可以使用一个或多个ETL工具，如SSIS、KETTLE、Informatica和Tableau。2.在文本挖掘、爬虫等方面经验丰富。，精通python/PHP等语言，有linux centos环境开发经验:3。熟悉常见的机器学习，自然语言解决方案相关知识:包括句法/语法分析、关键词提取、情感分析、文本分类与聚类、检索、相似度算法等。4.熟悉Hadoop，Spark，Tensorflow等。，能够从业务场景中准确识别问题模式并应用相应的模型和算法处理问题，能够建立恰当的评价指标；5.对常用数据库Mysq1OracleSQLServer0racle有深入了解，并能熟练操作:6。热爱技术，喜欢学习，善于沟通，有团队精神。常见问题链接https://cloud.tencent.com/developer/article/1059241

全部评论(0)

上一篇：安装Robo3T和NaviCat
下一篇：安装Robo3T和NaviCat

最新发布的资讯信息
【技术支持|常见问题】1556原创ng8文章搜索页面不齐(2024-05-01 14:43)
【技术支持|常见问题】1502企业站群-多域名跳转-多模板切换(2024-04-09 12:19)
【技术支持|常见问题】1126完美滑屏版视频只能显示10个(2024-03-29 13:37)
【技术支持|常见问题】响应式自适应代码(2024-03-24 14:23)
【技术支持|常见问题】1126完美滑屏版百度未授权使用地图api怎么办(2024-03-15 07:21)
【技术支持|常见问题】如何集成阿里通信短信接口(2024-02-19 21:48)
【技术支持|常见问题】算命网微信支付宝产品名称年份在哪修改？风水姻缘合婚配对_公司起名占卜八字算命算财运查吉凶源码(2024-01-07 12:27)
【域名/主机/服务器|】帝国CMS安装(2023-08-20 11:31)
【技术支持|常见问题】通过HTTPs测试Mozilla DNS {免费源码}(2022-11-04 10:37)
【技术支持|常见问题】别告诉我你没看过邰方这两则有思想的创意广告！ (2022-11-04 10:37)

商品推荐
爱源码✌【独家新增最新流行游戏】新版865多款微信公众号朋友圈小游...
￥29.00
完美滑屏版【【原创】】影视盲盒】原创短视频源码抖音快手 H5...
￥230.00
完整无错游戏交易网站源码游戏网站源码手游交易平台 5173游...
￥88.00
【2022-5月原创商业运营版】站长虚拟资源交易源码,仿码农网仿友...
￥100.00
【原创2022-8滑图】完整无错商用-仿抖音模式套图SEO源码-免...
￥90.00

资讯排行榜
更多>>