您现在的位置:首页 >> 选购知识

管理好数据科学新项目的四个步骤

发布时间:2025/09/01 12:17    来源:邗江家居装修网

译者 | 布加迪

1. 原先为

在相结合任何资料挖掘假设之前,有必要先为一旁来,原先为一下您希望假设完成的特殊任务。在实际卷首代码之前,不可或缺的是了解到要解决的回答题、资料集的性质、要相结合的假设类别,以及基础训练、试验和检验假设的法则。

可以先为列出简短的概要,然后订立一项具体方法丢下的原先为,表明想要完成什么样的特殊任务。比如在相结合假设之前,您可以回答自己:

什么是预测变数? 什么是终究目标变数?我的终究目标变数是一维的还是连续的? 该应运用于分类还是重返归纳? 如何处理资料集中所的缺失值? 按照同一种大尺度对变数度量时,该应运用于标准化还是标准化? 该不该应运用于主成分归纳(PCA)? 如何缩减假设中所的超变数? 如何检验假设以测定资料集中所的正确? 是否应该在应运用于不同假设来进行基础训练时应运用于功能强大(ensemble)法则,然后制订功能强大不等?比如应运用于SVM、KNN或自然语言重返等分类器,然后对三个假设求不等? 如何选择终究的假设? 2. 匆忙

在制订之前,不可或缺的是提前匆忙如何处理该重大项目。可以回答自己以下回答题:重大项目的规模怎样?是与生俱来重大项目吗?我需要有队友吗?什么虚拟器最适合相结合假设?应该应运用于R Studio还是Jupyter笔记本?重大项目是否需要应运用于先为进的投入生产力工具,比如系统设计计算资源,还是AWS或Azure之类的云服务?重大项目完成的日程是什么?

3. 投入生产(设计、相结合和制订假设)

可以在这个环节选择要应运用于的假设,比如线性重返、自然语言重返、KNN、SVM、庄重贝叶斯、决策树、高度努力学习、K-means、荷兰阿姆斯特丹虚拟或时间核酸归纳等。而且,资料集不必分成基础训练集、测试集和试验集。超变数缩减运用于更正假设以防止过拟合。制订交叉测试以确保假设在测试集上表现良好。在对假设变数来进行更正后,将假设应运用于试验资料集。假设在试验资料集上的精度大致相当于假设运用于对看不见的资料来进行预测时的预期精度。

4. 发布(实施、作战或展示您的成果)

在这个阶段,终究的资料挖掘假设被投入到投入生产环境,开始改善客户体验、提高投入生产力或决定证券是否应批准借款人贷款等。在投入生产环境中所检验假设,以检验其精度。这可以通过应运用于A/B试验等法则将资料挖掘系统设计的精度与相对于或掌控系统设计来进行对比来完成。不必归纳从实验假设转往到投入生产线上的实际精度时遇到的任何错误。然后可以将其运用于更正原始假设。在一些大规模重大项目中所,资料科学家不必与日本公司的其他工作人员、的软件工程师或资料挖掘工程师合作,才能作战假设(比如相结合可以系统会读取资料的基于Web的界面),将资料输入到假设,然后应运用于终究假设来进行预测。

总之,我们已讨论了管理资料科学重大项目的四个理论上步骤:原先为、匆忙、投入生产和发布。合理的原先为和匆忙不仅可以提高投入生产力,还有助于可避免重大项目制订更进一步中所可能碰到的潜在衣橱和妨碍。

原文歌名:4 Steps for Managing a Data Science Project,作者:Benjamin Obi Tayo

铜川白癜风哪家医院最好
安徽白癜风医院那家比较好
潮州白癜风医院专家预约挂号
北京妇科挂号
杭州男科医院哪家医院好
新冠对身体的伤害会“累积”,多次感染后遗症可能加重!
止咳糖浆喝几天好得快点
支气管感染咳嗽吃什么能止咳
小儿感冒
感冒咳嗽黄痰吃什么药效果好

上一篇: 中国金茂(00817)附属未完成发行20亿元境内公司债券

下一篇: 怡合达(301029.SZ)以31.56元/股授予154.56万股第一类限制性投资者

友情链接