新闻频道 > 新政风向

我,一个数据科学家的三大弱点_高鹰生殖中心

来源: 新华社
00:08:30

美国队长2我,一个数据科学家的三大弱点

莫扎特

    下载APP 阅读本文更深度报道

    如果说现代工作面试教会了我们什么,那就是“你最大的弱点是什么?”的正确回答是“我工作太努力了。”

    显然,真的要去谈论我们的弱点是很荒唐可笑的,我们为什么要提我们做不到的事情?虽然工作申请和LinkedIn不鼓励我们披露我们的弱点,但如果我们从不承认我们的缺点,那么我们就无法采取措施来解决它们。

    要想在奋斗中变得更好其实很简单:

    1. 确定你目前的问题:找出缺点

    2. 弄清楚你要的目标:制定实现的计划

    3. 执行计划:每次一小步

    但我们很少执行第一步:特别是在技术领域,我们总是用已知的技能埋头苦干,而不是学习那些可以使工作更轻松或者获得新机会的新技能。自我反思 - 客观地评估自己 - 看起来好像是一个不相干的概念,但是如果能退一步,弄清楚我们怎样能把事情做得更好或更有效,这对于在任何领域取得进步都至关重要。

    考虑到这一点,我试图客观地审视自己,并确定3个努力方向以使我成为更好的数据科学家:

    软件工程

    扩展数据科学

    深度学习

    我写这篇文章的目的有三。

    首先,我真的想变得更好,所以我需要承认我的弱点。我的目的是通过概括我的不足以及如何改正它们,让自己有动力完成我的学习目标。

    其次,我希望鼓励其他人思考他们可能不了解的技能以及他们怎样获得这些技能。你不必像我这样写篇文章来公开哪些东西你不会,但是如果你可以找到一项新技能来学习,那么花点时间考虑这个问题是值得的。

    最后,我想告诉你,要成为一名成功的数据科学家并不需要什么都知道。数据科学/机器学习的课题几乎是无穷无尽的,但实际上你能了解的有限。不管那些华而不实的求职简历是怎么写的,你不需要完全了解每个算法(或有5到10年的工作经验)才能成为一名职业数据科学家。我经常从初学者那里听到他们被自己所认为必学的课题数量压得不堪重负,而我的建议总是一样的:从基础开始,并且明白你不需要知道所有的一切!

zui hou, wo xiang gao su ni, yao cheng wei yi ming cheng gong de shu ju ke xue jia bing bu xu yao shen me dou zhi dao. shu ju ke xue ji qi xue xi de ke ti ji hu shi wu qiong wu jin de, dan shi ji shang ni neng liao jie de you xian. bu guan nei xie hua er bu shi de qiu zhi jian li shi zen me xie de, ni bu xu yao wan quan liao jie mei ge suan fa huo you 5 dao 10 nian de gong zuo jing yan cai neng cheng wei yi ming zhi ye shu ju ke xue jia. wo jing chang cong chu xue zhe na li ting dao ta men bei zi ji suo ren wei bi xue de ke ti shu liang ya de bu kan zhong fu, er wo de jian yi zong shi yi yang de: cong ji chu kai shi, bing qie ming bai ni bu xu yao zhi dao suo you de yi qie!

    

    对于每个弱点,我已经做了概述以及我目前正在做的改进。确定一个人的弱项很重要,但制定如改进的计划也很重要。学习一项新技能需要时间,但计划一系列小而具体的步骤会大大增加你成功的机会。

    软件工程

    我最初的数据科学实践经验是在学术环境中获得的,之后我一直试图避免重拾某些以学术方式来研究数据科学的坏习惯。其中包括编写仅运行一次的代码,缺乏文档,编写没有统一风格且难以阅读的代码以及硬编码某些特定值。所有这些做法都反映了一个基本目标:开发一个数据科学解决方案,该解决方案只针对特定数据集做一次性工作,以便撰写论文。

    其中一个典型的例子是我们的一个项目使用建筑能源数据,最初每隔15分钟采集一次,但当我们以5分钟为增量开始采集数据时,发现程序完全崩溃了,因为有数百个地方把采集间隔写死为15分钟。我们不能简单地查找和替换,因为这个间隔参数被写成很多种名字,如electricity_interval,timeBetweenMeasurements或dataFreq。没有一个研究人员考虑过代码的可读性或输入变量的灵活性。

    相比之下,从软件工程的角度来看,代码必须使用大量不同的输入进行广泛测试,有良好的文档,在现有框架内工作,并遵守编码标准,以便其他开发人员能够理解。尽管我非常想这样做,但我偶尔也会像数据科学家而不是像软件工程师那样编写代码。我开始思考伟大的与普通的数据科学家之间的区别是在于使用软件工程最佳惯例编写代码?- 如果你的模型不够健壮或不适合整个架构,则不会被部署 - 现在我正在尝试培养自己像计算机科学家一样思考。

    通常,对于技术技能的学习来说没有比实践更好的方法。幸运的是,在我目前的工作中,我能够同时为我们的内部工具和开源库做出贡献。这也迫使我获得了许多实践机会,包括:

    编写单元测试

    遵循编码风格指南

    编写可以更改参数的函数

    完整的代码文档

    让其他人做代码审查

    重构代码使其更简洁,更易于阅读

    即使对于尚未有实际工作经验的数据科学家,你也可以通过协作参与开源项目获得这样的经验。另一个获取可靠编码实践的好方法是在GitHub上阅读流行库的源代码(Scikit-Learn是我的最爱之一)。获得其他人的反馈也至关重要,因此你可以找一个社区并向那些比你更有经验的人寻求建议。

    像软件工程师一样思考需要改变你的思维模式,但如果你能够慢下来并牢记这些做法,那么实践他们并不困难。例如,每当我发现自己在Jupyter Notebook 中复制和粘贴代码并更改一些值时,我会试着停下来并意识到我不如使用函数来代替拷贝粘贴的代码,因为从长远来看这会让我更有效率。虽然我对这些惯例的实践还不算极致,但我发现它们不仅让其他人更容易阅读我的代码,而且还更容易扩展我的工作。比起写代码,我们更多时候是在阅读代码,因此你未来会感激这些文档和统一的编程风格。

    除了编写那些大型代码库的代码中用到这些,我仍然会坚持遵循部分惯例。编写数据分析的单元测试对于数据科学家来说可能看起来很奇怪,但是当您真正需要开发测试以确保代码按预期工作时,这是很好的做法。此外,还有许多工具可以检查您的代码是否遵循编码风格(我仍然在努力解决关键字参数周围的无空格的问题)。

    

    总有地方可以改进(在Sublime Text 3里使用pylint)

    我还想研究计算机科学的许多其他方面,例如编写有效的实现代码而不是暴力法(例如使用矢量化而不是循环)。然而,同样重要的是要明白你不能一次改变所有东西,这就是为什么我专注于其中一些惯例并将它们变成我工作流程中的习惯。

    虽然数据科学自成一体,但从业者仍可以通过借鉴软件工程等现有领域的最佳实践惯例而受益。

    扩展数据科学

    虽然你可以自学数据科学中的所有内容,但付诸实践部分有一些限制。其中一个是难以将分析或预测模型扩展到大型数据集。我们大多数人无法访问计算集群,又不想存钱购买个人超级计算机。这意味着当我们学习新算法时,我们倾向于将它们应用于小型,表现良好的数据集。

    不幸的是,现实世界里的数据集不会对数据量大小或者数据干净程度有严格限制,所以,你必须使用不同的方法去解决数据量过大、脏数据等问题。首先,你或许需要突破个人电脑的安全限制,使用一个远程的实例,例如亚马逊的AWS EC2 甚至是多台机器。这意味着,你必须学习怎样远程连接机器和敲写命令行,因为你的EC2实例不能使用鼠标也没有操作界面。

    当学习数据科学相关课程的时候,我使用亚马逊云的免费服务或者免费积分(如果你有多个邮箱可以注册多个账户来获得更多免费服务)在EC2机器做练习。这样能帮助我熟悉敲写命令行。然而,我还没有解决第二个问题——数据集大小能够超过机器的内存。我意识到这个限制让我回到了原点,现在是学习处理更大的数据集的时候了。

    你甚至不用在电脑资源上花费数以千计美金,就可以实践这些超出内存限制的数据集的处理方法。这些方法包括每次遍历一个大数据集的一部分、把一个大数据集拆分成许多小数据集或者使用像Dask这种能够让你掌握大数据集处理细节的工具

    我目前的方法是,对于内部项目数据集和外部开源数据集,都把单个数据集拆分成多个子集,开发一个能够处理子集数据的pipeline(程序、脚本等),然后用Dask 或者PSpark通过pipeline并行跑这些子集。这个方法不需要拥有超级电脑或者集群——你可以利用计算机的多核架构并行操作普通电脑。当你拥有更多资源的时候,你就可以自由的拓展程序规模。

    幸亏有像Kaggle这样的数据宝藏,我已经找到了一些相当大的数据集,并且学习其他数据科学家处理它们的方法。我从中找到了很多有用的建议,例如,把数据类型改成dataframe以减小内存消耗。这些方法能帮助我更高效地处理各种数量级的数据集。

    

    美国国会图书馆“只有”3PB的材料

    虽然还没有处理过TB级的数据集,这些方法已经帮助我学到了处理大数据的基本策略。在最近的一些项目中,我已经能够运用所学技能在AWS的集群上做分析。希望接下来的几个月,我能逐步在更大的数据集上做分析。可以肯定的是在将来的分析中,数据集会越来越大,我还需要继续提高处理更大数据集的技能。

    深度学习

    虽然人工智能在繁荣和萧条中更迭,但是它最近在计算机视觉、自然语言处理、深度强化学习等领域的成功应用让我确信基于神经网络的深度学习不是昙花一现。

    与软件工程和数据科学拓展领域不同,我现在的职位不需要任何深度学习知识:传统机器技术更能有效解决我们客户的问题。然而,我发现并不是每一个数据集都是行列结构化的,神经网络是文本或图像项目的最佳选择(目前来看)。我会继续利用已有技能解决当前的问题,但是,尤其在职业生涯早期,探索性课题同样拥有巨大的潜在价值。

    

    探索和利用的权衡在强化学习和你的生活中的应用

    深度学习里有很多不同的分支领域,非常难分辨哪个方法和库将最后胜出。虽然如此,我认为熟悉深度学习某一个领域并能实现其中某些技术,会让一个人能够解决问题的范围更广。解决问题驱使我更深入学习数据科学,所以把深度学习加入我的技能库是一项有价值的投资。

    我对于深度学习的学习计划和当初把自己变成数据科学家的方法一样:

    1、阅读着重部署应用的书籍和教程

    2、在真实项目中练习技术和方法

    3、通过写作分享和解释我的项目

    当我学习一个技术课题时,一个有效的方法是边学边做。这意味起步时不是通过基础理论而是通过找到实际应用方法去解决问题。这个自上而下的方法意味着我要把许多精力放在着重于动手带有许多代码样例的工具书上。在我明白技术的实际应用以后,我再回到基础理论中,这样,我能够更高效的使用这些技术。

    虽然没有机会在工作中学习到其他人的神经网络,要靠自己自学,但是在数据科学领域有着丰富的资源和广阔的社区。对于深度学习,我最初依赖这三部书:

    《Deep Learning Cookbook》,作者Douwe Osinga

    《Deep Learning with Python》,作者Francois Chollet

    《Deep Learning》,作者Ian Goodfellow, Yoshua Bengio, and Aaron Courville

    前两本书着重于通过神经网络实现解决方案,而第三本更偏向深入理论。只要情况允许,可以边读边在键盘上敲代码,这会将读技术文章变为有趣的体验。前两本书中的代码示例非常棒:我通常是在Jupiter Notebook中逐行敲写和运行,探究代码如何工作,并记录知识细节。

    此外,我不仅仅是复制这些代码,而是尝试在自己的项目中实践它们。我在近期工作的一个实践项目是构建一个图书推荐系统,该系统是根据《Deep Learning Cookbook》中的类似示例代码改编的。从头开始创建自己的项目可能令人生畏,如果你想提升自己,可以从别人的轮子上搭起。

    最后,学习某个主题的最有效方法之一是把这个知识教给别人。从经验来看,如果我不能用简单的语句解释给别人,那么我就还没有完全理解这个知识。随着学习深度学习的每个主题,我将保持写作,并分析技术实现细节和概念性解释。

    教学是最好的学习方式之一,我计划将其作为学习深度学习的一项重要组成部分。

    

    学习金字塔。左侧:平均掌握程度;右侧:讲义、阅读、音视频资料、示例、讨论、实践联系、教导其他人

    总结

    公开自己的弱点可能会感觉有点奇怪。写这篇文章的确会让我感觉不舒服,但是我写出来是因为它最终会帮助我成为一个更好的数据科学家。而且,我发现很多人,包括雇主们,会对你坦诚自己的弱点并探讨如何解决它们留下深刻印象。

    不了解某些技能并不是弱点——真正的弱点是假装自己知道一切并停滞不前。

    通过定位我在数据科学方面的弱点——软件工程,扩展分析/模型,深度学习——我的目标是高自己,鼓励他人思考自己的弱点,并向你展示想成为成功的数据科学家并不必要学习所有知识。虽然反思个人的弱点可能很痛苦,但是学习是快乐的:最有成就感的事情莫过于,经过一段时间的持续学习后回顾这个过程,你知道你已经比刚出发的时候懂得更多。

    

    

    

    

    本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表网立场。投资者据此操作,风险请自担。

    

     (责任编辑:张洋 HN080)

当前文章:http://www.sdaiyun.cn/j5y/14677-334191-80431.html

发布时间:02:13:47

高鹰生殖中心  及乐视网  代孕  中山爱人辅助类代怀孕网  武汉新闻资讯网  常德新闻  得力妈妈网  珠海代孕  喜盈门代怀孕服务中心  石家庄代孕  益阳新闻资讯网  

{相关文章}

行业股权投资市场热议:28个现象逐渐向成熟的金融经济学方向加剧______

    新浪财经新闻4月7日,“2019年CBLJ峰会论坛”4月3日在北京举行。论坛由法律媒体《中国商法杂志》主办,新浪财经、新浪发曲为战略合作伙伴,北京仲裁委员会为特别支持单位。会上,馆陶中贸律师事务所的律师和企业嘉宾分享了私募股权基金和股权投资市场趋势分析的主题。2018年私营部门发生了长江口垃圾倾倒案_高鹰生殖中心什么?未来会出金庸去世盗版泛滥_高鹰生殖中心现什么行业趋势?馆陶中茂律师事务所合伙人王洋律师对股权投资市场的观察进行了简要回顾,得出以下五个结论。一是投资业务与市场环境的变化保持同步。二是投资业务的市场细分。大部分资金开始投资于医药、新能源和环境保护。第三轮投资面临新问题。第四,随着市场的不断完善,公司治理已成为一个非常amandashan_高鹰生殖中心重要的问题。最后,退出模式多样化。总技术风险投资有限公司总经理鲍敬明表示,对于股权投资市场的行业趋势,可以明显地提到“28现象”这一更敏感的术语。也就是说,一个好的项目会很快地选择其认可的投资者,一个好的机构可以吸引更多的资金,如果一般机构的管理能力很难继续筹集资金,那么就会有28种现象。”但这表明,私募股权市场正走向成熟阶段。我认为28的现象会进一步加剧,因为这是一个很自然的客观规律。当一个行业成熟时,必然会产生差异nanboxing_高鹰生殖中心。中国证券汇金基金管理有限责任公司《风控法》主任张华全表示,“中国房地产市场花了20年时间才完成这一裂变,而中国私募基金的时间还不到一半。这是什么意思?这表明唐山师范学院刘丹_高鹰生殖中心,该行业的转型已经大大超出了想象。对于私募基金来说,筹资是根源,但我认为真正的根源是投资。张华泉。在此背景下,私募股权从业人员应如何适应这一趋势?馆陶中贸律师事务所合伙人陈晓峰律师表示,目前基金行业协会对基金管理人注册的管理更加严格。从股权发行的角度来看,从表面到实质,从高级管理人员资本、背景和投资能力等各个方面考虑,协会在发放经理人执照方面更加基加美修的召唤石_高鹰生殖中心谨慎。中关村大和资本合伙人孙永刚也认为,从数据来看,中国私募股权管理公司的数量可能超过世界上2、3和4个国家。”所以现在是洗盘子的时候了。在这一趋势下,仍然需要努力做到坚定不移,这对管理者如何提高自身素质提出了更高的挑战。(新浪财经李世云)新浪宣布,所有会议记录都是现场速记整理的。新浪发布这篇文章的目的是为了传递更多的信息,但这并不意味着它同意自己的观点或确认自己的描述。责任编辑:陈永乐

    

关键词:dnf传说之灵符,浙江理工套马杆,李永波老婆谢颖责任编辑:卓董杜
http://ahtydt.cnhttp://47466.comhttp://023dydy.cnhttp://szpower168.comhttp://parsons55.nethttp://www.taohuanxin.cnhttp://www.carzd.cnhttp://www.dwysy.cnhttp://www.yebxzd.cnhttp://www.ecohvacr.cnhttp://www.agent-cn.comhttp://www.hezi-box.comhttp://www.tianshushi.cnhttp://www.imeidao.cnhttp://www.nsdfx.cnhttp://www.wifik.cnhttp://www.cnjww.cnhttp://www.aaimfx.cnhttp://www.ytbxzx.cnhttp://www.orgcy.cnhttp://www.kukuli.cnhttp://www.qhjjh.cnhttp://www.qhkkb.cnhttp://www.qhqqm.cnhttp://www.qhwwy.cnhttp://www.yzddyq.cnhttp://www.kakuac.cnhttp://www.wwlwkj.cnhttp://www.elstar.cnhttp://www.mowing.cnhttp://www.vtmic.cnhttp://www.gengdo.cnhttp://www.fcmbfx.cnhttp://www.ggpmuv.cnhttp://www.hkxjw.cnhttp://www.rcbdt.cnhttp://www.cagyz.cnhttp://www.qhqqc.cnhttp://www.jodea.cnhttp://www.aebiz.cnhttp://www.aigkwq.cnhttp://www.ahhsqz.cnhttp://www.kaidabaozhuang.com/data/cache/2019032616263684327925.htmlhttp://palladavastgoed.nl/wp-content/plugins/2019032512065987613114.htmlhttp://sc-huashi.com/2019032511374834164501.htmlhttp://vnsourcing.com.vn/giay/2019032510341933987408.htmlhttp://palladavastgoed.nl/wp-content/plugins/2019032512015222989687.htmlhttp://xingbian580.com/zhiwu/2011/1009/2019032511141165678464.htmlhttp://www.jiningba.com/data/images/2019032511080183246294.html