爱笔趣阁

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
跨异界联合王国

跨异界联合王国

以手办军模为媒介,召唤各种角色,建设经营统治一个联合王国……一般的联合王国,殖民地跨大陆,一个政权下发现存在昼夜颠倒的时区。多元宇宙的联合王国,统治区域跨异界,一个政权下发现存在相对论时空效应。原本,来回穿越于异世界之间,做个往返多元宇宙的倒卖商人,开个异界物产超市就可以快意人生,但一场侵略,把我推上了不会和平的冒......

七X

七X

作者喝多,酒后吐言——七段禁恋,皆为短篇,有古有今,现实向肉。第一x:兄妹(3)第二x:姐弟(1v1)第三x:父女(1v1)第四x:后母(3)第五x:公媳(1v1)第六x:姐夫(3)第七x:叔侄(1v1)甜虐适宜,人性悲喜皆有,故事结局he,不定期更文关注作者——新浪微博:凉鹤的鹤weibou6253476269本文仅发表于oo原创市集,转载请注明出处和作者,不得用于商业用途,拒绝抄袭借梗!如封面图有侵权,请知会作者,会立刻删除...

阴娘子

阴娘子

下载客户端,查看完整作品简介。...

强势攻防

强势攻防

基友觉得本文应该叫《霸道男神暗恋我》,实在太狗血了,被胖瓜弃用了,虽然这个文名才是本文的精华,泪奔ing 这其实是一个少年经过了狂酷拽的队友兼小攻斯巴达式的摧残之后成为表面低调实际屌炸天的控球后卫的故事。 另外:聂川是里斯的初恋。 聂川:我决定将你晋升为我最好的朋友! 里斯:我都能成为你最好的朋友,说明你没朋友。 聂川:喂!你怎么能这么说!你知不知道做我最好朋友的意义是什么! 里斯:睡觉了。 聂川:就是我结婚的时候新娘不一定是她,但伴郎一定得是… 里斯:新郎得是我。 聂川:什么——你连我的新娘都抢,你有没有人性! 里斯:睡觉。...

罪案破局者

罪案破局者

罪案破局者情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,罪案破局者-悲伤的孙少-小说旗免费提供罪案破局者最新清爽干净的文字章节在线阅读和TXT下载。...

这个歌手有点浪

这个歌手有点浪

附:【本作品来自互联网,本人不做任何负责】内容版权归作者所有!=================书名:这个歌手有点浪作者:衔玥文案曾经:关灯:身为流行音乐人气歌手,人称音乐才子。我愿意为你创作曲谱,你应该知足(¬_¬)齐欣:呵呵。后来:关灯:都说贵圈很乱,但是我很纯善,专心写歌苦干,老婆给我点赞o(* ̄3 ̄)o齐欣:呵呵。放浪不羁流行音乐歌星VS墨守成规昆曲艺术花...