您的位置首页  商业

商业英语有哪些商业包括什么行业十大商业痛点

  为了找到Netflix上最好的影戏和电视节目,我比力了台本对话中利用的辞汇

商业英语有哪些商业包括什么行业十大商业痛点

  为了找到Netflix上最好的影戏和电视节目,我比力了台本对话中利用的辞汇。让我们找到哪些是最好的电视节目和影戏。

  这些是在Netflix目次中发明的电视节目。能够有些你喜好的电视节目不在Netflix上,但不要担忧,我曾经阐发了此中一些电视节目,如《权利的游戏》《辛普森一家》。别的,Netflix目次在你的国度能够略有差别。这就是为何我只列出了一个最有能够在环球范畴内供给的Netflix原著。

  Netflix上的美国和英国电视节目都是为母语为英语的人建造的。这就是为何假如英语不是你的母语,你在了解某些场景中的对话时能够会碰到一些艰难。我按照辞汇量的难易水平对Netflix目次上的500个一流电视节目(223部Netflix原创节目)停止了排名。

  数据清算:我删除在影戏或片断入耳不到的单词,好比场景形貌和发言者的名字十大贸易痛点。我还解除了对线% 的单词与单词家属列表不婚配的手本(它们能够长短常值或被毁坏的数据)。一切的代码都能够在Github上找到!

  在向英语进修者展现 Netflix 上最好的内容之前,让我们比力一下最好的和能够最差的内容,仅针对辞汇量难度来讲。

  我还列出了 Netflix 活着界范畴内最能够供给的原创影戏列表,以防 Netflix 的目次在你的国度纷歧样。

  AI研习社是AI学术青年和AI开辟者手艺交换的在线社区。我们与高校、学术机构和财产界协作,经由过程供给进修、实战和求职效劳,为AI学术青年和开辟者的交换相助和职业开展打造一站式平台,努力成为中国最大的科技立异人材会萃地。

  Tokenization:为了阐发笔墨记载中的辞汇,我将字符说的一切单词标识表记标帜化。Python中有很多用于标识表记标帜化的东西,可是我利用 CountVectorizer,由于它将搜集的转录本转换为标识表记标帜计数的数据格局,从而简化了阐发。在阐发了3000 部影戏的文章中,我进一步注释了 CountVectorizer 是怎样事情的。

  假如你比力喜好看影戏贸易包罗甚么行业,那末Netflix也有很好的影戏来进修英语。我把Netflix上最受欢送的950部影戏(173部Netflix原创影戏)根据辞汇量的难度停止了排名。排名前100的热点影戏有《蒙上你的眼》(30)、《蜘蛛侠:平行宇宙》(84)和《当幸运来拍门》(81)。

  你能够鄙人面的框中搜刮电视节目名。你会发明他们的排名和辞汇笼盖率。排名前十的电视节目在全部Netflix剧集列表中辞汇最简朴。

  我花了几个礼拜的工夫寻觅、清算、处置数据,然后弄分明获得的成果。但是,研讨成果其实不完善。关于影戏的研讨成果能够比电视节目更精确。影戏的笔墨记载是无独有偶的,但电视节目播出的剧集差别,这增长了每部电视节目标笔墨记载数目。这就是为何我搜集了每一个节目 3 到 10 集的样本,以得到该电视节目均匀每集涵盖的辞汇。

  停止2020年,Netflix上约有3712部影戏和1845部电视节目。假如你正在进修英语,可供挑选的内容许多,但你能够没那末多工夫去看完。因而,我用数据科学妙技来阐发Netflix上前1500部影戏和电视节目标脚本。颠末大批的处置,我找到了Netflix上最好的英语进修内容。如许做的目标是为了给你供给许多好的挑选,让你能够找到你喜好的影戏或电视节目,同时对进修英语也有益处,而不是自愿你看不喜好的电视节目,由于你的教师和伴侣对峙它有助于各人进修英语。

  以下图片显现了排名前十和后十的网飞原创影戏在英语辞汇难度上的不同。正如你所看到的,在已往的 10 年中,利用的辞汇愈加艰难。比方,你只需求晓得最多见的 1000 个英语单词就可以了解影戏《 蒙上你的眼》中 94,5% 的单词,但你需求最少3000个单词来涵盖影戏《Spelling The Dream》中 94.5% 的对线 个单词能够就是你不懂的缘故原由——即便你的英语程度曾经很高了!

  《老友记》辞汇简朴,被以为是进修英语最好的电视节目之一。但是,这部电视剧在Netflix目次中只排在第78位,这意味着另有77部电视剧和《老友记》一样好——以至更好!-能够在Netflix长进修英语并享用兴趣。比方,按照我的查询拜访成果,电视剧《去他*的天下》(排名13)或《13个缘故原由》(排名40)在其剧集合的辞汇量以至更简朴。

  假如你正在寻觅合适你英语程度的电视节目,那末我有一个好动静要报告你, 我对一切节目标英语辞汇量程度停止了排名(低级、中级、初级)。最靠右的节目在每一个级别上利用的辞汇量更多。笼盖率越高,你就越简单了解电视剧中的情节。

  每级代表 1000 个最多见的英语单词十大贸易痛点。一切的影戏都按品级布列十大贸易痛点。第 1 级代表“低级程度”,第 3 级代表“中级程度”。一集节目标收视率越高,辞汇就越简单了解。

  经由过程上面的方框播放,看看另有哪些影戏排在前100名。你还能够发明你喜好的影戏的排名和辞汇笼盖率十大贸易痛点。

  词形复原(Lemmatization):在标识表记标帜化以后,我必需找到每一个标识表记标帜的根本情势。您能够经由过程利用象 lemmizing 如许的手艺来完成这一点,您能够在 NLTK 库中找到这些手艺。不外,我利用了相似的单词族列表,并且还按照单词呈现的频次给出了每一个单词的难度程度。到 2020 年,有 29 个单词家属列表,你能够在这里找到。这些列表是对与言语学和英语作为第二言语进修相干的研讨论文停止评价的。

  为了停止阐发,我利用了 3 个次要数据集,它们由文本、Netflix 目次和 Netflix 原创列表构成。我在谷歌上搜刮,直到我找到了大批用于阐发的转录本十大贸易痛点。我用目次来婚配 Netflix上的字幕。你能够在 Kaggle 上找到 Netflix 的目次数据集。从 2019 年开端,Netflix 上就可以够看到它的内容,以是能够有些影戏或电视节目如今还不克不及在 Netflix 上看到。最初,我在这里找到了一份停止 2020 年的 Netflix 原创剧集列表,这对阐发很有协助。

  我用来对电视节目中的辞汇停止分类的单词表,大部门都来自语料库。辞汇程度是按照一个词在语料库中被发明的频次来肯定的,即这些文本中最多见的词被标注为 1 级。虽然之前的研讨曾经证实了该列表是牢靠的,但关于具有多种寄义的单词,它其实不那末精确。比方,单词 “draw” 在列表中被标识表记标帜为第 1 级。之以是会呈现这类状况,是由于这个词凡是指“照相”,但假如它的意义是“拿收兵器来进犯或人”或“得出结论”,那末它就不属于第一级。

  总的来讲,查询拜访成果提醒了许多合适每一个辞汇程度的内容,但此中一些仍是让我受惊。好比,《行尸走肉》排在第 62 位,这让我很受惊。我不是谁人电视节目标粉丝贸易包罗甚么行业,但我不以为一个有僵尸的虚拟节目在对话中利用简朴的辞汇。在检察了笔墨记载后,我证明了《行尸走肉》中对辞汇的需求在整集都有许多升沉。也就是说,有些情节能够比其他情节更难了解。

  你能够鄙人面找到合适你英语程度的影戏。最右侧的影戏有更多的低级、中级和初级辞汇。但这些都是在 Netflix 目次中找到的排名靠前的影戏,你不会在 Netflix 上找到像《哈利波特》、《阿凡达》、《玩具总发动》如许的影戏,但假如你还想看这类影戏贸易包罗甚么行业,你该当看看我的另外一篇文章,我阐发了3000部最受欢送的影戏。你能够在这里找到它。

  每一个级别代表1000个最多见的英语单词。一切的影戏都有一切级此外排名。1级代表 低级程度,3级代表 中级程度。一集的笼盖率越高,越简单了解其辞汇量。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186