目录

AaronJny

诗酒繁华,书剑天涯。

标签: 动态规划 (1)

Java技能关键词纠错——计算两字符串最长公共子序列(动态规划)

前言 最近在做一项功能,需要自动从招聘文本中提取技能需求关键词。然而问题来了,请看下面这句招聘需求: 2、 熟练掌握 SpringMVC、Srping、Mybetis 或者 hibernate,熟悉 jQuery,EasyUI 或者 AngularJS; 稍微仔细点看,比较熟悉 Java 的兄 dei 可能已经发现了,WTF?Spring、MyBatis哭晕在厕所…… 是哪家公司的我就不说了哈,影响不好,可能就是单纯手误吧。 然而,我就需要多做一项工作——纠错。从招聘文本中提取的关键词,不能直接作为结果,还需要使用对可能的手误打错、粘贴漏字这些问题进行处理,对可能为错误的关键词进行纠正。 整体的思路是这样的: 1.我写了一个提取器,可以按照特定的规则从招聘文本中提取可能的关键词 2.我建立了一个小型的 Java 关键词库。但不属于这个词库的、可能的关键词,也能被 1 中的提取器识别出来。 3.对于所有提取的技能关键词,尝试和词库进行匹配(匹配时关键词和词库统一转成小写,避免大小写不一致产生的问题),如果匹配上了,说明这个词大概率没有拼写问题,跳过。 4.如果在 3 中没有匹配....