汤连杰-HanLP

汤连杰-HanLP 大快搜索--hadoop商业发行版,HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
  • 组员 23
  • 话题 0
  • 活动 2
加入圈子
  • 最新话题
  • 平台介绍

平台介绍


DKH 是中国大数据企业 50 强——大快搜索公司开发的大数据技术平台,是我国目前唯一通过国家检测认证具有自主知识产权的商用发行版 Hadoop。该平台具有极致的 Hadoop 易用性体验、成熟完整的大数据运行环境,以及灵活的安装部署方式和一流的运维监管能力。该平台将复杂多变的 Hadoop 开源系统模块化,建成简单易用的 API 和类库,让大数据底层技术触手可及,易学易用。在提高数据计算与存储效率、保证数据处理质量等方面具有强大的优势。DKH 以帮助软件公司降低技术门槛,提升开发效率,降低成本为己任,将复杂的机器学习、图计算、自然语言处理、深度神经网络变成灵活易用的接口和类库,助力中国软件行业使用国产核心技术,实现面向大数据的产业升级。




技术介绍



DKH 作为大快 Hadoop 集成生态环境,集成多个大快自主开发的组件,例如 ESSQL、DKNLP、DKM 等,也集成分布式 MySQL,使得传统的信息系统可无缝的实现面向大数据和分布式的跨越,更是集成大快的大数据一体化开发框架 FreeRCH。 FreeRCH 开发框架提供了大数据、搜索、自然语言处理和人工智能开发中常用的三十多个类、几百种方法,提升开发效率达到 10 倍以上。

HanLP 作为全球用户量最多的象形文字自然语言处理工具,具备内部低弱耦合、模型惰性加载、服务静态提供、词典明文发布、自带语料工具、自行训练和方便使用的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、无监督信息提取、短文本相似度计算、文本分类和文本聚类等功能。“小妹分词”是其特色产品,是以语料库标注为卖点的一套语料标注与模型训练的 web 系统。





团队介绍



大快核心团队由一批一流的技术专家组成,包括汤连杰、孙雁群、王鑫义、高林、何晗等。该团队在大数据与计算机领域具有多个项目实例研究,致力于打造一个适用于大数据与人工智能的基础软件供应商,开发并提供开放的搜索、大数据和人工智能技术。




领军人物




汤连杰

高级工程师、知名计算机专家、著名的希望梦之队成员。也是搜索引擎及大数据技术专家,北京大学特邀大数据研究生导师;工信部电子工业标准化研究院特约大数据专家,主持开展了大数据导入导出系统、搜索引擎系统、搜索数据抽取系统、搜索引擎爬虫系统、搜索机器学习模块系统、搜索智能人机绘画系统、搜索自然语言处理系统、中文语言情感分析系统、基于云平台的 PageRank 网页权重系统等 10 余个项目的研发,实现成果转化 13 项,年均 6.5 项。转化形成高新技术产品 2项,围绕产品申请专利十余项,带动智慧交通、智慧政务、智慧农业等多个领域的大数据课题研究,为我国大数据软件市场提供了安全、可控的国产化大数据基础软件,被工信部中国电子信息研究院评为“2018中国数据大工匠”。




核心成员




高林

控制理论与控制工程专业博士,具有 10 余年数据挖掘技术、大数据技术研究与应用经验,主持山东省自然科学基金 1 项、青岛市博士后基金 1 项,发表 SCI、EI 论文 30 余篇,拥有发明专利 8 项,软件著作权 3 项,编写教材 2 部。并在智能交通、海洋监测、金融证券、化工预测等多领域领域,主持算法设计与应用研究。





王鑫义

高级工程师,具有 10 余年大型软件工程的设计开发及管理经验。08 年开始参与 Hadoop(v0.17)的研究开发,是国内第一批大数据研究员,著名开源项目 Apache Nutch 的 commiter。山东省发改委大数据推进顾问。前海信智慧交通产品线首席架构师,主管产品研发并负责海信集团第一期大数据研究项目。主导研发的城市级智能交通平台产品连续多年市场占有率行业第一。




还没有新的公告

最新加入 更多
  • 贾乃亮
  • 157****2035
  • LG
  • 陈文科
  • 188****9324
  • 159****2675
  • 135****4770
  • 150****5797