一种基于内容的图像格式中文文档检索方法
发布者:石景卉 编辑:科技发展处 发布时间:2012年07月12日
一种基于内容的图像格式中文文档检索方法
申 请 (专利) 号 | 201010226787.5 | 申 请 日 | 2010.07.15 |
名 称 | 一种基于内容的图像格式中文文档检索方法 |
公 开 (公告) 号 | CN101866366A | 公开(公告)日 | 2010.10.20 |
主 分 类 号 | G06F17/30(2006.01)I | 范畴分类号 | |
申请(专利权)人 | 哈尔滨工业大学 |
地 址 | 264209山东省威海市文化西路2号 |
发 明 (设计)人 | 夏勇;王宽全;左旺孟;黎捷 | 国家/省市 | 黑龙江;23 |
摘 要 一种基于内容的图像格式中文文档检索方法,它涉及信息处理技术领域,它解决了现有的基于OCR技术的检索方法不能有效处理字符退化严重的图像格式文档的问题。本发明首先对图像格式文档进行字符分割,得到单个字符图像;然后提取字符图像特征矢量;接着基于局部敏感哈希变换原理LSH,构建hash函数,将每个字符图像特征矢量变换为伪码,并建立字符标引数据库;然后输入查询关键词,并获得所述查询关键词的伪码表示,再将查询关键词的伪码与字符标引数据库中伪码进行字符相似度比较,进而获取查询关键词的所有相似词,并按照其在文档中出现的先后顺序输出相似词,完成检索。本发明适用于图像格式的中文文档检索。 |
|