大数据算法——布隆过滤器
布隆过滤器,是大数据领域一个经常用到的算法如果看过《数学之美》的同学对它应该并不陌生,它经常用在集合的判断上,在海量数据的场景当中用来快速地判断某个元素在不在一个庞大的集合当中。它的原理不难,但是设计非常巧妙 一、原理 在我之前的理解当中,如果想要判断某个元素在不在集合当中,经典的结构应该是平衡树和…
- 854
- 0
- 阅读全文
布隆过滤器,是大数据领域一个经常用到的算法如果看过《数学之美》的同学对它应该并不陌生,它经常用在集合的判断上,在海量数据的场景当中用来快速地判断某个元素在不在一个庞大的集合当中。它的原理不难,但是设计非常巧妙 一、原理 在我之前的理解当中,如果想要判断某个元素在不在集合当中,经典的结构应该是平衡树和…
开始我是想自己做个工具包托管在Github上,以便下次使用时,可以直接go get 下来,但是遇到一个坑,以至于我踩了好久 一、请注意go mod init的规范 命令:go mod init [名称:请以 github.com/xxxx/xxx 命名] 这点特别重要,千万别随意取名,否则会掉入深坑…
做个记录,用于结构体和结构体之间的拷贝 下载地址: https://github.com/jinzhu/copier 特性: Copy from field to field with same name Copy from method to field with same name Copy f…
先上包的下载地址 https://github.com/robertkrimen/otto 最近在公司实习做网页爬虫。具体工作内容是收录一些环保数据的工作,在工作中遇到一些网页是由JS渲染的页面如下图所示: 我需要提取JS页面中的ID字段、area字段、QYMC字段。 此需求给人第一反应的是用正则表…
理解HTTP幂等性 基于HTTP协议的Web API是时下最为流行的一种分布式服务提供方式。无论是在大型互联网应用还是企业级架构中,我们都见到了越来越多的SOA或RESTful的Web API。为什么Web API如此流行呢?我认为很大程度上应归功于简单有效的HTTP协议。HTTP协议是一种分布式的…