深度森林

本文是 MLA2017会议上周志华关于深度森林报告的一个笔记。本文的另一个 html 版本。周志华老师花了很大一部分时间谈了谈深度森林背后的一些思考,受益良多。会议 ppt 在 MLA官网

首先,周志华回顾了深度学习的一些基本问题

深度学习是什么?

Deep Learning =? Deep neural networks (DNNs)

当今的深度学习,当前几乎等同于深度神经网络(DNNs)。就是把神经网络的层数加深。周志华认为深度学习的内涵需要思考以下问题

1.神经网络为何要加深

对于神经网络,提升模型复杂度可以提高学习性能。当然,复杂度提高之后一方面容易出现过拟合,因此深度学习同时需要提升数据量。另一方面训练过程变得困难,因此需要很多 tricks 。

但是有一个基本问题就是,如何提升模型复杂度?
Read More.

apache2开启http2

HTTP2是HTTP协议的一个重要的改进版本,下午将博客更新到了HTTP2,感觉打开速度又些许提升。对于Apache2服务器来说,使用HTTP2操作并不复杂:

Read More.

向量语义学(Vector Semantics)

本文是以文末参考文献[2]为主要参考的读书笔记,建议读者阅读参考文献[2],比本文高明多了。

由于wordpress的markdown转换不是很好看,可查看本文的另一个html版本

基本名词

词条(Lemma)或引用形式(citation form)

指的是一个词典或者词库中的一个单词条目。表示了一个词的基本形式和大致的含义。譬如对于 sing、sung、sang,它们的 Lemma 都是 sing,carpets 的 Lemma 是 carpet。
Read More.

NLP基础与N-Gram模型

wordpress的markdown生成的格式不是很好看,本文另外一个html版 

本文就是个读书笔记,建议读者阅读文末参考文献2和3,比本文不知高到哪儿去了。

自然语言处理的概念

  • 认知角度:理解语句
  • 实践角度:生成语句

自然语言处理的两大途径

规则方法

被称为理性主义方法,主要依赖于人的总结。基于人工整理的 CFG (上下文无关文法,Context-Free Grammar) 规则,给出解决方案。

test

统计方法

被称为经验主义方法,主要依赖于对数据的总结。从数据入手,利用统计机器学习方法解决问题。例如:通过自动学习得到PCFG(概率上下文无关文法),通过概率模型预测句法分析结果。

经验主义方法-统计方法

统计自然语言处理(Statistical NLP)

我们主要采用统计方法来进行机器学习。因此 统计自然语言处理的基本套路: – 问题形式化:将歧义问题转换成分类预测问题 – 语言的表示,建模:譬如n元模型 – 参数训练方法 – 有效的解码、推断

自然语言处理的基本框架

  • 词层面
    • 语言模型
    • 分词
    • 词性标注(POS)
  • 语法层面
    • 句法解析
  • 语义层面
    • 命名实体识别(NER)
    • 语义角色标注(SR)
  • 应用层面
    • 文本分类
    • 机器翻译
    • 自动问答
    • 情感分析

n元模型

统计语言模型

统计语言模型(Statistical Language Model)是一种History-based Model。 P(W)=P(w1w2…wn)=P(w1)P(w2|w1)
P(w3|w1w2)…P(wn|w1w2…wn-1)
定义:统计语言模型是用来刻画一个句子(词串序列)存在可能性的概率模型

该模型认为,语句中当前词是可以通过之前的词预测的。当然这个假设其实有些不切实际的,因为不可能总是通过过去的词预测将来的词。

Read More.

java并行流的老生常谈与重新思考

Stream API是Java 8推出的新特性,眼看Java 9 (2017年7月份) 即将推出,为什么还来谈Stream呢?毕竟自从Java 8推出以来,关于流的具体使用的文章相当之多,因此本文也不打算重复描述Stream的使用方法,而是想谈谈很少被提及的一些基本问题。

1.Java 8引入lambda语法的设计初衷是什么?是为了解决Java语言为人诟病的语法繁琐问题吗?

Read More.

bug害人呐

不久前发现自己很久前的http request的代码里出了个大bug,接收服务器返回的数据时,因为自己定义并使用了一个可变byte数组,数组长度不足时会成倍增加,另外有个值记录真实长度,然而获取真实数组时我却返回了整个数组….导致数组长度总是1024的倍数,因为这个bug,某项目从服务器收取的文件的大小全是1024的倍数,平均每个文件多占用了25%的磁盘空间,总计400GB!

bug害人呐?

DataList.java

和同学讨论传递Function是否可以解耦写的代码,QQ讨论时没语法高亮就放博客了,一直忘删了。
Read More.

适用于ipv6的hosts文件

国内目前ipv6的墙好像还不高,基本只要dns解析正确就能访问某些404网站。出于访问Youtube的目的,因此去年写了一个批量解析Google域名并生成hosts的程序,Github连接 。其中还做了根据域名规则嗅探新的域名。程序写的很渣,一直没好意思写Readme。

目前有四万行,可看Youtube全站,基本上用个三四个月都不用更新,我一般都是遇到硬需求才会更新一把(譬如youtube很多视频访问不了了)。

hosts文本下载链接:https://padeoe.com/file/hosts

 

基于最小割算法的点云分割

计算机图形学课两个课题之一,我的第一个选题其实就已经把第二次选题(图形分割)做完了,老师问我,那你还用第一次选题的RANSAC算法吧,结果脑子一热装了把逼“不不,我做最小割算法分割吧,学习新知识嘛”。

1.与其他分割算法的不同

目标:不是将点云分成多个部分,而是将前景对象从背景点中分离出来

特点:

  • 不关心细粒度特征例如曲率,而是只依赖点间距和点密度来分割。

Read More.

1 2 3 4