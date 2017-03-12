ThoughtWorks洞见
ThoughtWorks洞见是ThoughtWorks的一个媒体渠道，汇集了来自ThoughtWorks最优秀的经验和思考，并分享给真正对软件有意愿思考和不断改进的人（修改自官方版本）。
截至目前为止，ThoughtWorks洞见已经汇集了50余位作者的300+篇文章（就在刚才，又有一篇更新）。那么这些文章中都在讨论什么样的话题呢？这篇文章将通过一些技术手段，提取出洞见中的关键字，然后采用可视化的方式呈现出来。
数据获取
本来我打算从
RSS上读feed，解析出文章的
link，再将所有文章爬一遍，最后保存到本地。不过写了几行代码后发现
Wordpress(ThoughtWorks洞见目前托管在一个Wordpress上)默认地只输出最新的
feed，这对于关键字提取来说数量远远不够。众所周知，语料库越大，效果越好。
既然是洞见本质上来说就是一个静态站点，那么最简单、最暴力的方式就是直接把站点克隆到本地。这一步通过使用
wget可以很容易做到：
1
2
wget --mirror -p --html-extension --convert-links -e robots=off -P . \
http://insights.thoughtworkers.org/
默认地，
wget会以站点的完整域名为目录名，然后保存整个站点到本地。我大概看了一下，其实不需要所有的目录，只需要一个层次即可，所以这里用
find来做一个过滤，然后将文件名写到一个本地文件
filepaths中。
1
find insights.thoughtworkers.org/ -name index.html -depth 2 > filepaths
这个文件的内容是这样的：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
insights.thoughtworkers.org/10-common-questions-of-ba/index.html
insights.thoughtworkers.org/10-tips-for-good-offshore-ba/index.html
insights.thoughtworkers.org/10-ways-improve-your-pairing-experience/index.html
insights.thoughtworkers.org/100-years-computer-science/index.html
insights.thoughtworkers.org/1000-cars-improve-beijing-transportation/index.html
insights.thoughtworkers.org/3d-printing/index.html
insights.thoughtworkers.org/4-advices-for-aid/index.html
insights.thoughtworkers.org/5-appointments-with-agile-team/index.html
insights.thoughtworkers.org/5-ways-exercise-visual-design/index.html
insights.thoughtworkers.org/7-step-agenda-effective-retrospective/index.html
insights.thoughtworkers.org/a-decade/index.html
insights.thoughtworkers.org/about-team-culture/index.html
insights.thoughtworkers.org/about-tw-insights/index.html
insights.thoughtworkers.org/agile-coach/index.html
insights.thoughtworkers.org/agile-communication/index.html
insights.thoughtworkers.org/agile-craftman/index.html
...
数据处理
这样我就可以很容易在python脚本中读取各个文件并做处理了。有了文件之后，需要做这样一些事情：
- 抽取HTML中的文本信息
- 将文本分词成列表
- 计算列表中所有词的TFIDF值
- 将结果持久化到本地
这里需要用到这样一些pyhton库：
- BeautifulSoap 解析HTML文档并抽取文本
- jieba 分词
- sk-learn 计算TFIDF值
- pandas 其他数据处理
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
def extract_post_content(file):
soup = BeautifulSoup(open(file).read(), "html.parser")
return soup.find('div', attrs={'class': 'entry-content'}).text
def extract_all_text():
with open('filepaths') as f:
content = f.readlines()
file_list = [x.strip() for x in content]
return map(extract_post_content, file_list)
def extract_segments(data):
seg_list = jieba.cut(data, cut_all=False)
return [seg.strip() for seg in seg_list if len(seg) > 1]
def tfidf_calc():
corpus = [" ".join(item) for item in map(extract_segments, extract_all_text())]
tfidf_calc()
extract_post_content函数用来打开一篇博客的HTML文件，并提取其中的
div.entry-content中的文本内容。
extract_all_text函数用来对文件
filepaths中的每一行（一篇洞见文章的本地文件路径）都调用一次
extract_post_content。而函数
extract_segments会使用
jieba来对每篇文章进行分词，并生成一个单词组成给的列表。最后，在函数
tfidf_calc中，通过一个列表推导式来生成语料库。
有了语料库之后，很容易使用
sk-learn来进行计算：
1
2
3
4
5
6
7
8
9
10
11
def tfidf_calc():
corpus = [" ".join(item) for item in map(extract_segments, extract_all_text())]
with open('stopwords-utf8.txt') as f:
content = f.readlines()
content.extend(['来说', '事情', '提供', '带来', '发现'])
stopwords = [x.strip().decode('utf-8') for x in content]
vectorizer = TfidfVectorizer(min_df=1, smooth_idf=False, sublinear_tf=True, stop_words=stopwords)
vectorizer.fit_transform(corpus)
当然，由于处理的是中文，我们需要提供
停止词来避免对无意义的词的统计（
这个，
那个，
然后等等基本上每篇都会出现多次的词）。在经过
transform之后，我们就得到了一个稀疏矩阵和词汇表，以及对应的tdidf的值，我们使用
pandas提供的DataFrame来进行排序和存储即可：
1
2
3
4
5
6
7
8
def tfidf_calc():
#...
data = dict(zip(vectorizer.get_feature_names(), vectorizer.idf_))
result = DataFrame(data.items(), columns=['word', 'tfidf']).sort_values(by='tfidf', ascending=True).head(50)
result.to_csv('top-50-words-in-tw-insight.csv')
1
2
3
4
5
6
7
8
9
10
11
12
index,word,tfidf
15809,分享,1.06875559542
5228,方式,1.37439147148
8815,时间,1.39884256735
5128,工作,1.40380535669
21799,过程,1.47066830192
4225,开发,1.48675443967
12707,项目,1.49217450714
10527,技术,1.49762411191
20900,简单,1.49762411191
18756,团队,1.59512247639
...
可视化
单词云
1
2
3
4
5
6
7
8
9
10
11
12
13
d3.csv('top-16-words-in-tw-insight.csv', function(err, data) {
data.forEach(function(d) {
d.tfidf = +d.tfidf
});
d3.layout.cloud().size([1600, 900])
.words(data)
.rotate(0)
.fontSize(function(d) { return Math.round(54/(d.tfidf-1)); })
.on("end", draw)
.start();
});
这里我直接使用了一个第三方的单词云插件
d3.layout.cloud，提供一个callback函数
draw，当布局结束之后，插件会调用这个回调：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
function draw(words) {
d3.select("body").append("svg")
.attr("width", width)
.attr("height", height)
.attr("class", "wordcloud")
.append("g")
.attr("transform", "translate(" + width/2 + "," + height/2 +")")
.selectAll("text")
.data(words)
.enter().append("text")
.style("font-size", function(d) { return Math.round(54/(d.tfidf-1)) + "px"; })
.style("fill", function(d, i) { return color(i); })
.attr("transform", function(d) {
return "translate(" + [d.x, d.y] + ")rotate(" + d.rotate + ")";
})
.text(function(d) { return d.word; });
}
背景图制作
1
2
3
4
mkdir -p authors/ && cp wp-content/authors/* authors/
cd authors
mogrify -format png *.jpg
rm *.jpg
将作者的头像制作成一张9x6的大
蒙太奇图：
1
2
montage *.png -geometry +0+0 -resize 128x128^ -gravity center -crop 128x128+0+0 -tile 9x6 \
tw-insight-authors.png
后期处理
可以看出，ThoughtWorks洞见中最为关键（Top 16）的信息依次是：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
分享
方式
时间
工作
过程
开发
项目
技术
简单
团队
情况
代码
设计
系统
解决
功能
分享一词位居榜首还是略显意外，而且前50里竟然没有诸如
敏捷，
精益等原本以为会入围的词。
资料
- 完整的代码在此。
- 阮一峰老师对TFIDF的解释文章
- 陈皓对TFIDF的解释文章