送交者: 筋斗云 于 2012-03-28, 03:53:30:
定下课题后,目前主要找环境。暂时定下:
讨论区在百度俱乐部:文本分析俱乐部http://tieba.baidu.com/club/11560594
因为俱乐部不支持附件,附件用新浪微盘。
想了解韩寒代笔文本分析课题起因的,可见
"韩寒代笔的文本分析课题v10.doc" http://vdisk.weibo.com/s/3yCxv
本周进度
第一组资料组
上传了零下一度的文件。在 "零下一度.rar" http://vdisk.weibo.com/s/3wcEi
第三组IT组
因为词的分析较难,但是字的分析是简单的,首先完成了“零下一度”字的
统计工作,见 "零下一度log.rar" http://vdisk.weibo.com/s/3wcFf
第四组理论组
上传了关于文本分析的三本书,为英文
"An Introduction to Forensic Linguistics.pdf" http://vdisk.weibo.com/s/3l56p
"handbook_of_forensic_linguistics.pdf" http://vdisk.weibo.com/s/3l5_h
"Forensic Linguistics, Advances in Forensic Stylistics.pdf" http://vdisk.weibo.com/s/3l5TY
第五组判断组
文本理论中,关于字的极少。但是有一些关于标点符号的理论。
零下一度的标点符号统计没有决定性结论。
"零下一度标点统计.xls" http://vdisk.weibo.com/s/3wMh6
大家可以下载看看,是否有其它结论。
求医/书店 是逗号的比例高,句号比较少。
一起沉默/小镇生活 是逗号少,句号多。
是比较明显的极端,这可能是文体造成的。
文件名 总字数 , % 。 % 、 %
穿着棉袄洗澡 1189 44 3.700589 17 1.429773 4 0.336417
早已离开 6373 249 3.907108 210 3.295151 16 0.251059
眼中 5439 238 4.375804 125 2.298217 17 0.312557
一起沉默 5710 250 4.378284 199 3.485114 5 0.087566
小镇生活 8239 380 4.61221 286 3.471295 2 0.024275
永远的远方 1330 64 4.81203 41 3.082707
文学啊文学 2195 109 4.965831 57 2.596811 7 0.318907
足球啊足球 2928 147 5.020492 86 2.937158 6 0.204918
夕阳依旧美丽 3061 156 5.096374 96 3.13623
来自海边 3239 166 5.125039 85 2.624267 6 0.185242
读《人的末日》 2413 124 5.138831 50 2.072109 4 0.165769
傻子 3598 189 5.252918 100 2.779322 5 0.138966
那些事那些人 4810 254 5.280665 145 3.014553 2 0.04158
杯中窥人 1171 63 5.380017 31 2.64731 4 0.341588
兄弟成长于天蓝年代 3009 177 5.882353 79 2.625457 6 0.199402
三个地方的三轮车 3303 200 6.055101 90 2.724796 1 0.030276
第三个人 2473 150 6.065507 70 2.83057 7 0.283057
头发 3168 195 6.155303 81 2.556818 1 0.031566
书店 2097 130 6.199332 42 2.002861 5 0.238436
求医 2068 137 6.624758 46 2.224371 6 0.290135
书店2 2547 170 6.674519 57 2.237927 2 0.078524
框架基本搭好了,可行性很强,可以进入下一阶段:呼唤网友了。