11 – MengdianACG

撰写日记

2024-1-18

2024年1月18日，随着除夕即将到来，各类软件平台上的年度报告依次出现在软件首推和朋友圈，突然想起来在好几年前就看见过一个GitHub的开源项目——WeChatMsg（事实上昨天晚上就又在B站刷到这个开源项目了），能够提取微信聊天，加上这几年的分析模型，我在想能不能做一个和小昕昕的聊天报告，在B站上搜集了很久，加上要学Python，于是从今天开始准备以Python作为处理语言对我和小昕昕的聊天消息进行分析~

2024-1-17

今天在B站看到一个视频

不过我发现这个开源项目完全没做完... ...还以为能够直接懒狗一步到位... ...

2024-1-25

很长时间没有更新了，还是在Github上直接搜索比较方便，找到了之前的那个开源项目WeChatMsg，利用留痕将小叶叶和小昕昕的聊天记录单独提取出来啦！然后就是摸索一下分析方法~

2024-1-26

将聊天记录的CVS文件丢到微词云获得了词云图！终于开发第一步（）。真不知道得做到什么时候。

2024-2-1

一个大佬在博客撰写了WeChatMsgAnalysis方法与部分代码教程，照葫芦画瓢，希望就在眼前！

2024-2-2

遇到瓶颈，很晚了还是没有弄清楚某部分代码，Python还能这么难？

2024-2-3

鸽了

2024-2-4

好好睡了一觉起来灵感大爆发！感觉今天就能拿下！没忍住跟小昕昕说了我在写报告，结果小昕昕猜出来了！这这这，为什么！？我还说给个惊喜呜呜呜... ...小昕昕说在B站有推给她的视频，感觉可能是因为我俩最近在分享B站视频，然后我一直在搜索微信聊天分析，就推给她了呜呜呜，算了，含着眼泪做下去。

总体分析

从开始聊天到2024年2月4日的数据分析！

聊天类型

以消息每条作为计数1，根据文本，图片，语音以及视频和表情包对消息进行分类，统计得到以下表格：

根据以下数据，以小昕昕的各类消息数量为基准A_i（i=1，2，3 ...）计算，设小叶叶各类消息为B_i，得到各类消息的数量差值C_i，以C_i/A_i得到差值比，来看一看小叶叶和小昕昕的各类聊天消息多少！

什么意思呢？也就是说，小叶叶在文本消息类比小昕昕多了3579条，比小昕昕的多了12.5%其他消息以此类推！除了语音和视频，小叶叶发的条数远远多于小昕昕！

虽然小昕昕之前说自己不会喜欢不是特别熟悉的时候别人发语音，但是她自己还是比较喜欢发语音的~最早追溯到九月十六号我们的聊天，聊到关于她的辅修课~

消息长度

根据GitHub的WechatAnalysis开源项目，用Python代码对消息进行长度分析

mu, std = 0, 0
data = {"Length": [], "Person": []}
for i in range(2):
    length = [len(textFilter(i)) for i in texts[i]]
    data["Length"] += length
    data["Person"] += [labels[i]] * len(length)
    if np.mean(length) + sN * np.std(length) > mu + std:
        mu, std = np.mean(length), np.std(length)
xlim = int(np.ceil(mu + sN * std))

data = pd.DataFrame(data)
bins = np.linspace(0, xlim, xlim + 1)

ax = sns.histplot(
    data=data,
    x="Length",
    hue="Person",
    bins=bins,
    multiple=multiple,
    edgecolor=".3",
    linewidth=0.5,
    palette="dark",
    alpha=0.6,
)
ax.set_xlim(0, xlim)
ax.set_xlabel("Length of Message")

ax.figure.set_size_inches(8, 4)
ax.figure.set_dpi(150)
plt.show()
plt.close()

获取到以下表格：

在短于5个字的消息小昕昕所发多于小叶叶，但是一旦超过5个字，小叶叶跟个话痨一样！小昕昕比较偏向于发比较短的语句，小叶叶喜欢写长文，特别是小作文(bushi)。

聊天时间！

以每日每个时段的聊天消息数量平均数作为计算目标，得到以下代码：

data = {"Time": [], "Person": []}
for i in range(2):
    hour = dfs[i]["hour"].to_list()
    data["Time"] += hour
    data["Person"] += [labels[i]] * len(hour)

data = pd.DataFrame(data)
bins = np.arange(0, 25, 1)

ax = sns.histplot(
    data=data,
    x="Time",
    hue="Person",
    bins=bins,
    multiple=multiple,
    edgecolor=".3",
    linewidth=0.5,
    palette="dark",
    alpha=0.6,
)
ax.set_xticks(bins)
ax.set_xticklabels(bins)
ax.set_xlabel("Hour")
ax.set_xlim(0, 24)
sns.move_legend(ax, loc="upper center", bbox_to_anchor=(0.5, 1.2), ncol=2)

ax.figure.set_size_inches(8, 4)
ax.figure.set_dpi(150)
plt.show()
plt.close()

表格如图

看来我俩聊天多的时间还是比较阴间的……居然最晚到四五点都还在聊天！总是聊天熬夜到两点，之后还是要早点睡的……比较都在一起了，线下多交流交流嘿嘿！

聊天时间分布图（）

再将所有周一总数，所有周二总数，所有周三总数... ...作为计量，得到一周内聊天的消息多少！得到以下表格~

为什么周四最多周二周三最少呢？！

根据我的分析，大概是因为周二是通识课，小叶叶和小昕昕一直在一起，就不用发消息啦，而周三的英语课小昕昕认真听课就和小叶叶聊的少(应该是吧？)，但是周四立马戒断，加上小叶叶上午有自己的英语课和小昕昕在一起机会少，就框框聊天（）。

聊天热力图

以每周聊天消息总数作为聊天热力比较，根据以下代码得到以下表格，横坐标是每周起始日期！

grouper = pd.Grouper(key="StrTime", freq="W-MON")
data = df.groupby(grouper)["Count"].sum().to_frame()
data.index = pd.date_range(start=wStart, end=wEnd, freq="W-MON").strftime("%m-%d")
data.columns = ["Count"]

vM = np.ceil(data["Count"].max() / wTicks) * wTicks
norm = plt.Normalize(0, vM)
sm = plt.cm.ScalarMappable(cmap="Reds", norm=norm)

ax = sns.barplot(x=data.index, y=data["Count"], hue=data["Count"], hue_norm=norm, palette="Reds")
ax.set_xlabel("Date")
plt.xticks(rotation=60)
for bar in ax.containers:
    ax.bar_label(bar, fontsize=10, fmt="%.0f")
ax.get_legend().remove()

axpos = ax.get_position()
caxpos = mtransforms.Bbox.from_extents(axpos.x1 + 0.02, axpos.y0, axpos.x1 + 0.03, axpos.y1)
cax = ax.figure.add_axes(caxpos)

locator = mticker.MultipleLocator(wTicks)
formatter = mticker.StrMethodFormatter("{x:.0f}")
cax.figure.colorbar(sm, cax=cax, ticks=locator, format=formatter)

ax.figure.set_size_inches(20, 8)
ax.figure.set_dpi(150)
plt.show()
plt.close()

从逐渐熟悉的时候聊天热度上升，然后找机会线下在一起的时候热度减少，一直到十一月在一起，聊天数量又逐渐递增~然后渐渐地因为线下时间增加，尤其是期末考试接近了，线上聊天热度减少。放假后又猛增！一天到晚聊个不停，特别是最近()。

词分析

以下词分析利用PaddleNLP语音文本分析模型，这个模型常用于文本聊天等词汇分析，这个折腾挺久... ...不过！终于攻克掉啦！

常用词热度贡献

根据消息，依据中文停用词排除词汇，再根据出现频率来排列频繁使用消息词，并且从上到下排名，然后以各自发送次数/总出现次数作为热度贡献，得到以下表格（小叶叶好伤心呀，小昕昕就会噢呜呜呜，哭唧唧，不过还是小叶叶比小昕昕更较热情）。

情感分析模型

获取感情分析模型~

模型一

模型二

话说这俩模型还真大！我的服务器还没下过这么大的文件... ...但是由于模型是采取的国外的一个语言文本模型，可能不太适用于我们Chinese？

该模型的分数范围为[-1,1]

每周累计情感

将每周的情感积分积累，算的每周的情感得分~在11月在一起前三周情感得分并不高，实际上这段时间由于小叶叶总在找借口和小昕昕呆在一起，他俩聊天的频率在这段时间并不高，所以分数暴跌，不过在一起后短时期内情感指数又暴增了一会！随后的期末临近，小叶叶和小昕昕一起在图书馆复习，聊天消息量减少，就没有那么高了呜呜呜。放假后明显有一段时间的阶段，情感指数暴增！