Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于text.pt文件的一些问题? #4

Open
KingMaoDou opened this issue Feb 23, 2024 · 6 comments
Open

关于text.pt文件的一些问题? #4

KingMaoDou opened this issue Feb 23, 2024 · 6 comments

Comments

@KingMaoDou
Copy link

image
想问一下作者这里的text.pt是什么维度的呢?(201,768)么?

@KingMaoDou
Copy link
Author

其中第一行时desc的编码,剩余200行是tweet的编码?

@LzyFischer
Copy link
Owner

是的,这里第一个token是desc,剩余是tweet*200

@KingMaoDou
Copy link
Author

作者,您好。

请问你们是怎么处理Cresci-15数据集的呢?我下载了Cresci-15的原始数据集,但是里面似乎由五个压缩包组合而成,我不知道如何将它整理成一个用于推特机器人检测的数据集。
 

或者,作者您这边是否方便为我提供一些数据支持?这些数据我将会仅作为研究使用:

1)您能否为我提供处理好的关于Cresci-15的 .pt文件?  
(我这里对用户推文的处理有特殊要求。就像Twibot-20中的推文处理一样,对于每个用户,我想要它每条推文的单独嵌入,而不是所有求和后的嵌入
 )

2)如果您不方便提供处理好的.pt文件,是否能为我提供整理好的文本形式的Cresci-15数据集?我可以自己进行后续的编码操作。

这是我的电子邮箱,我们可以通过邮箱进行后续的文件传输吗?[email protected]

谢谢!

@LzyFischer
Copy link
Owner

您好, 我目前可能没有保存好的Cresci-15的文件,我后面可能会再重新写code生成一次,但目前可能无法提供。cresci-15 raw dataset 不包含label,所以你(1)可以问问cresci-15的提供者 (2)问问我们paper的另一个共一和其他作者,他们可能会有保存。

@KingMaoDou
Copy link
Author

KingMaoDou commented May 1, 2024 via email

@KingMaoDou
Copy link
Author

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants