caolvchong-top / twitter_download

推特 图片 视频 爬虫;一键下载
330 stars 38 forks source link

大佬推特纯文字文本好像不能获取,需要更改什么地方呢 #47

Closed DKhacEC closed 2 months ago

DKhacEC commented 3 months ago

大佬推特纯文字文本好像不能获取,需要更改什么地方呢

caolvchong-top commented 3 months ago

这个工具主要是获取媒体文件的,文本内容暂时还不支持,后面重构的时候会加上 #20

DKhacEC commented 3 months ago

大佬有联系方式吗

DKhacEC commented 3 months ago

可以交流交流吗

caolvchong-top commented 3 months ago

你可以直接发需求,或者我主页上有邮箱,发邮件也行

DKhacEC commented 3 months ago

源代码对于纯文本过滤了吗,输出的json文件中找不到纯文内容

caolvchong-top commented 3 months ago

首先要把设置中的 [包含转推] 选项打开,不打开默认调用的媒体API,不含文字内容。

包含媒体文件的推文会有一个 ‘extended_entities’ 标签,在程序的179、183行会对这部分筛选,排除掉文本内容

DKhacEC commented 3 months ago

筛选这块大佬能不能再讲解一下,应该怎么改呢

caolvchong-top commented 3 months ago

像179、180行就可以直接注掉 (也就是去掉筛选 //里面对retweet的判断可以保留),在原本的地方根据你需要的写下处理逻辑 (183、202那两个extended_entities判断也一样),然后注意最后的return,然后修改主函数部分

//工程量可能有些大

DKhacEC commented 3 months ago

等大佬更新有点久,所以着急上手

DKhacEC commented 3 months ago

冒昧问下,大佬什么时候有时间更新

caolvchong-top commented 3 months ago

今明两天我会先更新个tag获取;

你可以把具体需要的内容,最后存储的格式,还有其他的需求尽可能全面的描述一下,我可以试试先写个简易版

不复杂的话可能后天吧

DKhacEC commented 3 months ago

还是根据时间,账号爬行,只是包含获取纯文本的贴文,字段就是时间、账号、文本内容即可

caolvchong-top commented 3 months ago

用什么方式存储呢?还是那个csv模板吗

DKhacEC commented 3 months ago

是的

caolvchong-top commented 3 months ago

行,我近期更新

DKhacEC commented 3 months ago

好的,感谢大佬

caolvchong-top commented 3 months ago

已更新

DKhacEC commented 3 months ago

ok,୧(๑•̀◡•́๑)૭

DKhacEC commented 3 months ago

line 160, in get_clean_save _time_stamp = int(raw_text['edit_control']['editable_until_msecs']) KeyError: 'editable_until_msecs' 这个报错,大佬能解答一下吗,text_down.py的问题

caolvchong-top commented 3 months ago

line 160, in get_clean_save _time_stamp = int(raw_text['edit_control']['editable_until_msecs']) KeyError: 'editable_until_msecs' 这个报错,大佬能解答一下吗,text_down.py的问题

应该是碰到特殊推文了,可以提供一下目标用户吗

caolvchong-top commented 3 months ago

已修复