业务场景:
拿到几十万域名,了解其大致业务,并筛选所需。
做法:
1、批量跑域名标题,这里借用第三方工具
https://github.com/dean2021/titlesearch
请求http及https+域名。结果是域名+标题的txt脚本
2、翻译
因为是非中文语言,翻译是必要步骤。改过有道脚本,但是某种语言走有道接口无法翻译,故舍弃。改过谷歌脚本,但是按行读取翻译的方式会被封禁(约3000次请求,即使添加随机ua);最后按块翻译,谷歌支持单次最大5000字节数据,极大程度上减少请求次数,避免被封。
脚本采用googletrans三方模块,需要安装指定版本:
pip install googletrans==4.0.0-rc1
其次,配合随机ua,修改模块发包代码,需要手动替换(不替换也可,看数据量及需求):
替换 Python39\Lib\site-packages\googletrans\client.py文件(增加随机ua)
脚本地址:
https://www.zerochen.top/download/Trans/client.py
https://www.zerochen.top/download/Trans/tranGG.py
注:因为脚本需要,传至个人博客,文章顺带贴了过去。个人首发,非转载。