业务场景

拿到几十万域名,了解其大致业务,并筛选所需。

做法:
1、批量跑域名标题,这里借用第三方工具
https://github.com/dean2021/titlesearch
请求http及https+域名。结果是域名+标题的txt脚本

2、翻译

因为是非中文语言,翻译是必要步骤。改过有道脚本,但是某种语言走有道接口无法翻译,故舍弃。改过谷歌脚本,但是按行读取翻译的方式会被封禁(约3000次请求,即使添加随机ua);最后按块翻译,谷歌支持单次最大5000字节数据,极大程度上减少请求次数,避免被封。
脚本采用googletrans三方模块,需要安装指定版本:

pip install googletrans==4.0.0-rc1

其次,配合随机ua,修改模块发包代码,需要手动替换(不替换也可,看数据量及需求):
替换 Python39\Lib\site-packages\googletrans\client.py文件(增加随机ua)

脚本地址:

https://www.zerochen.top/download/Trans/client.py

https://www.zerochen.top/download/Trans/tranGG.py

注:因为脚本需要,传至个人博客,文章顺带贴了过去。个人首发,非转载。