Extract URLs / Emails / IPs
Input Text
技术详情
数据提取器的工作原理
工具功能
数据提取器可以从混杂的文本中按类型提取特定格式的数据。支持的数据类型包括:电子邮件地址([email protected])、URL/域名、IP 地址(IPv4/IPv6)、电话号码、日期时间、十六进制颜色代码、信用卡号格式、MAC 地址、ISBN 编号、UUID 和哈希值(MD5/SHA)。工具使用各类型对应的正则表达式模式匹配引擎扫描输入文本,将匹配到的数据分类列出。你可以选择提取所有类型或仅提取特定类型,结果可复制或导出。
常见开发者使用场景
数据提取的正则模式
每种数据类型背后是精心设计的正则表达式:
- 邮箱提取:匹配 [email protected] 格式。使用 RFC 5322 兼容的正则,同时考虑加号别名(user+tag@domain)和新顶级域名。
- IP 地址提取:IPv4 用 \\b(?:[0-9]{1,3}\\.){3}[0-9]{1,3}\\b 并验证每段在 0-255 范围内。同时避免匹配版本号(如 1.2.3 但非 1.2.3.4)。
- 哈希值提取:MD5 是 32 字符 [a-f0-9]{32}、SHA-1 是 40 字符、SHA-256 是 64 字符。提取时需结合上下文避免误报(如 Git commit hash 也是 40 字符但实际不是 SHA)。
- URL 提取:https?://[\\w.-]+(:\\d+)?(/[\\w./?=&%#@!$*+~-]*)? 匹配标准 URL,需处理结尾标点符号误匹配
常见陷阱与注意事项
- 误报(False Positives):正则模式匹配到的数据可能不是真实的——例如一堆十六进制字符可能匹配到 MD5 模式但不是真实的哈希。工具会标注匹配置信度。
- 重叠匹配:email 地址 [email protected](iCloud 等会出现),邮箱和 IP 地址可能重叠匹配。需要设定优先级规则。
- Unicode 域名(IDN):国际化域名(如 中国.com)的 Punycode 表示(xn--fiq****)可能不会被标准 URL 正则匹配到。
- 去重:文本中多次出现的同一数据点应去重聚合显示,否则结果列表冗余且难以阅读。
何时使用此工具而非代码
在从日志中快速提取 IOC、清洗爬虫结果中的联系方式、或批量处理非结构化文本时使用此工具。对于需要编程化、大规模数据处理或自定义提取逻辑的场景,推荐使用 ioc-finder(Python 威胁情报 IOC 提取)、commonregex(Python)或编写针对性的 grep/sed 脚本。