Extract URLs / Emails / IPs

Input Text

Extract Types

技术详情

数据提取器的工作原理

工具功能

数据提取器可以从混杂的文本中按类型提取特定格式的数据。支持的数据类型包括：电子邮件地址（[email protected]）、URL/域名、IP 地址（IPv4/IPv6）、电话号码、日期时间、十六进制颜色代码、信用卡号格式、MAC 地址、ISBN 编号、UUID 和哈希值（MD5/SHA）。工具使用各类型对应的正则表达式模式匹配引擎扫描输入文本，将匹配到的数据分类列出。你可以选择提取所有类型或仅提取特定类型，结果可复制或导出。

常见开发者使用场景

数据提取器在数据清洗和信息收集场景中效率极高。SOC 安全分析师从原始日志和威胁情报报告中提取 IOCs（失陷指标）——包括 IP 地址、域名、URL 和文件哈希值。数据工程师从非结构化的爬虫结果中提取邮件地址和联系方式。开源情报（OSINT）分析师从网页源代码、粘贴板或社交媒体数据中批量提取邮箱和域名用于进一步调查。开发者从调试日志中快速收集所有出现的错误码或 ID 列表。

配合正则测试器自定义更复杂的数据提取模式，或使用 URL 安全化处理对提取的可疑 URL 进行安全化后再保存。

数据提取的正则模式

每种数据类型背后是精心设计的正则表达式：

邮箱提取：匹配 [email protected] 格式。使用 RFC 5322 兼容的正则，同时考虑加号别名（user+tag@domain）和新顶级域名。
IP 地址提取：IPv4 用 \\b(?:[0-9]{1,3}\\.){3}[0-9]{1,3}\\b 并验证每段在 0-255 范围内。同时避免匹配版本号（如 1.2.3 但非 1.2.3.4）。
哈希值提取：MD5 是 32 字符 [a-f0-9]{32}、SHA-1 是 40 字符、SHA-256 是 64 字符。提取时需结合上下文避免误报（如 Git commit hash 也是 40 字符但实际不是 SHA）。
URL 提取：https?://[\\w.-]+(:\\d+)?(/[\\w./?=&%#@!$*+~-]*)? 匹配标准 URL，需处理结尾标点符号误匹配

常见陷阱与注意事项

误报（False Positives）：正则模式匹配到的数据可能不是真实的——例如一堆十六进制字符可能匹配到 MD5 模式但不是真实的哈希。工具会标注匹配置信度。
重叠匹配：email 地址 [email protected]（iCloud 等会出现），邮箱和 IP 地址可能重叠匹配。需要设定优先级规则。
Unicode 域名（IDN）：国际化域名（如中国.com）的 Punycode 表示（xn--fiq****）可能不会被标准 URL 正则匹配到。
去重：文本中多次出现的同一数据点应去重聚合显示，否则结果列表冗余且难以阅读。

何时使用此工具而非代码

在从日志中快速提取 IOC、清洗爬虫结果中的联系方式、或批量处理非结构化文本时使用此工具。对于需要编程化、大规模数据处理或自定义提取逻辑的场景，推荐使用 ioc-finder（Python 威胁情报 IOC 提取）、commonregex（Python）或编写针对性的 grep/sed 脚本。